本發明屬于語音安全與人工智能,具體涉及一種基于時頻融合網絡的偽造語音檢測方法。
背景技術:
1、伴隨著人工智能和深度學習技術的飛速進步,語音合成和語音轉換等偽造語音技術日趨成熟。現代偽造語音技術已能生成與真實人聲幾乎無法區分的高質量語音,這些技術不僅應用于正規領域如有聲讀物、個性化語音助手等,也被不法分子利用于各類惡意和違法活動中,給社會安全和個人權益帶來了嚴峻挑戰。
2、語音偽造技術的快速演進,從傳統的波形拼接、錄音重放到基于深度學習的文本到語音合成(tts)和語音轉換(vc),其生成的語音逼真度日益提高,對自動檢測系統構成了嚴峻挑戰。面對日益成熟的偽造手段,偽造語音檢測技術也經歷了從依賴傳統信號處理特征到擁抱深度學習方法的演變,形成了兩大主流技術路線:管道式檢測器和端到端檢測器。其中,管道式檢測器遵循經典的“特征提取-分類器”模式;端到端檢測器則代表了當前研究的主流方向,它利用深度神經網絡強大的自動學習能力,直接從原始音頻波形或時頻圖(如頻譜圖)中學習區分真偽的特征表示和分類邊界,避免了手工特征設計的局限性。
3、盡管偽造語音檢測技術隨著深度學習的發展取得了長足進步,但現有的主流技術路線——管道式檢測器和端到端檢測器,在面對新型且復雜的偽造攻擊時仍暴露出明顯的局限性。管道式檢測器遵循“手工特征提取-分類器”的模式,其嚴重依賴于基于先驗知識設計的人工聲學特征(如mfcc等),這導致其難以捕捉深度神經網絡合成語音中存在的微小且非線性的偽影,且由于特征提取與分類器訓練分離,無法實現全局聯合優化,限制了高逼真度偽造語音的檢測精度。
4、相比之下,目前主流的端到端檢測器雖然避免了手工特征設計的局限,但在處理復雜聲學線索和難例樣本時存在不足。首先,現有端到端模型大多僅在原始波形或幅度譜上進行建模,往往忽略了相位信息的重要性;然而,許多先進的偽造技術(如神經聲碼器)雖然生成的幅度譜逼真,卻會在相位譜(特別是群延遲)上遺留固有的偽影,現有技術因缺乏對相位特征的顯式建模,導致對這類未知擾動的泛化能力較弱。其次,在訓練策略上,現有方法通常采用標準交叉熵損失函數同等對待所有樣本,缺乏針對樣本難度的動態評估機制,導致模型容易在大量簡單樣本上過擬合,而無法聚焦于難以分類的邊界樣本(難例),從而使得模型在面對類別不平衡和多變攻擊時魯棒性不足。
技術實現思路
1、本發明旨在提出一種基于時頻融合網絡的偽造語音檢測方法,該方法將在aasist圖神經網絡模型基礎上,通過并行引入并有效融合包含幅度譜和群延遲信息的相位感知特征,來增強特征表示的全面性,結合自適應損失函數來提升模型對多樣化擾動。
2、技術方案:為了解決上述技術問題,本發明采用的技術方案如下:
3、一種基于時頻融合網絡的偽造語音檢測方法,包括以下步驟:
4、步驟1:接收原始音頻波形信號;
5、步驟2:對原始音頻波形信號進行并行特征提取,獲得基礎時頻特征和相位感知特征;
6、步驟3:對基礎時頻特征和相位感知特征進行融合處理,生成融合特征圖;
7、步驟4:將融合特征圖輸入時頻圖注意力網絡進行建模與分類,輸出偽造語音檢測結果;
8、步驟5:在模型訓練階段,基于基礎時頻特征圖估計當前訓練樣本的難度概率,并利用該難度概率動態調整自適應損失函數的權重,以計算總損失并優化模型參數。
9、作為優選,s2中,獲得基礎時頻特征圖的實施過程為:
10、步驟2.1:基于aasist前端提取基礎時頻特征;
11、步驟2.2:提取相位感知特征,包括幅度譜和群延遲特征,并將幅度特征和群延遲特征沿通道維度進行拼接,最終輸出相位感知特征圖。
12、作為優選,步驟2.1中,獲得基礎時頻特征圖的實施過程為:
13、首先,將原始音頻波形信號輸入時域卷積層,該層采用參數化的類sinc函數作為卷積核,進行帶通濾波,輸出初始時頻譜特征;
14、然后,將初始時頻譜特征輸入一個由多個殘差卷積塊堆疊而成的編碼器網絡;
15、最后,編碼器網絡通過連續的卷積、批歸一化、selu激活函數及跳躍連接操作,逐步提取深層抽象特征,最終輸出基礎時頻特征圖。
16、作為優選,步驟2.2中,獲得相位感知特征圖的實施過程為:
17、首先,對原始音頻波形信號進行短時傅里葉變換,得到復數時頻譜;
18、然后,幅度譜處理分支:對幅度譜進行對數運算,得到對數幅度譜,然后將對數幅度譜輸入一個幅度譜卷積神經網絡,輸出幅度特征;
19、最后,相位譜處理分支:基于復數時頻譜計算群延遲特征,然后將群延遲特征輸入一個群延遲卷積神經網絡,輸出群延遲特征。
20、作為優選,在步驟3中,具體的實施過程為:
21、步驟3.1:對相位感知特征圖進行維度變換,將其時域和頻域維度通過插值法調整至與基礎時頻特征圖的維度一致,得到對齊后的相位感知特征圖;
22、步驟3.2:將基礎時頻特征圖與對齊后的相位感知特征圖沿通道維度進行拼接,形成聯合特征圖;
23、步驟3.3:將聯合特征圖輸入一個融合卷積層,該融合卷積層采用1×1卷積核,后接批歸一化層與relu激活函數,最終輸出融合特征圖。
24、作為優選,在步驟4中,具體的實施過程為:
25、步驟4.1:基于融合特征圖,構建時域和頻域節點集,然后對時域和頻域節點集應用獨立的圖注意力層進行域內特征學習,得到精煉后的時域節點集和頻域節點集;
26、步驟4.2:將精煉后的頻域節點集和時域節點集組合成異構圖,對該異構圖輸入異構堆疊圖注意力層進行跨域信息交互;
27、步驟4.3:設置多個并行處理分支,對來自不同分支的對應節點特征向量和堆疊節點特征向量分別進行元素級最大值操作;
28、步驟4.4:對最終的節點表示進行池化操作;將池化結果與最終的堆疊節點進行拼接,形成句子級表示,然后對句子級表示進行正則化、二分類操作,得到最終的檢測得分。
29、作為優選,在步驟4.3中,具體的實施過程為:
30、每個分支均包括異構堆疊圖注意力層,該步驟具體的計算公式為:
31、;
32、;
33、其中,表示經過最大圖操作處理后得到的最終圖節點表示集合;表示經過最大化操作后得到的最終堆疊節點特征向量;和分別表示最大圖操作結構中兩個并行處理分支branch1和branch2各自輸出的堆疊節點特征表示;表示branch1輸出的第k個節點的特征向量,表示branch2輸出的第k個節點的特征向量。
34、作為優選,在步驟4.4中,具體的實施過程為:
35、對最終的節點表示分別進行全局最大池化和全局平均池化;將池化結果與最終的堆疊節點進行拼接,形成句子級表示;具體為:
36、;
37、其中,表示句子級表示向量;表示拼接操作;表示全局最大池化;表示全局平均池化;表示經過最大圖操作處理后得到的最終圖節點表示集合;表示經過最大化操作后得到的最終堆疊節點特征向量;
38、然后,將句子級表示向量經過一個層進行正則化,然后送入一個線性全連接層進行二分類,得到最終的檢測得分,具體為:
39、。
40、作為優選,在步驟5中,具體的實施過程為:
41、步驟5.1:在訓練階段,基于基礎時頻特征通過攻擊難點檢測器估計樣本難度并輸出0-1之間的難度概率值;
42、步驟5.2:根據難度概率動態調整損失函數,結合加權交叉熵損失和焦點損失動態調整兩種損失的權重比例并通過反向傳播優化模型參數。
43、有益效果:與現有技術相比,本發明具有以下優點:
44、(1)本發明實現檢測性能顯著提升:通過并行提取并有效融合基礎時頻特征與相位感知特征,構建了更全面、更具判別力的聲學特征表示。
45、(2)本發明對未知擾動的泛化能力更強:本發明引入的相位感知特征(特別是群延遲)能夠捕捉到許多先進偽造技術在相位譜上遺留的固有偽影,這些是傳統幅度譜特征難以發現的線索。
46、(3)本發明對難例樣本的針對性優化:通過設置攻擊難點檢測器與自適應損失函數,本發明能夠自動識別并聚焦于難以分類的樣本。該機制動態調整訓練焦點,有效解決了類別不平衡和難例學習問題,避免了模型在簡單樣本上過擬合,從而整體上提升了模型的魯棒性和邊界樣本的區分能力。