本申請涉及語音鑒偽,尤其涉及一種基于增強型時序及通道建模的語音反欺騙檢測方法及裝置。
背景技術:
1、隨著語音合成、聲音轉換技術的飛速發展,高保真偽造語音對自動說話人驗證(asv)、智能客服、金融認證等系統的安全性構成了嚴重威脅。為應對這一挑戰,學術界和工業界提出了多種語音反欺騙(speech?anti-spoofing)檢測方法。
2、當前,隨著數據質量和大模型技術的發展,偽造語音的逼真度越來越高,很多場景下可以達到“以假亂真”的程度。而語音反欺騙方法的性能往往受限于訓練數據有限、使用場景與訓練場景不匹配等現實情況的影響,在實際應用中存在泛化性能不佳的問題。
3、近來,基于自監督學習(self-supervised?learning,ssl)的預訓練語音大模型在各類語音下游任務(如語音識別、聲紋識別等)中都得到了比較好的效果,典型的ssl模型wav2vec?2.0、hubert、wavlm也被用于偽造語音鑒別任務中,與傳統鑒別特征梅爾倒譜系數(mel-frequency?cepstral?coefficient,mfcc)、線性頻率倒譜系數(lfcc,?linearfrequency?cepstral?coefficient)相比,明顯地提升了語音反欺騙模型的準確率。然而多數相關的方法僅利用ssl模型最后一層隱藏狀態進行分類,忽略了中間層所蘊含的豐富聲學細節與局部異常線索。研究表明,低層特征對波形失真敏感,高層特征對語義矛盾敏感,單一層次難以全面捕捉各類攻擊模式,在測試數據背景與訓練數據背景相差較多的場景下,模型泛化性能還是不足。
4、為進一步提升特征表達能力,近期研究提出res2net等嵌套融合結構,在通道維度上劃分特征并引入多分支累積連接,增強了局部表征多樣性。但該結構依賴卷積操作,受限于局部感受野,無法有效建模長距離時間依賴關系,且缺乏對不同層級抽象信息的自適應融合機制。
技術實現思路
1、本發明采用的技術方案是,如何有效解決現有技術中時序建模不足、特征利用不充分和噪聲敏感等問題,提升對高質量合成語音的檢測性能。有鑒于此,本發明提供了一種基于增強型時序及通道建模的語音反欺騙檢測方法及裝置。
2、本發明技術方案提出一種基于增強型時序及通道建模的語音反欺騙檢測方法,包括:
3、步驟1,將語音信號輸入預訓練自監督語音模型,獲取所述自監督語音模型中k個中間及輸出層的隱藏狀態特征;
4、步驟2,對每一層狀態特征執行嵌套式特征增強處理,獲得該層對應的句級表征向量;
5、步驟3,輸入所有層的所述句級表征向量,計算各層權重,并生成最終融合嵌入向量;
6、步驟4,將所述最終融合嵌入向量輸入分類器,輸出對應語音為真實語音或合成語音的判別結果。
7、在一個實施方式中,所述對每一層狀態特征執行嵌套式特征增強處理,獲得該層對應的句級表征向量進一步包括:
8、將該層狀態特征,即由 t幀、 d維特征構成的時序矩陣,沿通道維度劃分為 n個連續子組?,每個子組維度為?;
9、初始化一記憶變量?為零矩陣;
10、對于第 i個子組?,執行如下操作:
11、構造當前輸入;
12、將輸入一時序-通道聯合建模核心單元,得到中間輸出?=,其中所述包括多頭自注意力機制,用于同時建模時間維度上的幀間依賴關系與通道維度上的特征交互作用;
13、計算一門控向量,其中,表示沿時間維度的全局平均池化操作,為sigmoid函數;
14、生成更新后的記憶狀態,其中表示逐元素乘法;
15、將所有分支輸出?拼接成完整通道維度的增強特征?;
16、對?進行時域池化操作,獲得該層對應的句級表征向量?。
17、在一個實施方式中,所述模塊進一步包括層歸一化和前饋神經網絡子層,即構成transformer塊結構,時間鄰域w滿足5≤w≤20,對應于語音信號中0.1~0.4秒的時長,以降低計算復雜度并提升推理效率。
18、在一個實施方式中,所述多頭自注意力機制在計算注意力權重時引入相對位置編碼,以保留時間序列中的相對順序信息,并增強對語音起止邊界、停頓異常在內的局部偽造線索的敏感性。
19、在一個實施方式中,網絡層數k≥3,且選取位于自監督語音模型的中部及以上的網絡層。
20、在一個實施方式中,所述門控向量的計算過程中,為可學習權重矩陣,且該門控機制通過動態調節歷史記憶與當前輸出的貢獻比例。
21、在一個實施方式中,所述時域池化為注意力池化,即通過學習一組查詢向量,對進行加權聚合,得到,其中為基于與計算所得的注意力權重。
22、本發明的另一方面還提供了一種基于增強型時序及通道建模的語音反欺騙檢測裝置,包括:
23、獲取模塊,用于將語音信號輸入預訓練自監督語音模型,獲取所述自監督語音模型中k個中間及輸出層的隱藏狀態特征;
24、增強模塊,用于對每一層狀態特征執行嵌套式特征增強處理,獲得該層對應的句級表征向量;
25、融合模塊,用于輸入所有層的所述句級表征向量,計算各層權重,并生成最終融合嵌入向量;
26、判別模塊,用于將所述最終融合嵌入向量輸入分類器,輸出對應語音為真實語音或合成語音的判別結果。
27、本發明的另一方面還提供了一種電子設備,包括:存儲器以及處理器,所述存儲器上存儲有計算機程序,所述處理器用于執行所述計算機程序以實現如上任一項所述的基于增強型時序及通道建模的語音反欺騙檢測方法。
28、本發明的另一方面還提供了一種計算機存儲介質,所述介質上存儲有計算機程序,所述計算機程序被執行以實現如上任一項所述的基于增強型時序及通道建模的語音反欺騙檢測方法。
29、采用上述技術方案,本發明至少具備以下優點:
30、本發明所提供的方法,首先從預訓練自監督語音模型中提取多個網絡層的隱藏狀態;對每一層特征沿通道維度劃分為若干子組,并通過嵌套式處理結構依次輸入至增強型時序-通道建模模塊;在該模塊中,采用累積輸入方式結合多頭自注意力機制,同時建模時間幀間依賴與通道交互,并引入門控機制動態融合歷史記憶與當前輸出,實現細粒度特征增強;各層經時域池化后獲得句級表征,再通過跨層注意力機制自適應加權融合,生成最終嵌入向量并輸入分類器完成真實/偽造語音判別。本發明充分挖掘多層自監督學習模型特征的互補性,提升對未知合成語音攻擊的檢測魯棒性。
1.一種基于增強型時序及通道建模的語音反欺騙檢測方法,其特征在于,包括:
2.根據權利要求1所述的基于增強型時序及通道建模的語音反欺騙檢測方法,其特征在于,所述對每一層狀態特征執行嵌套式特征增強處理,獲得該層對應的句級表征向量進一步包括:
3.根據權利要求2所述的基于增強型時序及通道建模的語音反欺騙檢測方法,其特征在于,所述模塊進一步包括層歸一化和前饋神經網絡子層,即構成transformer塊結構,時間鄰域w滿足5≤w≤20,對應于語音信號中0.1~0.4秒的時長,以降低計算復雜度并提升推理效率。
4.根據權利要求2所述的基于增強型時序及通道建模的語音反欺騙檢測方法,其特征在于,所述多頭自注意力機制在計算注意力權重時引入相對位置編碼,以保留時間序列中的相對順序信息,并增強對語音起止邊界、停頓異常在內的局部偽造線索的敏感性。
5.根據權利要求2所述的基于增強型時序及通道建模的語音反欺騙檢測方法,其特征在于,網絡層數k≥3,且選取位于自監督語音模型的中部及以上的網絡層。
6.根據權利要求2所述的基于增強型時序及通道建模的語音反欺騙檢測方法,其特征在于,所述門控向量的計算過程中,為可學習權重矩陣,且該門控機制通過動態調節歷史記憶與當前輸出的貢獻比例。
7.根據權利要求2所述的基于增強型時序及通道建模的語音反欺騙檢測方法,其特征在于,所述時域池化為注意力池化,即通過學習一組查詢向量,對進行加權聚合,得到,其中為基于與計算所得的注意力權重。
8.一種基于增強型時序及通道建模的語音反欺騙檢測裝置,其特征在于,包括:
9.一種電子設備,其特征在于,包括:存儲器以及處理器,所述存儲器上存儲有計算機程序,所述處理器用于執行所述計算機程序以實現如權利要求1至7中任一項所述的基于增強型時序及通道建模的語音反欺騙檢測方法。
10.一種計算機存儲介質,其特征在于,所述介質上存儲有計算機程序,所述計算機程序被執行以實現如權利要求1至7中任一項所述的基于增強型時序及通道建模的語音反欺騙檢測方法。