一種基于多層級語音表征的跨場景偽造語音檢測方法

文檔序號：45270944發布日期：2026-04-17 20:09閱讀：5來源：國知局

本發明涉及一種基于多層級語音表征的跨場景偽造語音檢測方法，屬于信息安全與人工智能。

背景技術：

1、隨著語音合成、語音轉換等技術的快速發展，偽造語音的生成質量不斷提升，給語音身份認證、語音取證及語音內容安全等應用場景帶來了新的安全隱患。因此，如何準確區分真實語音與偽造語音，已成為語音安全領域中的一項重要研究課題。

2、早期的偽造語音檢測方法主要依賴人工設計的聲學特征，并結合傳統分類模型進行判別。然而，此類方法對特定偽造算法和數據分布依賴較強，在面對未知偽造方式或復雜應用場景時，檢測性能往往顯著下降。為提升模型的表征能力與泛化性能，近年來有研究嘗試將預訓練的自監督學習語音表征模型引入偽造語音檢測任務。該類模型通常通過在大規模無標注語音數據上進行訓練，能夠學習到較為通用的語音聲學表征，在多種下游任務中表現出較強的遷移能力。

3、盡管引入自監督學習語音表征在一定程度上提升了偽造語音檢測的性能，但現有技術仍存在如下不足：

4、首先，現有方法普遍缺乏對多層級語音表征的有效建模機制。自監督學習語音模型通常由多層網絡結構構成，其不同層級的表征中蘊含著不同粒度的聲學信息與語義信息。然而，現有偽造語音檢測方法多僅利用模型的頂層輸出作為特征表示，忽略了中間層所包含的多尺度語音特征及潛在偽影信息，未能充分挖掘多層級語音表征的判別能力。

5、其次，在全局語音特征構建過程中，現有方法普遍采用簡單的時間平均或池化策略對幀級特征進行聚合。該類方法在聚合過程中對所有時間片段一視同仁，難以突出偽造語音中具有較強判別性的關鍵時間片段及其過渡特征，從而導致細粒度偽影信息在全局特征中被削弱。

6、此外，現有偽造語音檢測方法在跨場景應用中仍面臨泛化能力不足的問題。當檢測模型從訓練數據分布遷移至不同語音采集設備、信道條件、不同語音內容或未知偽造方法的數據集時，其檢測性能往往出現明顯下降，難以滿足實際應用中對跨數據集、跨場景魯棒檢測的需求。

7、因此，亟需一種能夠充分利用多層級語音表征信息，并在時間維度上有效突出關鍵判別特征，從而提升模型在跨場景條件下泛化能力的偽造語音檢測方法。

技術實現思路

1、本發明涉及語音深度偽造檢測技術領域，尤其涉及一種基于多層級語音表征的跨場景偽造語音檢測方法。其主要目的是針對現有偽造語音檢測方法在特征建模過程中存在的中間層語音表征利用不足、關鍵時間幀信息易被忽略，以及在不同語音采集條件或偽造方式變化場景下檢測性能不穩定的問題，提出一種能夠在多種應用場景下實現穩定檢測的偽造語音檢測方法。

2、為實現上述目的，本發明提供以下技術方案：

3、一種基于多層級語音表征的跨場景偽造語音檢測方法，所述方法包括：

4、從待測語音源獲取語音樣本，對語音樣本進行預處理；

5、將預處理后的語音樣本輸入經端到端聯合訓練好的偽造語音檢測模型中，偽造語音檢測模型輸出所述語音樣本的對應的檢測結果；

6、所述偽造語音檢測模型包括：

7、預訓練自監督學習語音表征模塊，用于接收預處理后的語音樣本，并提取所述語音樣本的多層級語音表征；

8、層級時間注意力網絡，用于接收所述預訓練自監督學習語音表征模塊處理的所述多層級語音表征并生成融合多層語義與聲學信息的判別特征；

9、輕量化分類器，用于接收所述層級時間注意力網絡的所述判別特征并輸出真實性得分與偽造性得分；

10、對比所述真實性得分與偽造性得分之間的最大值，以最大值對應的類別作為確定所述語音樣本的最終檢測結果。

11、進一步地，所述偽造語音檢測模型的訓練方法包括如下步驟：

12、步驟001.?獲取訓練語音樣本，包括真實語音與偽造語音；

13、步驟002.?從訓練集獲取語音樣本，輸入所述偽造語音檢測模型進行前向傳播，通過預訓練自監督學習語音表征模塊提取所述語音樣本的多層級語音表征，并通過層級時間注意力網絡生成融合多維上下文信息的判別特征；

14、步驟003.?將所述判別特征輸入輕量化分類器，輸出真實性得分與偽造性得分；

15、步驟004.?根據所述真實性得分與偽造性得分與真實標簽之間的差異計算損失函數，通過梯度下降算法聯合更新自監督學習語音表征模塊、層級時間注意力網絡及輕量化分類器的參數，同時在驗證集上評估模型性能；

16、步驟005.?重復步驟002至步驟004直至滿足訓練終止條件，所述訓練終止條件包括：達到預設訓練輪數，或驗證集上模型性能指標在連續若干輪內降低幅度小于預設閾值，或損失函數值在連續若干輪內降低幅度小于預設閾值；完成所述偽造語音檢測模型的端到端聯合訓練。

17、進一步地，所述預訓練自監督學習語音表征模塊包括卷積特征提取器、維度投影單元和上下文編碼器；

18、卷積特征提取器，用于對輸入的所述預處理后的語音樣本進行卷積特征提取，獲得卷積特征；

19、所述維度投影單元，用于接收所述卷積特征，利用線性層將所述卷積特征從初始維度映射至目標特征維度，以適配所述上下文編碼器的輸入格式；

20、所述上下文編碼器，用于對經維度投影后的特征序列進行上下文建模，并將所述上下文編碼器中各層級的輸出特征沿層級維度進行堆疊，獲得所述多層級語音表征；

21、所述多層級語音表征表示為如下公式：

22、

23、其中表示第層語音表征，表示總層數。

24、進一步地，所述層級時間注意力網絡包括高效層級注意力單元、層級求和單元、批歸一化單元、激活單元、層級維度壓縮單元、高效時間注意力單元以及統計注意力池化單元；

25、所述高效層級注意力單元，用于接收所述預訓練自監督學習語音表征模塊輸出的多層級語音表征，通過二維可學習權重張量及一維卷積層生成針對個層級的歸一化權重，并將所述歸一化權重與所述多層級語音表征進行逐元素乘法運算，輸出經層級重加權的多層級特征張量；

26、所述層級求和單元，用于接收所述經層級重加權的多層級特征張量，沿層級維度執行求和操作，輸出消除層級維度后的初始聚合張量；

27、所述批歸一化單元，用于接收所述初始聚合張量，對其執行二維批歸一化處理，輸出分布標準化后的聚合張量；

28、所述激活單元，用于接收所述分布標準化后的聚合張量，利用selu激活函數引入非線性特征，輸出激活后的聚合張量；

29、所述層級維度壓縮單元，用于接收所述激活后的聚合張量，執行維度壓縮操作以移除大小為1的冗余維度，輸出層級聚合表征；

30、所述高效時間注意力單元，用于接收所述層級聚合表征，通過線性層投影特征維度、一維卷積層捕獲局部時序上下文以及sigmoid激活函數生成時間注意力權重，并將所述時間注意力權重應用至所述層級聚合表征，輸出融合時間判別信息的語音幀級特征；

31、所述統計注意力池化單元，用于接收所述語音幀級特征，計算時間維度上每一幀的歸一化重要性分數，并基于所述分數分別計算加權均值向量與加權標準差向量，將所述加權均值向量與所述加權標準差向量進行拼接，以獲得所述層級時間注意力網絡輸出的所述判別特征。

32、進一步地，所述高效層級注意力單元包括層級權重建模子單元和層級表征重加權子單元；

33、層級權重建模子單元，用于接收所述上下文編碼器輸出的多層級語音表征，通過預設的二維可學習權重張量對所述多層級語音表征進行層級重要性建模，并通過一維卷積層提取特征后經激活函數處理，輸出歸一化權重張量；

34、所述層級表征重加權子單元，用于接收所述多層級語音表征與所述歸一化權重張量，將所述歸一化權重張量應用至所述多層級語音表征進行逐元素乘法運算，輸出經層級重加權的多層級特征張量。

35、進一步地，所述高效時間注意力單元包括時間維度投影子單元、時間權重建模子單元以及時間表征重加權子單元；

36、所述時間維度投影子單元，用于接收所述層級聚合表征，通過線性層將所述層級聚合表征的特征維度映射至預設的低維空間，輸出降維后的時間特征序列；

37、所述時間權重建模子單元，用于接收所述降維后的時間特征序列，對其執行一維卷積操作以捕獲局部時序上下文信息，并經由sigmoid激活函數處理，輸出時間注意力權重；

38、所述時間表征重加權子單元，用于接收所述層級聚合表征與所述時間注意力權重，將所述時間注意力權重應用至所述層級聚合表征進行逐元素乘法運算，輸出融合時間判別信息的語音幀級特征。

39、進一步地，所述統計注意力池化單元包括注意力加權子單元和統計特征提取子單元；

40、所述注意力加權子單元，用于接收所述高效時間注意力單元輸出的所述語音幀級特征，利用線性層及非線性激活函數計算時間維度上每一幀的非歸一化得分，并經由softmax操作輸出對應每一幀的歸一化重要性分數；

41、所述統計特征提取子單元，用于接收所述語音幀級特征與所述歸一化重要性分數，基于所述歸一化重要性分數分別對所述語音幀級特征進行加權均值計算與加權標準差計算，并將獲得的加權均值向量與加權標準差向量進行拼接，輸出所述層級時間注意力網絡生成的所述判別特征。

42、進一步地，所述將預處理后的語音樣本輸入經端到端聯合訓練好的偽造語音檢測模型中，偽造語音檢測模型輸出所述語音樣本的對應的檢測結果，包括：

43、將多層級語音表征輸入層級時間注意力網絡，得到融合多層語義與聲學信息的幀級判別特征,滿足以下公式:

44、

45、

46、

47、

48、

49、其中表示第層，為時間步數，為特征維度，表示三維權重張量，表示維度變換操作，表示softmax歸一化操作，表示每一層二維空間維度的歸一化權重，表示求和操作，表示卷積核為1，步長為1，對稱填充的一維卷積層，表示各層級權重，表示堆疊的層級權重，為sigmoid激活函數，表示層級聚合表征，表示元素級乘法操作，表示對層維度進行批歸一化，其輸入的通道數為1，表示層級維度壓縮單元，表示selu激活函數；

50、接著對層級聚合表征使用高效時間注意力單元對層級聚合表征在時間維度上進行判別貢獻建模，其輸出為融合時間判別信息的語音幀級特征，其公式如（3）所示：

51、

52、其中，表示層級聚合表征，表示語音幀級特征，表示第幀的語音幀級特征，表示線性層，其輸入維度為1024，輸出維度為1，用于投影特征維度，表示卷積核為1，步長為1，對稱填充的一維卷積層，表示維度變換操作，為sigmoid激活函數，表示元素級乘法操作；

53、接著將幀級判別特征輸入統計注意力池化單元，生成固定維度的語句級判別特征，其公式如（4）所示：

54、

55、其中，表示第幀的語音幀級特征，表示線性層，其輸入維度為1024，輸出維度為1024，用于特征映射，表示tanh激活函數，表示二維權重張量，其維度為(1024,1)，表示第幀的重要性分數，表示第幀的重要性權重，表示求和操作，表示加權均值特征，表示逐元素級乘法操作，表示加權標準差特征，表示向量拼接，表示語句級判別特征；

56、接著將語句級判別特征輸入輕量化分類器，得到真實性得分與偽造性得分，

57、

58、其中，里層表示線性層，其輸入維度為2048，輸出維度為1024，用于特征壓縮，表示selu激活函數，表示正則化，丟棄率為0.1，外層表示線性層，其輸入維度為1024，輸出維度為2，用于輸出分類的logits，表示softmax激活函數，通過對logits施加softmax操作，可得到對應的類別概率分布，其中真實性得分與偽造性得分分別表示樣本為真實與偽造的概率，

59、根據得分最大值確定語音樣本的預測標簽，其公式如（6）所示：

60、

61、輸出預測標簽。

62、進一步地，所述損失函數為：

63、

64、其中表示訓練集樣本總數，表示訓練集樣本索引，表示樣本的真實標簽，表示偽造語音樣本的權重，表示真實語音樣本的權重。

65、進一步地，所述通過梯度下降法聯合更新自監督學習語音表征模塊、層級時間注意力網絡及輕量化分類器的參數，同時在驗證集上評估模型性能，包括：

66、對訓練集與驗證集中的語音樣本進行預處理；

67、在每一訓練迭代中，將預處理后的訓練語音樣本輸入偽造語音檢測模型，經自監督學習語音表征模塊與層級時間注意力網絡提取語句級判別特征，并輸入輕量化分類器以得到語音樣本的真實性得分與偽造性得分；

68、依據所述真實性得分、偽造性得分及對應真實標簽計算訓練樣本損失，并將同一批次內訓練樣本損失取平均作為優化目標函數；

69、基于所述優化目標函數，通過反向傳播計算其關于自監督學習語音表征模塊、層級時間注意力網絡及輕量化分類器參數的梯度，并采用adam優化器按照梯度下降方向對三個模塊參數進行聯合更新，以實現端到端聯合優化訓練；

70、在每一輪訓練過程中，計算訓練集上的性能指標，以監控模型訓練過程中的性能變化；

71、在模型訓練過程中，基于驗證集計算驗證集損失以及驗證集上的性能指標，并根據所述訓練集損失與驗證集性能指標在訓練過程中的變化確定是否終止訓練過程；其中，當滿足以下任一條件時終止訓練過程：達到預設訓練輪數，或驗證集上模型性能指標在連續若干輪內降低幅度小于預設閾值，或損失函數值在連續若干輪內降低幅度小于預設閾值；完成所述偽造語音檢測模型的端到端聯合訓練。

72、與現有技術相比，本發明至少具有如下有益效果：

73、本發明通過對自監督學習語音模型產生的多層級語音表征進行聯合建模，充分利用不同層級中所蘊含的多粒度聲學信息與語義信息，避免僅依賴單一層級所帶來的表征能力受限問題；

74、本發明在層級維度與時間維度上引入注意力機制，在層級聚合過程中保持不同層級語音表征之間的互補性，并在時間維度上突出與偽造語音判別相關的關鍵時間幀及其過渡特征，從而增強判別特征的表達能力；

75、本發明所提出的方法不依賴于特定的自監督學習語音模型結構或訓練語料，具有良好的模型兼容性和可擴展性，能夠適配不同的預訓練語音表征模型；

76、本發明通過上述技術方案，降低了語音采集條件、信道環境及偽造方式變化對檢測性能的影響，在不同應用場景下具有較好的魯棒性和泛化能力，適用于多種實際偽造語音檢測應用場景。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：楊磊,徐小龍,段衛華,吳曉詩,羅衛蘭,王波
技術所有人：南京郵電大學
我是此專利的發明人

上一篇：一種移動電源電池壽命預測方法、設備、介質及產品與流程
下一篇：一種基于功率調節的永磁同步電機弱磁控制方法

網友詢問留言留言:0條

還沒有人留言評論。精彩留言會獲得點贊！

文明留言，給您點贊！

同類技術