本公開涉及語音處理,具體而言,涉及一種語音真偽的識別方法、裝置、電子設備及存儲介質。
背景技術:
1、目前,人工智能合成內容正在快速興起,體現在語音領域包括語音合成、錄音播放、拼接剪輯生成等諸多應用,相應的,針對合成語音的鑒偽工作也應運而生,語音鑒偽的主要方式是將語音數據輸送到語音鑒偽系統中,通過系統輸出的相似度判決是否為偽造語音。
2、在現在有的語音鑒偽過程中,廣泛存在的噪聲和混響可能會嚴重降低語音鑒偽系統的性能,鑒偽在實際應用中的表現仍然面臨著低信噪比、高混響和遠場拾音等挑戰,同時在實際應用場景中,聲音鑒偽需要面對復雜多樣的語音來源,常常會遇到泛化場景問題,即訓練和測試數據來源不同,因為語音的采集可能來源于不同的信道,如網絡即時通訊信道、電話/手機信道、錄音筆、聲音取證設備等,不同的信道會影響聲音的頻率響應和頻率分布,使得聲音鑒偽系統的性能急劇下降。
技術實現思路
1、本公開實施例至少提供一種語音真偽的識別方法、裝置、電子設備及存儲介質,可以在語音數據層面降低噪聲、混響、遠場拾音的干擾,同時利于提取真偽的全局信息,丟棄信道等殘差信息,提高了泛化場景的語音鑒偽能力。
2、本公開實施例提供了一種語音真偽的識別方法,所述方法包括:
3、獲取待識別語音;
4、將所述待識別語音輸入至預先訓練好的多任務學習模型,過濾所述待識別語音中包含的噪聲信號和混響信號,確定所述待識別語音對應的純凈語音,并將所述純凈語音分類為多個說話人語音;
5、針對多個所述說話人語音中的每一個,將該所述說話人語音輸入至預設的級聯殘差網絡,確定所述說話人語音對應的語音特征信息;
6、將所述語音特征信息輸入至由一維卷積網絡和壓縮激勵網絡構成的預設特征聚合網絡,在空間維度和通道維度聚合所述語音特征信息中包括的真偽特征信息,確定所述說話人語音對應的真偽特征向量;
7、將所述真偽特征向量經過預設損失函數的處理,確定所述說話人語音對應的真偽識別結果。
8、一種可選的實施方式中,所述將所述待識別語音輸入至預先訓練好的多任務學習模型,過濾所述待識別語音中包含的噪聲信號和混響信號,確定所述待識別語音對應的純凈語音,并將所述純凈語音分類為多個說話人語音,具體包括:
9、將所述待識別語音輸入至所述多任務學習模型中的編碼器,以使所述編碼器輸出所述待識別語音對應的語音編碼特征;
10、利用所述多任務學習模型中的多任務學習模型中的第一線性層,將所述語音編碼特征轉換為高維語音編碼特征;
11、將所述高維語音編碼特征依次經過所述多任務學習模型中的conformer網絡、激活層、第二線性層以及重疊相加的處理后,確定所述高維語音編碼特征對應的重建語音編碼特征;
12、將所述重建語音編碼特征輸入至所述多任務學習模型中的前饋網絡,確定所述重建語音編碼特征對應的說話人掩碼、噪聲掩碼以及混響掩碼;
13、根據所述噪聲掩碼以及混響掩碼過濾所述待識別語音中包含的噪聲信號和混響信號,確定所述待識別語音對應的純凈語音;
14、根據所述說話人掩碼,將所述純凈語音分類為多個說話人語音。
15、一種可選的實施方式中,在所述將所述待識別語音輸入至預先訓練好的多任務學習模型,過濾所述待識別語音中包含的噪聲信號和混響信號,確定所述待識別語音對應的純凈語音,并將所述純凈語音分類為多個說話人語音之后,所述方法還包括:
16、針對多個所述說話人語音中的每一個,確定該所述說話人語音對應的語音信號強度;
17、根據所述語音信號強度調整所述說話人語音對應的語音增益。
18、一種可選的實施方式中,在所述將所述待識別語音輸入至預先訓練好的多任務學習模型,過濾所述待識別語音中包含的噪聲信號和混響信號,確定所述待識別語音對應的純凈語音,并將所述純凈語音分類為多個說話人語音之后,所述方法還包括:
19、針對多個所述說話人語音中的每一個,確定該所述說話人語音對應的發音開始點以及發音終止點;
20、根據預設的時間范圍值,剪切所述發音開始點之前以及所述發音終止點之后,所述預設的時間范圍值之外的靜音區域。
21、一種可選的實施方式中,所述根據所述噪聲掩碼以及混響掩碼過濾所述待識別語音中包含的噪聲信號和混響信號,確定所述待識別語音對應的純凈語音,具體包括:
22、將所述噪聲掩碼與所述語音編碼特征相乘后進行一維反卷積處理,確定所述待識別語音中包含的噪聲信號;
23、將所述混響掩碼與所述語音編碼特征相乘后進行一維反卷積處理,確定所述待識別語音中包含的混響信號;
24、在所述待識別語音中濾除所述噪聲信號和混響信號,確定所述純凈語音。
25、一種可選的實施方式中,在所述獲取待識別語音之后,所述方法還包括:
26、將所述待識別語音輸入至依次級聯的預設噪聲過濾網絡、預設混響過濾網絡以及預設語音分離網絡,過濾所述待識別語音中包含的噪聲信號和混響信號,確定所述待識別語音對應的純凈語音,并將所述純凈語音分類為多個說話人語音。
27、本公開實施例還提供一種語音真偽的識別裝置,所述裝置包括:
28、獲取模塊,用于獲取待識別語音;
29、語音增強模塊,用于將所述待識別語音輸入至預先訓練好的多任務學習模型,過濾所述待識別語音中包含的噪聲信號和混響信號,確定所述待識別語音對應的純凈語音,并將所述純凈語音分類為多個說話人語音;
30、特征提取模塊,用于針對多個所述說話人語音中的每一個,將該所述說話人語音輸入至預設的級聯殘差網絡,確定所述說話人語音對應的語音特征信息;
31、特征融合模塊,用于將所述語音特征信息輸入至由一維卷積網絡和壓縮激勵網絡構成的預設特征聚合網絡,在空間維度和通道維度聚合所述語音特征信息中包括的真偽特征信息,確定所述說話人語音對應的真偽特征向量;
32、識別模塊,用于將所述真偽特征向量經過預設損失函數的處理,確定所述說話人語音對應的真偽識別結果。
33、一種可選的實施方式中,所述特征提取模塊具體用于:
34、將所述待識別語音輸入至所述多任務學習模型中的編碼器,以使所述編碼器輸出所述待識別語音對應的語音編碼特征;
35、利用所述多任務學習模型中的多任務學習模型中的第一線性層,將所述語音編碼特征轉換為高維語音編碼特征;
36、將所述高維語音編碼特征依次經過所述多任務學習模型中的conformer網絡、激活層、第二線性層以及重疊相加的處理后,確定所述高維語音編碼特征對應的重建語音編碼特征;
37、將所述重建語音編碼特征輸入至所述多任務學習模型中的前饋網絡,確定所述重建語音編碼特征對應的說話人掩碼、噪聲掩碼以及混響掩碼;
38、根據所述噪聲掩碼以及混響掩碼過濾所述待識別語音中包含的噪聲信號和混響信號,確定所述待識別語音對應的純凈語音;
39、根據所述說話人掩碼,將所述純凈語音分類為多個說話人語音。
40、一種可選的實施方式中,所述裝置還包括幅度優化模塊,所述幅度優化模塊用于:
41、針對多個所述說話人語音中的每一個,確定該所述說話人語音對應的語音信號強度;
42、根據所述語音信號強度調整所述說話人語音對應的語音增益。
43、一種可選的實施方式中,所述裝置還包括靜音優化模塊,所述靜音優化模塊用于:
44、針對多個所述說話人語音中的每一個,確定該所述說話人語音對應的發音開始點以及發音終止點;
45、根據預設的時間范圍值,剪切所述發音開始點之前以及所述發音終止點之后,所述預設的時間范圍值之外的靜音區域。
46、一種可選的實施方式中,所述特征提取模塊還用于:
47、將所述噪聲掩碼與所述語音編碼特征相乘后進行一維反卷積處理,確定所述待識別語音中包含的噪聲信號;
48、將所述混響掩碼與所述語音編碼特征相乘后進行一維反卷積處理,確定所述待識別語音中包含的混響信號;
49、在所述待識別語音中濾除所述噪聲信號和混響信號,確定所述純凈語音。
50、本公開實施例還提供一種電子設備,包括:處理器、存儲器和總線,所述存儲器存儲有所述處理器可執行的機器可讀指令,當電子設備運行時,所述處理器與所述存儲器之間通過總線通信,所述機器可讀指令被所述處理器執行時執行上述語音真偽的識別方法,或上述語音真偽的識別方法中任一種可能的實施方式中的步驟。
51、本公開實施例還提供一種計算機可讀存儲介質,該計算機可讀存儲介質上存儲有計算機程序,該計算機程序被處理器運行時執行上述語音真偽的識別方法,或上述語音真偽的識別方法中任一種可能的實施方式中的步驟。
52、本公開實施例提供的一種語音真偽的識別方法、裝置、電子設備及存儲介質,通過獲取待識別語音;將待識別語音輸入至預先訓練好的多任務學習模型,過濾待識別語音中包含的噪聲信號和混響信號,確定待識別語音對應的純凈語音,并將純凈語音分類為多個說話人語音;針對多個說話人語音中的每一個,將該說話人語音輸入至預設的級聯殘差網絡,確定說話人語音對應的語音特征信息;將語音特征信息輸入至由一維卷積網絡和壓縮激勵網絡構成的預設特征聚合網絡,在空間維度和通道維度聚合語音特征信息中包括的真偽特征信息,確定說話人語音對應的真偽特征向量;將真偽特征向量經過預設損失函數的處理,確定說話人語音對應的真偽識別結果。可以在語音數據層面降低噪聲、混響、遠場拾音的干擾,同時利于提取真偽的全局信息,丟棄信道等殘差信息,提高了泛化場景的語音鑒偽能力。
53、為使本公開的上述目的、特征和優點能更明顯易懂,下文特舉較佳實施例,并配合所附附圖,作詳細說明如下。