本發明屬于通話降噪,尤其涉及免注冊聲紋通話降噪方法、電子設備和存儲介質。
背景技術:
1、相關產品:聯想pc個性化通話降噪、華為pc靜謐空間、榮耀magicpad2?ai聲紋降噪等。相關技術:deep?attractor?network(danet)深度吸引子網絡、dual-path?rnn?(dprnn)雙路徑循環神經網絡、speakerbeam說話人提取算法、voicefilter語音分離模型、audio-visual?speech?enhancement?(avse)音頻-視覺語音增強。
2、對于現有的技術或產品在通話過程中進行聚類注冊,在環境比較嘈雜的場景、多人參與的會議場景很難通過聲紋聚類得到比較純凈的主講人語音,聚類出信噪比較低的音頻、有干擾的主講人音頻、其他干擾人音頻。會對主講人會有抑制。現階段實時聲紋降噪對同行干擾,多人同時講話時性能不理想。基于神經網路的算法存在噪聲無法消除現象,無法準確和及時地估得突變的非平穩噪聲,無法準確的消除訓練集中未見過的噪聲,如貓狗叫、蟬鳴噪聲等等。
3、發明人發現,上述技術聚類不準確,導致其他干擾人聲誤闖到主講人的注冊信息中,這樣注冊好聲紋后就會包含多個說話人信息。對主講人通話可能有影響、此外對抑制干擾人性能降低。聲紋降噪本身難度較大、流式聲紋降噪對時延要求嚴格、尤其是同行干擾人影響時,性能一般較差。非平穩噪聲無法及時去除。
技術實現思路
1、本發明實施例提供一種免注冊聲紋降噪方法、電子設備和存儲介質,用于至少解決上述技術問題之一。
2、第一方面,本發明實施例提供一種免注冊聲紋降噪方法,包括:獲取實時通話過程中滿足總時長閾值的有效音頻,對所述有效音頻進行聚類,得到至少一類樣本點;獲取所述至少一類樣本點中樣本數據最多的一類樣本點,并將所述樣本數據最多的一類樣本點的有效音頻拼接進行聲紋注冊,得到聲紋信息,其中,所述樣本數據最多的一類樣本點的有效音頻為通話主講人的音頻;基于所述聲紋信息對訓練完成的降噪神經網絡進行輔助,使所述降噪神經網絡學習所述聲紋信息中每幀的聲紋特征的差異,得到降噪后的主講人音頻。
3、第二方面,本發明實施例還提供一種電子設備,其包括:至少一個處理器,以及與所述至少一個處理器通信連接的存儲器,其中,所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行第一方面所述方法的步驟。
4、第三方面,本發明實施例還提供一種存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現第一方面所述方法的步驟。
5、在本申請實施例的方法中,免注冊聲紋降噪,即在實時語音傳播的過程中,無需提前注冊說話人的聲紋信息,就可以只保留該說話人的音頻,過濾掉其他說話人的語音。在語音交互的過程中,通過無感注冊主講人聲紋即可更好的抑制干擾人聲和噪聲。在通話過程中,免注冊說話人身份,另一端依然可以清晰的聽到注冊說話人的聲音,不受其他人的人聲干擾。可以很好的保留注冊說話人的音頻有效的抑制其他說話人的干擾。
1.一種免注冊聲紋通話降噪方法,包括:
2.根據權利要求1所述的方法,其中,所述對所述有效音頻進行聚類,包括:
3.根據權利要求2所述的方法,其中,對所述有效音頻進行聚類,還包括:
4.根據權利要求3所述的方法,其中,在所述對分幀處理后保留的音頻進行特征提取之后,包括:
5.根據權利要求1所述的方法,其中,所述降噪神經網絡包括編碼器、即插即用單元和解碼器,所述降噪神經網絡訓練時用到的損失函數包括預測出的音頻和干凈音頻的尺度不變信噪比。
6.根據權利要求1所述的方法,其中,所述降噪神經網絡的訓練方法包括:
7.根據權利要求6所述的方法,其中,所述將預設數據轉換成帶噪音頻,包括:
8.根據權利要求1所述的方法,其中,所述基于所述聲紋信息對訓練完成的降噪神經網絡進行輔助,使所述降噪神經網絡學習所述聲紋信息中每幀的聲紋特征的差異,包括:
9.一種電子設備,其包括:至少一個處理器,以及與所述至少一個處理器通信連接的存儲器,其中,所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行權利要求2至8任一項所述方法的步驟。
10.一種存儲介質,其上存儲有計算機程序,其特征在于,所述程序被處理器執行時實現權利要求2至8任一項所述方法的步驟。