本發明涉及音頻去噪,具體涉及基于視頻理解和音頻識別聯合優化的音頻去噪方法及系統。
背景技術:
1、現有的音頻去噪技術主要依賴于純音頻信號特征,通過頻譜分析或神經網絡模型(如?dnn、unet、transformer?等)從音頻信號中分離目標聲源與噪聲。
2、然而,傳統方法存在如下不足:(1)無法判斷哪些聲音應當出現在當前視頻場景中,因此對于語義上“不合理的聲音”(如在室內場景中的風聲、動物叫聲等)無法有效識別為噪聲。(2)僅依賴音頻特征的模型難以區分“背景音樂”與“有用環境聲”等語義相似但用途不同的聲音。
3、然而,多模態信息(尤其是視頻畫面)包含豐富的語義上下文,如場景類別、對象類型、環境特征等,這些信息可為音頻去噪提供語義約束,但目前缺乏系統性利用。
4、有鑒于此,特提出本技術。
技術實現思路
1、本發明所要解決的技術問題是現有音頻去噪方法未考慮多模態信息,尤其是視頻畫面信息,造成音頻去噪語義準確性不高等問題。本發明目的在于提供基于視頻理解和音頻識別聯合優化的音頻去噪方法及系統,基于視頻先驗聲事件預測、跨模態時序對齊與知識反饋校正進行音頻去噪,通過從視頻中提取場景、物體、動作和事件信息,預測視頻當前時間段內應當存在的聲音類別分布,并將該聲音類別分布與音頻中實際檢測到的聲音類別分布進行對齊比較,生成跨模態差異控制信號,以指導音頻去噪模型對不匹配的聲音成分進行選擇性抑制、對合理目標聲進行保留或補償,得到初步去噪結果;同時還引入知識圖譜對初步去噪結果進行邏輯一致性校驗和反饋修正。本發明提升了去噪結果在復雜環境下的語義準確性、時序一致性、邏輯合理性與可解釋性。
2、本發明通過下述技術方案實現:
3、第一方面,本發明提供了基于視頻理解和音頻識別聯合優化的音頻去噪方法,該方法包括:
4、獲取同一時間段內的原始音頻信號及對應的原始視頻信號;
5、對原始音頻信號進行特征提取,獲得原始音頻特征;根據原始音頻特征,基于音頻多類別識別模型進行多標簽音頻類別識別,獲得音頻類別時序概率矩陣;
6、對原始視頻信號進行視頻語義聲音預測,得到視頻語義類別概率矩陣;
7、將音頻類別時序概率矩陣與視頻語義類別概率矩陣進行跨模態時序對齊,得到跨模態差異引導向量;
8、將原始音頻特征、跨模態差異引導向量、三態語義控制向量和知識修正因子進行多源特征交叉注意力融合,得到聯合表示;三態語義控制向量是由應存保留量、異常抑制量和缺失補償量拼接后得到;
9、將聯合表示輸入音頻去噪模型中,輸出初步去噪結果。
10、進一步地,對原始音頻信號進行特征提取,獲得原始音頻特征;根據原始音頻特征,基于音頻多類別識別模型進行多標簽音頻類別識別,獲得音頻類別時序概率矩陣,包括:
11、對原始音頻信號進行特征提取,獲得各時間幀對應的原始音頻特征,并形成音頻特征序列;
12、將音頻特征序列輸入音頻多類別識別模型中,輸出各音頻類別的存在概率,并形成各時間幀的概率向量;
13、將各時間幀的概率向量按時間順序排列,形成音頻類別時序概率矩陣;音頻類別時序概率矩陣用于表征原始音頻信號在各時間幀上的多類型聲音事件分布情況。
14、進一步地,對原始視頻信號進行視頻語義聲音預測,得到視頻語義類別概率矩陣,包括:
15、基于視覺編碼器vit對原始視頻信號進行特征提取,獲得視覺特征;
16、根據視覺特征,基于視頻理解模型分別識別出場景、物體、動作和/或事件,并形成結構化語義集合;
17、將結構化語義集合輸入描述生成模塊,生成語義文本;
18、將語義文本輸入文本編碼器,得到語義文本向量;
19、預先構建音頻類別語義原型庫,將音頻類別語義原型庫中各類別描述輸入同一文本編碼器,得到類別原型向量;并將所有類別原型向量構成音頻類別語義原型庫;
20、計算語義文本向量與各類別原型向量的余弦相似度,并對所有余弦相似度進行歸一化,得到某一時間單元的視頻語義類別概率向量;
21、遍歷所有時間單元,形成視頻語義類別概率矩陣。
22、進一步地,三態語義控制向量的表達式為:
23、;
24、;
25、;
26、;
27、式中,為應存保留量,當音頻檢測和視頻檢測均認為該類聲音應存在時,則應存保留量較高;
28、為異常抑制量,當音頻檢測到該類聲音,但視頻認為該類聲音不應存在時,則異常抑制量較高;
29、為缺失補償量,當視頻認為該類聲音應存在,但音頻檢測較弱時,則對應補償量較高;
30、表示第?t?個時間幀中第?i?類聲音事件出現的概率;表示第?t?個時間單元的視頻語義類別概率向量。
31、進一步地,音頻去噪模型的主干網絡采用transformer的編碼器-解碼器網絡架構,表達式為:
32、;
33、;
34、式中,為表示編碼器輸出的隱藏特征表示,其包含融合后的全局上下文信息及跨模態語義信息;為表示編碼器函數,用于對輸入特征進行多層自注意力計算和前饋變換,以提取高層語義表示并建模長時序依賴關系;為將所述原始音頻特征、跨模態差異引導向量、三態語義控制向量和知識修正因子進行多源特征交叉注意力融合后得到的聯合表示;為表示解碼器輸出的特征表示,用于生成音頻去噪處理所需的時頻掩碼或頻帶調制參數;為表示解碼器函數,用于在編碼器輸出的基礎上進一步建模目標去噪特征,并生成用于音頻重建的表示。
35、進一步地,該方法還包括:
36、引入知識圖譜,對初步去噪結果進行閉環修正,得到最終目標去噪音頻信號。
37、進一步地,引入知識圖譜,對初步去噪結果進行閉環修正,包括:
38、將初步去噪結果再次輸入音頻多類別識別模型,得到重新識別后的音頻類別概率向量;
39、將視頻語義類別概率矩陣中的視頻語義類別概率向量、重新識別后的音頻類別概率向量和預構建的知識圖譜輸入知識推理模塊,判斷是否存在邏輯沖突;邏輯沖突包括應有而無、不應有而有或強制因果缺失;
40、若存在邏輯沖突,則根據視頻語義類別概率矩陣中的視頻語義類別概率向量、重新識別后的音頻類別概率向量和預構建的知識圖譜計算知識修正因子;
41、并將知識修正因子反饋給音頻去噪模型,對局部頻段進行二次調制和重構,得到最終目標去噪音頻信號。
42、第二方面,本發明又提供了基于視頻理解和音頻識別聯合優化的音頻去噪系統,該系統包括:
43、獲取單元,用于獲取同一時間段內的原始音頻信號及對應的原始視頻信號;
44、音頻識別單元,用于對原始音頻信號進行特征提取,獲得原始音頻特征;根據原始音頻特征,基于音頻多類別識別模型進行多標簽音頻類別識別,獲得音頻類別時序概率矩陣;
45、視頻語義預測單元,用于對原始視頻信號進行視頻語義聲音預測,得到視頻語義類別概率矩陣;
46、對齊單元,用于將音頻類別時序概率矩陣與視頻語義類別概率矩陣進行跨模態時序對齊,得到跨模態差異引導向量;
47、聯合表示單元,用于將原始音頻特征、跨模態差異引導向量、三態語義控制向量和知識修正因子進行多源特征交叉注意力融合,得到聯合表示;三態語義控制向量是由應存保留量、異常抑制量和缺失補償量拼接后得到;
48、音頻去噪單元,用于將聯合表示輸入音頻去噪模型中,輸出初步去噪結果。
49、第三方面,本發明又提供了一種電子設備,包括存儲器、處理器以及存儲在存儲器中并可在處理器上運行的計算機程序,處理器執行計算機程序時實現上述的基于視頻理解和音頻識別聯合優化的音頻去噪方法。
50、第四方面,本發明又提供了一種計算機可讀存儲介質,計算機可讀存儲介質存儲有計算機程序,計算機程序被處理器執行時實現上述的基于視頻理解和音頻識別聯合優化的音頻去噪方法。
51、本發明與現有技術相比,具有如下的優點和有益效果:
52、本發明基于視頻理解和音頻識別聯合優化的音頻去噪方法及系統,基于視頻先驗聲事件預測、跨模態時序對齊與知識反饋校正進行音頻去噪,通過從視頻中提取場景、物體、動作和事件信息,預測視頻當前時間段內應當存在的聲音類別分布,并將該聲音類別分布與音頻中實際檢測到的聲音類別分布進行對齊比較,生成跨模態差異控制信號(即跨模態差異引導向量),以指導音頻去噪模型對不匹配的聲音成分進行選擇性抑制、對合理目標聲進行保留或補償,得到初步去噪結果;同時還引入知識圖譜對初步去噪結果進行邏輯一致性校驗和反饋修正。本發明提升了去噪結果在復雜環境下的語義準確性、時序一致性、邏輯合理性與可解釋性。