本發明屬于人工智能和語音處理,具體涉及一種面向音頻的基于深度神經網絡話者分離方法、設備和介質。
背景技術:
1、在嘈雜的多說話人環境中,人類聽覺系統能夠聚焦并識別特定聲源,這一現象被稱為“雞尾酒會效應”。然而,使機器具備類似能力是一項極具挑戰性的任務。傳統的話者分離方法主要依賴于信號處理技術,例如譜減法、獨立成分分析(ica)以及基于計算聽覺場景分析的模型。這些方法通常在假設聲源統計獨立或已知先驗信息的前提下進行,但在復雜的真實場景中,其分離性能有限,難以處理重疊語音和非平穩噪聲,導致輸出語音的質量和清晰度往往不盡如人意。
2、近年來,深度學習的興起為語音分離任務帶來了革命性的突破。與依賴固定規則的傳統方法不同,深度學習模型能夠從海量的語音數據中自動學習并提取魯棒的聲學特征表示。通過端到端的訓練,這些模型可以直接從混合音頻中映射出各個說話人的干凈語音,顯著提升了分離的精度和魯棒性。基于深度學習的語音分離主要可通過幾種途徑實現:一是通過增強目標說話人的語音特征并抑制其他干擾,從而提升其清晰度和可懂度;二是直接抑制背景噪聲和其他說話人的聲音,以提高目標語音的信噪比;三是在多說話人場景下,將混合音頻分離為多個獨立的單聲道流,每個流僅包含一個說話人的語音。
3、深度學習在該領域的優勢主要體現在以下幾個方面:首先,深度神經網絡具備強大的非線性建模能力,能夠學習語音信號中復雜的結構和模式,從而實現更精細的分離。其次,得益于現代計算硬件,模型能夠利用大規模數據集進行訓練,從而獲得優異的泛化性能,適應多樣化的聲學環境。最后,深度學習框架具有良好的兼容性,可以靈活地與傳統的信號處理技術或其他的機器學習模塊相結合,形成混合系統以進一步提升整體性能。盡管已有顯著進展,但如何設計更高效、更輕量且適用于低算力設備的深度神經網絡模型,仍然是當前研究和應用中的一個重要方向。
技術實現思路
1、有鑒于此,本發明提供了一種面向音頻的基于深度神經網絡話者分離方法、設備和介質,能夠提高音頻處理和通信系統中各種應用的分離語音信號的質量和清晰度。
2、為實現本發明的目的,提供以下技術方案。
3、一種面向音頻的基于深度神經網絡話者分離方法,包括:
4、編碼器處理步驟:通過一維卷積操作,將輸入的混合語音波形分割為重疊的短片段,并將所述短片段映射至高維特征空間,得到高維特征表示;
5、分離模塊處理步驟:接收所述高維特征表示,利用基于時間卷積網絡構建的卷積分離模塊進行處理;所述卷積分離模塊包含多個堆疊的一維擴張卷積塊,每個所述一維擴張卷積塊具有不同的擴張率;在所述卷積分離模塊中,采用深度可分離卷積替代標準卷積,并引入殘差連接與跳躍連接;最終通過點卷積層為每個目標語音源估計一個乘法掩碼;
6、解碼器處理步驟:將所述乘法掩碼與編碼器輸出的所述高維特征表示進行元素級乘法運算,得到掩碼后的特征,再通過一維轉置卷積操作將所述掩碼后的特征重構回時域波形,并對重疊的重構片段進行求和,輸出分離后的單個語音源信號。
7、其中,所述深度可分離卷積的具體操作包括:
8、深度卷積階段:對輸入特征圖的每個通道,獨立應用一個卷積核進行卷積操作,生成深度特征圖;
9、點卷積階段:在所述深度卷積階段之后,使用1x1卷積核對所述深度特征圖的所有通道進行線性組合,以混合通道信息并生成最終的輸出特征圖。
10、其中,所述一維擴張卷積塊的具體操作包括:
11、對輸入的一維序列,使用具有預定擴張率的一維卷積核進行擴張卷積操作;
12、在所述擴張卷積操作后應用非線性激活函數;
13、可選地將所述擴張卷積操作的輸入與經過激活函數后的輸出相加,形成殘差連接;
14、將多個具有不同擴張率的所述一維擴張卷積塊進行堆疊。
15、其中,所述殘差連接用于將所述一維擴張卷積塊的輸入直接傳遞至其輸出端進行相加。
16、其中,所述跳躍連接用于將所有或部分所述一維擴張卷積塊的輸出進行求和,作為所述卷積分離模塊的最終特征輸出。
17、其中,在所述卷積分離模塊的每一層或特定層之后,還包括應用歸一化操作的步驟,以穩定訓練過程。
18、本發明還提供了一種電子設備,包括:至少一個處理器;以及與所述至少一個處理器通信連接的存儲器;其中,所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行本發明所述的面向音頻的基于深度神經網絡話者分離方法。
19、本發明還提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現本發明所述的面向音頻的基于深度神經網絡話者分離方法。
20、有益效果
21、1,本發明涉及輕量化的人體姿態估計算法以及面向視頻流的人體姿態關鍵點平滑方法,解決現有技術中信號的相位和幅度的解耦,語音分離時頻表示的次優性以及計算頻譜圖時的長延遲等缺陷。本發明能夠適用于低算力設備,在提供不低于一般視頻幀率的處理速度的基礎上,保證了姿態估計的準確性,并針對視頻流進行人體估計容易出現抖動誤差的問題提出了一種平滑方法,有效減少了視頻流中人物實例關鍵點的抖動誤差,提高了人體估計的準確率和平滑性。
22、2,本發明通過在時域直接處理原始語音波形,采用編碼器-分離模塊-解碼器的端到端架構,避免了傳統頻域方法中因相位和幅度解耦、時頻表示次優性帶來的信息損失與性能瓶頸,能夠更完整地保留和利用語音信號的全部信息,從而直接提升了分離語音的質量和清晰度。
23、3,本發明中,分離模塊的核心采用了輕量化的網絡設計。通過使用深度可分離卷積大幅減少了模型的參數量和計算復雜度,使得模型更易于部署在算力有限的邊緣或移動設備上。同時,利用一維擴張卷積塊并按不同擴張率堆疊,能夠在參數不顯著增加的前提下有效擴大網絡的感受野,精準捕獲語音信號中長距離的時序依賴關系,這對于理解連續的語音內容和分離重疊語音至關重要。
24、4,本發明融合了殘差連接與跳躍連接機制。殘差連接有效緩解了深層網絡訓練中常見的梯度消失問題,確保了網絡的穩定訓練與快速收斂。跳躍連接則實現了網絡不同層次特征的有效融合,使得淺層的細節特征與深層的語義特征能夠有機結合,增強了模型對語音特征的全局與局部建模能力,進一步優化了分離精度。
25、5,本發明方法流程緊湊高效,最小化處理延遲。編碼器對短片段進行處理,結合分離模塊的并行化潛力與輕量化結構,使得本發明不僅適用于離線語音文件處理,更能滿足實時語音通信、會議系統、智能助手等對低延遲有嚴格要求的應用場景的需求,具有廣泛的應用前景。
1.一種面向音頻的基于深度神經網絡話者分離方法,其特征在于,包括:
2.根據權利要求1所述的面向音頻的基于深度神經網絡話者分離方法,其特征在于,所述深度可分離卷積的具體操作包括:
3.根據權利要求1所述的面向音頻的基于深度神經網絡話者分離方法,其特征在于,所述一維擴張卷積塊的具體操作包括:
4.根據權利要求1所述的面向音頻的基于深度神經網絡話者分離方法,其特征在于,所述殘差連接用于將所述一維擴張卷積塊的輸入直接傳遞至其輸出端進行相加。
5.根據權利要求1所述的面向音頻的基于深度神經網絡話者分離方法,其特征在于,所述跳躍連接用于將所有或部分所述一維擴張卷積塊的輸出進行求和,作為所述卷積分離模塊的最終特征輸出。
6.根據權利要求1-5任意一項所述的面向音頻的基于深度神經網絡話者分離方法,其特征在于,在所述卷積分離模塊的每一層或特定層之后,還包括應用歸一化操作的步驟,以穩定訓練過程。
7.一種電子設備,其特征在于,包括:至少一個處理器;以及與所述至少一個處理器通信連接的存儲器;其中,所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行如權利要求1至6中任一項所述的面向音頻的基于深度神經網絡話者分離方法。
8.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執行時實現如權利要求1至6中任一項所述的面向音頻的基于深度神經網絡話者分離方法。