本發明涉及音頻處理,具體涉及一種基于位置提示的多聲源雙耳音頻合成方法。
背景技術:
1、雙耳音頻合成(binaural?audio?synthesis,?bas)技術旨在從單聲道音頻輸入生成具有空間感知特性的雙耳音頻信號,為用戶提供沉浸式空間聽覺體驗。得益于雙耳聽覺系統,人類具備先天的空間定位、動態追蹤和感知優先聲源的能力,同時通過自然的聽覺與感知機制有效地抑制無關聲源。這種能力推動了對雙耳虛擬聽覺場景合成的研究,催生了多種多空間渲染方法的發展,這些方法可以從單聲道輸入生成雙耳音頻。現有方法大致可分為兩類:傳統的數字信號處理(dsp)方法與基于深度學習的渲染方法。傳統的dsp方法通過將單聲道信號與雙耳聲學傳遞函數(如頭部相關傳遞函數或基于房間沖擊響應的傳遞函數)進行卷積來合成雙耳音頻。雖然這種方法被廣泛采用,但它通過將空間化過程建模為級聯的線性時不變系統,過于簡化了聲音傳播中固有的非線性物理特性,因此往往無法生成具有高感知真實度與空間精度的雙耳信號。為克服這些局限,神經渲染方法應運而生。它們能夠捕捉自然雙耳音頻中的細粒度空間線索。通過結合位置信息并采用先進的神經網絡架構(如時序卷積網絡和去噪擴散概率模型),這些方法能夠實現更加真實且空間感更強的雙耳音頻合成。
2、與人類在自然環境中同時感知多個聲源的能力不同,無論是基于dsp還是基于深度學習的單聲道到雙耳音頻合成方法通常假設可獲得干凈且完全分離的單個聲源信號。然而,在現實世界中,由于復雜的聲學環境、環境干擾及傳感器噪聲,獲取這種干凈的聲源信號是十分困難的。一些基于視覺條件的單聲道到雙耳音頻合成方法會先進行音源分離,然后根據視覺線索推斷的聲源位置來渲染分離后的信號。盡管聲源分離技術取得了顯著進展,但這類方法仍不可避免地在分離階段引入信號失真,并在后續渲染階段放大這些失真,從而降低最終生成的雙耳音頻的質量。因此,依賴顯式聲源分離的bas處理流程本質上容易受到音頻質量逐步下降的影響。
技術實現思路
1、為了解決上述現有技術中存在的問題,本發明提供了一種基于位置提示的多聲源雙耳音頻合成方法,解決現有技術無法直接從未經處理的多聲源混合單聲道信號中生成高質量雙耳音頻的技術問題。
2、一種基于位置提示的多聲源雙耳音頻合成方法,包括:
3、將單聲道輸入信號建模為混合信號,其中表示目標語音分量,表示非語音分量,給定用戶定義的位置提示用于指定目標聲源的期望空間位置,整個雙耳信號合成過程可表示為:
4、
5、其中表示由所提出的神經網絡架構參數化的函數,位置提示定義了非語音聲源在極坐標系中的位置,和分別表示聲源相對于聽者的距離與方向;
6、進一步地,所述神經網絡架構為編碼器-空間化器-解碼器結構;所述編碼器通過卷積層將時域單聲道混合信號轉換為頻域特征表示,隨后通過特征投影層將維度降至k維,再輸入到空間化器中進行處理,結合位置提示p進行條件調制,得到輸出特征y,最后,使用解碼器對y進行解碼,得到左耳信號序列和右耳信號序列,解碼器采用轉置卷積或上采樣結合卷積的方式,將潛在特征空間的表示恢復為原始采樣率的音頻波形。
7、進一步地,所述空間化器采用多階段、多尺度的分析-合成框架結構,所述多階段包括多個分析階段和多個合成階段,所述多尺度指在每個階段中使用多尺度的全局塊、局部塊和空間塊共同對提取到的特征進行處理,所述空間塊中引入特征級線性調制機制融合位置提示p;所述分析階段從混合信號中同時提取語音和非語音的特征,所述合成階段將相鄰分析階段的輸出特征進行拼接。
8、進一步地,所述分析階段包括:全局塊通過注意力機制捕獲長程依賴關系,局部塊通過卷積操作建模短程依賴關系得到特征序列,再通過下采樣序列長度依次從減半為,其中:?,?表示總階段數,第個階段的輸出包括下采樣后的特征和下采樣前的特征序列;輸入到對應的空間塊中,并在后續的合成階段中使用,在最后一個分析階段后,使用瓶頸模塊,用于將最深層的下采樣特征轉換為,處理后的特征經過空間塊生成雙通道特征,作為輸入傳遞給合成階段。
9、進一步地,第個空間塊接收下采樣后的特征序列和位置提示,所述位置提示p采用離散編碼方式,定義了非語音聲源在極坐標系中的位置,包括距離參數和方向角參數,以及一個特殊的無窮遠位置表示完全去除非語音信號的情況,位置提示首先通過特征級線性調制模塊進行處理,生成縮放系數和偏置項兩個調制參數,再將參數用于調制特征序列,調制方式按照以下公式進行:?接著,經過調制后的特征輸入一系列卷積層進行處理,最終生成空間控制后的輸出,其中輸出通道數翻倍為倍特征維度,以實現雙耳音頻生成,為后續生成左耳和右耳分離的雙耳音頻奠定基礎。
10、進一步地,所述合成階段包括:通過上采樣特征從上采樣為,上采樣后的特征在特征維度上與對應分析階段保存的特征進行拼接,得到組合特征,再經過一維卷積融合模塊處理,生成壓縮特征,依次經過堆疊的全局塊、局部塊和注意力塊處理,得到當前階段的輸出特征,后續的合成階段遵循相同的流程:將上采樣為,再與拼接,并通過一維卷積模塊融合得到,隨后,經堆疊的塊處理后生成,作為下一階段的輸入,重復此過程直至所有階段完成,最終的合成階段輸出雙耳特征序列。
11、進一步地,所述注意力塊由一個多頭注意力模塊和一個局部上下文增強模塊組成,用于捕獲全局依賴關系以及左右耳音頻之間的交互信息,確保生成的雙耳信號在空間一致性和相位關系上符合人類聽覺感知規律。
12、進一步地,所述全局塊由全局特征提取模塊和局部上下文增強模塊組成,所述全局特征提取模塊通過對輸入序列進行下采樣、多頭注意力處理和上采樣并與原始輸入融合,以建模長程依賴;所述局部上下文增強模塊通過歸一化、特征維度擴展、深度卷積、門控降維和恢復維度操作,以提取局部時序模式。
13、進一步地,所述局部塊由局部特征增強模塊和局部上下文增強模塊組成,所述局部特征增強模塊通過維度擴展、門控卷積與縮放操作提取細粒度局部特征,所述局部上下文增強模塊通過擴展、深度卷積與門控壓縮處理局部上下文信息。
14、本發明的有益效果包括:通過采用端到端的統一神經網絡架構,從根本上避免了傳統"分離-渲染"級聯方法中的累積失真問題,顯著提升了多聲源混合音頻場景下的雙耳合成質量。在空間化器中引入多階段分析-合成框架,通過全局塊捕獲長程依賴關系、局部塊提取細粒度時間細節,使得模型能夠在不進行顯式聲源分離的情況下直接從混合信號中提取和處理語音與非語音特征。同時,空間塊通過位置提示實現了對非語音信號空間位置的精確控制,而語音信號方向保持不變。
1.一種基于位置提示的多聲源雙耳音頻合成方法,其特征在于,包括:
2.根據權利要求1所述的一種基于位置提示的多聲源雙耳音頻合成方法,其特征在于,所述神經網絡架構為編碼器-空間化器-解碼器結構;所述編碼器通過卷積層將時域單聲道混合信號轉換為頻域特征表示,隨后通過特征投影層將維度降至k維,再輸入到空間化器中進行處理,結合位置提示p進行條件調制,得到輸出特征y,最后,使用解碼器對y進行解碼,得到左耳信號序列和右耳信號序列,解碼器采用轉置卷積或上采樣結合卷積的方式,將潛在特征空間的表示恢復為原始采樣率的音頻波形。
3.根據權利要求2所述的一種基于位置提示的多聲源雙耳音頻合成方法,其特征在于,所述空間化器采用多階段、多尺度的分析-合成框架結構,所述多階段包括多個分析階段和多個合成階段,所述多尺度指在每個階段中使用多尺度的全局塊、局部塊和空間塊共同對提取到的特征進行處理,所述空間塊中引入特征級線性調制機制融合位置提示p;所述分析階段從混合信號中同時提取語音和非語音的特征,所述合成階段將相鄰分析階段的輸出特征進行拼接。
4.根據權利要求3所述的一種基于位置提示的多聲源雙耳音頻合成方法,其特征在于,所述分析階段包括:全局塊通過注意力機制捕獲長程依賴關系,局部塊通過卷積操作建模短程依賴關系得到特征序列,再通過下采樣序列長度依次從減半為,其中:,?表示總階段數,第個階段的輸出包括下采樣后的特征和下采樣前的特征序列;輸入到對應的空間塊中,并在后續的合成階段中使用,在最后一個分析階段后,使用瓶頸模塊,用于將最深層的下采樣特征轉換為,處理后的特征經過空間塊生成雙通道特征,作為輸入傳遞給合成階段。
5.根據權利要求4所述的一種基于位置提示的多聲源雙耳音頻合成方法,其特征在于,第個空間塊接收下采樣后的特征序列和位置提示,所述位置提示p采用離散編碼方式,定義了非語音聲源在極坐標系中的位置,包括距離參數和方向角參數,以及一個特殊的無窮遠位置表示完全去除非語音信號的情況,位置提示首先通過特征級線性調制模塊進行處理,生成縮放系數和偏置項兩個調制參數,再將參數用于調制特征序列,調制方式按照以下公式進行:?接著,經過調制后的特征輸入一系列卷積層進行處理,最終生成空間控制后的輸出,其中輸出通道數翻倍為倍特征維度,以實現雙耳音頻生成,為后續生成左耳和右耳分離的雙耳音頻奠定基礎。
6.根據權利要求3所述的一種基于位置提示的多聲源雙耳音頻合成方法,其特征在于,所述合成階段包括:通過上采樣特征從上采樣為,上采樣后的特征在特征維度上與對應分析階段保存的特征進行拼接,得到組合特征,再經過一維卷積融合模塊處理,生成壓縮特征,依次經過堆疊的全局塊、局部塊和注意力塊處理,得到當前階段的輸出特征,后續的合成階段遵循相同的流程:將上采樣為,再與拼接,并通過一維卷積模塊融合得到,隨后,經堆疊的塊處理后生成,作為下一階段的輸入,重復此過程直至所有階段完成,最終的合成階段輸出雙耳特征序列。
7.根據權利要求6所述的一種基于位置提示的多聲源雙耳音頻合成方法,其特征在于,所述注意力塊由一個多頭注意力模塊和一個局部上下文增強模塊組成,用于捕獲全局依賴關系以及左右耳音頻之間的交互信息。
8.根據權利要求1所述的一種基于位置提示的多聲源雙耳音頻合成方法,其特征在于,所述全局塊由全局特征提取模塊和局部上下文增強模塊組成,所述全局特征提取模塊通過對輸入序列進行下采樣、多頭注意力處理和上采樣并與原始輸入融合,以建模長程依賴;所述局部上下文增強模塊通過歸一化、特征維度擴展、深度卷積、門控降維和恢復維度操作,以提取局部時序模式。
9.根據權利要求1所述的一種基于位置提示的多聲源雙耳音頻合成方法,其特征在于,所述局部塊由局部特征增強模塊和局部上下文增強模塊組成,所述局部特征增強模塊通過維度擴展、門控卷積與縮放操作提取細粒度局部特征,所述局部上下文增強模塊通過擴展、深度卷積與門控壓縮處理局部上下文信息。