音頻超分處理方法、音頻超分模型訓練方法及裝置與流程

文檔序號：45760856發(fā)布日期：2026-06-10 00:46閱讀：2來源：國知局

本公開涉及計算機技術、人工智能，尤其是一種音頻超分處理方法、音頻超分模型訓練方法及裝置。

背景技術：

1、語音信號處理在許多領域都有廣泛應用，例如，游戲開發(fā)、智能家居、自動駕駛等領域。語音超分辨率技術是語音信號處理中的一個重要分支，通過語音超分辨處理，能夠從低采樣率的語音信號生成高采樣率的語音信號，進而提高語音信號的質量和效果。

2、相關技術中，利用擴散模型從標準的高斯噪聲中逐步生成高分辨率音頻，實現(xiàn)了從無提示信息的噪聲中生成音頻的過程。但是該音頻超分處理方案中，基于無提示信息的噪聲生成音頻的軌跡較長，且不利于維護低頻部分的信號，進而導致所生成的音頻的準確性較低。

技術實現(xiàn)思路

1、本公開的實施例提供了一種音頻超分處理方法、音頻超分模型訓練方法及裝置。

2、根據(jù)本公開實施例的第一個方面，提供了一種音頻超分模型訓練方法，該方法包括：獲取多個超分數(shù)據(jù)對，每一個超分數(shù)據(jù)對包括表征同一音頻的低分辨率波形信號和高分辨率波形信號；針對每一個超分數(shù)據(jù)對，利用薛定諤橋模型建立從所述低分辨率波形信號到所述高分辨率波形信號的可解路徑；基于所述可解路徑，對所述待訓的練薛定諤橋模型進行訓練，得到訓練后的薛定諤橋音頻超分模型。

3、根據(jù)本公開實施例的第二個方面，提供了一種音頻超分處理方法，該方法包括：獲取待處理的低分辨率信號；利用線形插值算法，對所述待處理的低分辨率信號進行插值，得到生成先驗信息；基于所述生成先驗信息，利用訓練后的薛定諤橋音頻超分模型，生成高分辨率目標波形，所述訓練后的薛定諤橋音頻超分模型在生成所述高分辨率目標波形的每一個采樣步中保持所述生成先驗信息中的低頻信息不變。

4、根據(jù)本公開實施例的第三個方面，提供了一種音頻超分模型訓練裝置，包括：樣本獲取模塊，用于獲取多個超分數(shù)據(jù)對，每一個超分數(shù)據(jù)對包括表征同一音頻的低分辨率波形信號和高分辨率波形信號；路徑生成模塊，用于針對每一個超分數(shù)據(jù)對，利用薛定諤橋模型建立從所述低分辨率波形信號到所述高分辨率波形信號的可解路徑；音頻超分模型訓練模塊，用于基于所述可解路徑，對所述待訓的練薛定諤橋模型進行訓練，得到訓練后的薛定諤橋音頻超分模型。

5、根據(jù)本公開實施例的第四個方面，提供了一種音頻超分處理裝置，包括：獲取模塊，用于獲取待處理的低分辨率信號；調整模塊，用于利用線形插值算法，對所述待處理的低分辨率信號進行插值，得到生成先驗信息；生成模塊，用于基于所述生成先驗信息，利用訓練后的薛定諤橋音頻超分模型，生成高分辨率目標波形，所述訓練后的薛定諤橋音頻超分模型在生成所述高分辨率目標波形的每一個采樣步中保持所述生成先驗信息中的低頻信息不變。

6、根據(jù)本公開實施例的第五個方面，提供了一種計算機可讀存儲介質，計算機可讀存儲介質存儲有計算機程序，計算機程序用于執(zhí)行上述音頻超分處理方法或音頻超分模型訓練方法。

7、根據(jù)本公開實施例的第六個方面，提供了一種電子設備，電子設備包括：處理器；用于存儲處理器可執(zhí)行指令的存儲器；處理器，用于從存儲器中讀取可執(zhí)行指令，并執(zhí)行指令以實現(xiàn)上述音頻超分處理方法或者音頻超分模型訓練方法。

8、根據(jù)本公開實施例的第七個方面，提供了一種計算機程序產(chǎn)品，包括計算機程序指令，計算機程序指令被處理器執(zhí)行時，實現(xiàn)上述音頻超分處理方法或者音頻超分模型訓練方法。

9、基于本公開實施例，在訓練音頻超分模型時，首先獲取多個超分數(shù)據(jù)對，該超分數(shù)據(jù)對中包括表征統(tǒng)一音頻的低分辨率波形信號和高分辨率波形信號，針對每一個超分數(shù)據(jù)對，利用薛定諤橋模型建立從低分辨率波形信號到高分辨率波形信號的可解路徑，基于該可解路徑，對薛定諤橋模型進行訓練，得到訓練后的薛定諤橋音頻超分模型。本公開技術方案利用超分數(shù)據(jù)對訓練從低分辨率波形信號到高分辨率波形信號的薛定諤橋音頻超分模型，模型參數(shù)量小，模型具有輕量化特性，可以更靈活地部署在資源受限的硬件上，更適合在嵌入式設備和移動設備上使用，適用于廣泛的實際應用場景；此外，使得訓練后的薛定諤橋音頻超分模型能夠直接在音頻的波形空間對低分辨率的音頻進行優(yōu)化處理，獲取到高分辨率的音頻，在保持低頻數(shù)據(jù)的基礎上，恢復高頻部分的音頻細節(jié)，能夠極大地提高音頻超分處理的效率和高頻細節(jié)的保真度。

10、基于本公開實施例，在需要進行音頻超分處理時，獲取待處理的低分辨率信號；利用線形插值算法，對待處理的低分辨率信號進行插值，得到生成先驗信息；基于生成先驗信息，利用訓練后的薛定諤橋音頻超分模型，生成高分辨率目標波形，訓練后的薛定諤橋音頻超分模型在生成高分辨率目標波形的每一個采樣步中保持生成先驗信息中的低頻信息不變。本公開中利用訓練后的薛定諤橋音頻超分模型基于生成先驗信息生成與其對應的高分辨率目標波形的每一個采樣步中保持生成先驗信息中的低頻信息不變，專注于高頻信息的生成，優(yōu)化了音頻超分處理中的高頻細節(jié)和保真度，使得超分處理后的高分辨率信號更自然流程，而且直接在波形空間進行音頻超分處理避免了級聯(lián)誤差和數(shù)據(jù)空間損失問題。

11、下面通過附圖和實施例，對本公開的技術方案做進一步的詳細描述。

技術特征：

1.一種音頻超分模型訓練方法，其特征在于，包括：

2.根據(jù)權利要求1所述的方法，其特征在于，所述薛定諤橋模型采用隨機微分方程生成所述可解路徑；所述隨機微分方程通過非對稱噪聲調度策略的形式定義。

3.根據(jù)權利要求1所述的方法，其特征在于，所述基于所述可解路徑，對所述待訓的練薛定諤橋模型進行訓練，包括：

4.根據(jù)權利要求3所述的方法，其特征在于，所述多尺度輔助損失包括短時傅里葉變換幅度損失以及抗包裹相位損失；

5.根據(jù)權利要求3所述的方法，其特征在于，計算所述薛定諤橋模型損失，包括：

6.根據(jù)權利要求1-5任一所述的方法，其特征在于，所述獲取多個超分數(shù)據(jù)對，包括：

7.根據(jù)權利要求1-5任一所述的方法，其特征在于，所述獲取多個超分數(shù)據(jù)對，包括：

8.一種音頻超分處理方法，其特征在于，包括：

9.根據(jù)權利要求8所述的方法，其特征在于，所述生成先驗信息的采樣點和所述高分辨率目標波形的采樣點的數(shù)目相同。

10.一種音頻超分模型訓練裝置，其特征在于，包括：

11.一種音頻超分處理裝置，其特征在于，包括：

12.一種計算機可讀存儲介質，所述存儲介質存儲有計算機程序，所述計算機程序用于執(zhí)行上述權利要求1-9任一所述的方法。

13.一種電子設備，所述電子設備包括：

技術總結
本公開實施例公開了一種音頻超分處理方法、音頻超分模型訓練方法及裝置，包括：獲取多個超分數(shù)據(jù)對，每一個超分數(shù)據(jù)對包括表征同一音頻的低分辨率波形信號和高分辨率波形信號；針對每一個超分數(shù)據(jù)對，利用薛定諤橋模型建立從所述低分辨率波形信號到所述高分辨率波形信號的可解路徑；基于所述可解路徑，對所述薛定諤橋模型進行訓練，得到訓練后的薛定諤橋音頻超分模型。本公開訓練得到的薛定諤橋音頻超分模型能夠直接在音頻的波形空間對低分辨率的音頻進行優(yōu)化處理，獲取到高分辨率的音頻，在保持低頻數(shù)據(jù)的基礎上，恢復高頻部分的音頻細節(jié)，能夠極大地提高音頻超分處理的效率和高頻細節(jié)的保真度。

技術研發(fā)人員：請求不公布姓名
受保護的技術使用者：北京生數(shù)科技有限公司
技術研發(fā)日：
技術公布日：2026/6/9

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：請求不公布姓名
技術所有人：北京生數(shù)科技有限公司
我是此專利的發(fā)明人

網(wǎng)友詢問留言留言:0條

還沒有人留言評論。精彩留言會獲得點贊！

文明留言，給您點贊！

同類技術