一種基于機器學習的實時音頻通訊傳輸恢復方法與流程

文檔序號：35635574發布日期：2023-10-06 04:51閱讀：106來源：國知局

本發明涉及實時音頻傳輸優化，具體公開一種基于機器學習的實時音頻通訊傳輸恢復方法。

背景技術：

1、目前基于網絡的實時音頻傳輸，由于網絡的復雜性和不可靠性，會存在丟失數據幀的現象，目前采用的技術，一般基于包重傳技術或前向糾錯技術來恢復丟失數據幀，包重傳技術存在一來一往的應答，帶來較大的延時，前向糾錯會帶來冗余數據的傳輸，占用更大的傳輸帶。提出一種基于機器學習的實時音頻通訊傳輸恢復方法。

技術實現思路

1、鑒于現有技術中的上述缺陷或不足，本申請旨在提供一種基于機器學習的實時音頻通訊傳輸恢復方法，該實時音頻通訊傳輸恢復方法包括以下步驟：

2、步驟一、搜集大量應用場景中的音頻數據，利用大數據收集與應用場景相關的各種音頻數據，構造訓練模型，預測音頻的下一幀數據，訓練出一個預測模型供應用冷啟動；

3、步驟二、在實時音頻通訊過程中，不斷利用收到的數據進行實時在線更新預測模型，在實時通訊應用中在線訓練已有的模型，以目前收到的音頻數據為特征，以窗口滑動更新，每次預測下一幀數據，并以收到的下一幀數據作為標簽來矯正預測輸出，實時微調模型；

4、步驟三、當音頻傳輸數據丟失或者超時時利用預測模型的輸出填充解碼器輸出。

5、優選的，所述音頻數據為數字化的聲音數據。

6、優選的，所述音頻數據以一定的頻率對來自microphone設備的連續的模擬音頻信號進行模數轉換(adc)得到音頻數據的過程，且數字化聲音的播放就是將音頻數據進行數模轉換(dac)變成模擬音頻信號輸出。

7、優選的，所述音頻數據兩個重要的指標，分別為采樣頻率與采樣大小。

8、優選的，該所述實時音頻通訊傳輸恢復方法通過一個生成器來輸出一個idembedding的初始化值，且該方法通過使用已有的物品來模擬冷啟動的過程來學習這個生成器，對于每一個新加入的物品，都是用這個生成器預測id?embedding的初始化值，基于這個初始化值再做后續的訓練及預測。

9、優選的，微調模型包括以下步驟：

10、步驟一、在imagenet數據集上預訓練一個神經網絡模型，即源模型；

11、步驟二、創建一個新的神經網絡模型，即目標模型，它復制了源模型上除了輸出層外的所有模型設計及其參數，這些模型參數包含了源數據集上學習到的知識，且這些知識同樣適用于目標數據集；

12、步驟三、為目標模型添加一個輸出大小為目標數據集類別個數的輸出層，并隨機初始化該層的模型參數；

13、步驟四、在椅子數據集上訓練目標模型，從頭訓練輸出層，而其余層的參數都是基于源模型的參數微調得到。

14、優選的，編碼數據僅用于傳輸,無法直接渲染到屏幕上。

15、優選的，填充解碼器利用ffmpeg解析文件中的編碼的視頻流,并將壓縮視頻數據(h264/h265)解碼為指定格式(yuv,rgb)的視頻原始數據,以渲染到屏幕上。

16、有益效果：該基于機器學習的實時音頻通訊傳輸恢復方法，利用機器學習實時預測丟失數據，直接填充解碼器輸出，降低延時，利用通訊場景中的數據在線更新模型，獲得更優的預測效果，提升用戶體驗，降低實時音頻通訊應網絡傳輸錯誤帶來的延時增加，且通過已傳輸音頻數據，不斷預測后續音頻包數據。

技術特征：

1.一種基于機器學習的實時音頻通訊傳輸恢復方法，其特征在于：該實時音頻通訊傳輸恢復方法包括以下步驟：

2.根據權利要求1所述的一種基于機器學習的實時音頻通訊傳輸恢復方法，其特征在于：所述音頻數據為數字化的聲音數據。

3.根據權利要求1所述的一種基于機器學習的實時音頻通訊傳輸恢復方法，其特征在于：所述音頻數據以一定的頻率對來自microphone設備的連續的模擬音頻信號進行模數轉換(adc)得到音頻數據的過程，且數字化聲音的播放就是將音頻數據進行數模轉換(dac)變成模擬音頻信號輸出。

4.根據權利要求1所述的一種基于機器學習的實時音頻通訊傳輸恢復方法，其特征在于：所述音頻數據兩個重要的指標，分別為采樣頻率與采樣大小。

5.根據權利要求1所述的一種基于機器學習的實時音頻通訊傳輸恢復方法，其特征在于：該所述實時音頻通訊傳輸恢復方法通過一個生成器來輸出一個idembedding的初始化值，且該方法通過使用已有的物品來模擬冷啟動的過程來學習這個生成器，對于每一個新加入的物品，都是用這個生成器預測idembedding的初始化值，基于這個初始化值再做后續的訓練及預測。

6.根據權利要求1所述的一種基于機器學習的實時音頻通訊傳輸恢復方法，其特征在于：微調模型包括以下步驟：

7.根據權利要求1所述的一種基于機器學習的實時音頻通訊傳輸恢復方法，其特征在于：編碼數據僅用于傳輸,無法直接渲染到屏幕上。

8.根據權利要求1所述的一種基于機器學習的實時音頻通訊傳輸恢復方法，其特征在于：填充解碼器利用ffmpeg解析文件中的編碼的視頻流,并將壓縮視頻數據(h264/h265)解碼為指定格式(yuv,rgb)的視頻原始數據,以渲染到屏幕上。

技術總結
本發明提供有一種基于機器學習的實時音頻通訊傳輸恢復方法，該實時音頻通訊傳輸恢復方法包括以下步驟：搜集大量應用場景中的音頻數據，利用大數據收集與應用場景相關的各種音頻數據，構造訓練模型，預測音頻的下一幀數據，訓練出一個預測模型供應用冷啟動；在實時音頻通訊過程中，不斷利用收到的數據進行實時在線更新預測模型，在實時通訊應用中在線訓練已有的模型，以目前收到的音頻數據為特征，以窗口滑動更新，每次預測下一幀數據；該基于機器學習的實時音頻通訊傳輸恢復方法，利用機器學習實時預測丟失數據，直接填充解碼器輸出，降低延時，利用通訊場景中的數據在線更新模型，獲得更優的預測效果，提升用戶體驗。

技術研發人員：童涌
受保護的技術使用者：南京極域信息科技有限公司
技術研發日：
技術公布日：2024/1/15

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：童涌
技術所有人：南京極域信息科技有限公司
我是此專利的發明人

上一篇：一種鼠尾靜脈操作裝置的制作方法
下一篇：一種全密封油浸式大容量電力變壓器的制作方法

網友詢問留言留言:0條

還沒有人留言評論。精彩留言會獲得點贊！

文明留言，給您點贊！

同類技術