一種用于語音特征描述的語音標(biāo)注方法和裝置

文檔序號：39249501發(fā)布日期：2024-09-03 17:30閱讀：115來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及語音處理，尤其涉及一種用于語音特征描述的語音標(biāo)注方法和裝置。

背景技術(shù)：

1、多模態(tài)學(xué)習(xí)的成功推動了近年來語音語言模型開發(fā)的迅速發(fā)展，例如語音合成和自動描述和標(biāo)注的改進(jìn)。大規(guī)模文本到語音（tts）模型（如?vall-e、natural?speech?2）和音頻到文本（att）模型（如salmonn、qwen）在傳統(tǒng)任務(wù)中表現(xiàn)出色。利用大量高質(zhì)量的標(biāo)注數(shù)據(jù)訓(xùn)練此類模型也至關(guān)重要。

2、現(xiàn)有技術(shù)的研究主要集中在基本音頻特征上，例如生成可理解的語音和對廣泛的音頻進(jìn)行分類，深入解讀語音細(xì)節(jié)的研究較少。若采用人工標(biāo)注數(shù)據(jù)集的方式，通常成本高、耗時長，且可標(biāo)注范圍有限。

3、如何實現(xiàn)對音頻數(shù)據(jù)的多維度詳盡分析，是目前需要解決的技術(shù)問題。

技術(shù)實現(xiàn)思路

1、本發(fā)明提供一種用于語音特征描述的語音標(biāo)注方法和裝置，用以解決現(xiàn)有技術(shù)中存在的缺陷。

2、本發(fā)明提供一種用于語音特征描述的語音標(biāo)注方法，包括如下步驟：

3、獲取原始音頻數(shù)據(jù)；

4、將所述原始音頻數(shù)據(jù)輸入至預(yù)訓(xùn)練的語音風(fēng)格識別模型中，得到所述原始音頻數(shù)據(jù)的語音風(fēng)格屬性；其中，所述語音風(fēng)格識別模型包括信號處理子模型、說話人身份識別子模型、情感標(biāo)注子模型和韻律檢測子模型；所述信號處理子模型用于識別所述原始音頻數(shù)據(jù)的音高、音量和語速，所述說話人身份識別子模型用于識別所述原始音頻數(shù)據(jù)的說話人年齡和說話人性別，所述情感標(biāo)注子模型用于識別所述原始音頻數(shù)據(jù)的情感語氣，所述韻律檢測子模型用于識別所述原始音頻數(shù)據(jù)的重音；

5、將所述語音風(fēng)格屬性和語音識別文本輸入至預(yù)訓(xùn)練的自然語言模型中，得到所述原始音頻數(shù)據(jù)對應(yīng)的自然語言描述文本；其中，所述語音識別文本為：基于所述原始音頻數(shù)據(jù)進(jìn)行語音識別得到；所述自然語言描述文本為：對所述原始音頻數(shù)據(jù)進(jìn)行語音特征描述的文本。

6、根據(jù)本發(fā)明提供的一種用于語音特征描述的語音標(biāo)注方法，所述原始音頻數(shù)據(jù)包括：原始音頻；

7、所述將所述原始音頻數(shù)據(jù)輸入至預(yù)訓(xùn)練的語音風(fēng)格識別模型中，得到所述原始音頻數(shù)據(jù)的語音風(fēng)格屬性，包括：

8、對所述原始音頻進(jìn)行語音音質(zhì)增強(qiáng)處理，得到去噪音頻，并將所述去噪音頻輸入至預(yù)訓(xùn)練的語音風(fēng)格識別模型中，得到所述原始音頻數(shù)據(jù)的語音風(fēng)格屬性。

9、根據(jù)本發(fā)明提供的一種用于語音特征描述的語音標(biāo)注方法，所述將所述原始音頻數(shù)據(jù)輸入至預(yù)訓(xùn)練的語音風(fēng)格識別模型中，得到所述原始音頻數(shù)據(jù)的語音風(fēng)格屬性，包括：

10、將所述去噪音頻輸入至預(yù)訓(xùn)練的信號處理子模型中，得到所述原始音頻數(shù)據(jù)的音高、音量和語速；

11、將所述去噪音頻輸入至預(yù)訓(xùn)練的說話人身份識別子模型中，得到所述原始音頻數(shù)據(jù)的說話人年齡和說話人性別；

12、將所述去噪音頻輸入至預(yù)訓(xùn)練的情感標(biāo)注子模型中，得到所述原始音頻數(shù)據(jù)的情感語氣；

13、將所述去噪音頻輸入至預(yù)訓(xùn)練的韻律檢測子模型中，得到所述原始音頻數(shù)據(jù)的重音。

14、根據(jù)本發(fā)明提供的一種用于語音特征描述的語音標(biāo)注方法，所述語音風(fēng)格識別模型還包括：話題識別子模型；所述原始音頻數(shù)據(jù)還包括：所述原始音頻的描述文本；

15、所述將所述原始音頻數(shù)據(jù)輸入至預(yù)訓(xùn)練的語音風(fēng)格識別模型中，得到所述原始音頻數(shù)據(jù)的語音風(fēng)格屬性，包括：

16、將所述原始音頻的描述文本輸入至預(yù)訓(xùn)練的話題識別子模型中，得到所述原始音頻數(shù)據(jù)的話題。

17、根據(jù)本發(fā)明提供的一種用于語音特征描述的語音標(biāo)注方法，所述將所述語音風(fēng)格屬性和語音識別文本輸入至預(yù)訓(xùn)練的自然語言模型中，得到所述原始音頻數(shù)據(jù)對應(yīng)的自然語言描述文本之后，所述方法還包括：

18、獲取多個基礎(chǔ)語音數(shù)據(jù)集；

19、將所述多個基礎(chǔ)語音數(shù)據(jù)集輸入至語音標(biāo)注系統(tǒng)中，得到擴(kuò)展語音數(shù)據(jù)集；其中，所述語音標(biāo)注系統(tǒng)包括：所述語音風(fēng)格識別模型和所述自然語言模型，所述語音標(biāo)注系統(tǒng)用于對所述多個基礎(chǔ)語音數(shù)據(jù)集進(jìn)行語音風(fēng)格屬性擴(kuò)展。

20、根據(jù)本發(fā)明提供的一種用于語音特征描述的語音標(biāo)注方法，所述將所述多個基礎(chǔ)語音數(shù)據(jù)集輸入至語音標(biāo)注系統(tǒng)中，得到擴(kuò)展語音數(shù)據(jù)集之后，所述方法還包括：

21、基于所述擴(kuò)展語音數(shù)據(jù)集對所述語音標(biāo)注系統(tǒng)進(jìn)行評估，以驗證所述語音風(fēng)格識別模型的屬性識別準(zhǔn)確性和所述自然語言模型的轉(zhuǎn)寫能力。

22、本發(fā)明還提供一種用于語音特征描述的語音標(biāo)注裝置，包括如下模塊：

23、獲取模塊，用于獲取原始音頻數(shù)據(jù)；

24、語音風(fēng)格識別模塊，用于將所述原始音頻數(shù)據(jù)輸入至預(yù)訓(xùn)練的語音風(fēng)格識別模型中，得到所述原始音頻數(shù)據(jù)的語音風(fēng)格屬性；其中，所述語音風(fēng)格識別模型包括信號處理子模型、說話人身份識別子模型、情感標(biāo)注子模型和韻律檢測子模型；所述信號處理子模型用于識別所述原始音頻數(shù)據(jù)的音高、音量和語速，所述說話人身份識別子模型用于識別所述原始音頻數(shù)據(jù)的說話人年齡和說話人性別，所述情感標(biāo)注子模型用于識別所述原始音頻數(shù)據(jù)的情感語氣，所述韻律檢測子模型用于識別所述原始音頻數(shù)據(jù)的重音；

25、自然語言描述模塊，用于將所述語音風(fēng)格屬性和語音識別文本輸入至預(yù)訓(xùn)練的自然語言模型中，得到所述原始音頻數(shù)據(jù)對應(yīng)的自然語言描述文本；其中，所述語音識別文本為：基于所述原始音頻數(shù)據(jù)進(jìn)行語音識別得到；所述自然語言描述文本為：對所述原始音頻數(shù)據(jù)進(jìn)行語音特征描述的文本。

26、本發(fā)明還提供一種電子設(shè)備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機(jī)程序，所述處理器執(zhí)行所述程序時實現(xiàn)如上述任一種所述用于語音特征描述的語音標(biāo)注方法。

27、本發(fā)明還提供一種非暫態(tài)計算機(jī)可讀存儲介質(zhì)，其上存儲有計算機(jī)程序，該計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述用于語音特征描述的語音標(biāo)注方法。

28、本發(fā)明還提供一種計算機(jī)程序產(chǎn)品，包括計算機(jī)程序，所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述用于語音特征描述的語音標(biāo)注方法。

29、本發(fā)明提供的用于語音特征描述的語音標(biāo)注方法和裝置，通過獲取原始音頻數(shù)據(jù)；將原始音頻數(shù)據(jù)輸入至預(yù)訓(xùn)練的語音風(fēng)格識別模型中，得到原始音頻數(shù)據(jù)的語音風(fēng)格屬性；其中，語音風(fēng)格識別模型包括信號處理子模型、說話人身份識別子模型、情感標(biāo)注子模型和韻律檢測子模型；信號處理子模型用于識別原始音頻數(shù)據(jù)的音高、音量和語速，說話人身份識別子模型用于識別原始音頻數(shù)據(jù)的說話人年齡和說話人性別，情感標(biāo)注子模型用于識別原始音頻數(shù)據(jù)的情感語氣，韻律檢測子模型用于識別原始音頻數(shù)據(jù)的重音；將語音風(fēng)格屬性和語音識別文本輸入至預(yù)訓(xùn)練的自然語言模型中，得到原始音頻數(shù)據(jù)對應(yīng)的自然語言描述文本；其中，語音識別文本為：基于原始音頻數(shù)據(jù)進(jìn)行語音識別得到；自然語言描述文本為：對原始音頻數(shù)據(jù)進(jìn)行語音特征描述的文本。由此可知，本發(fā)明提出一種語音標(biāo)注系統(tǒng)，包括語音風(fēng)格識別模型和自然語言模型，分別實現(xiàn)對于原始音頻數(shù)據(jù)的多種語音風(fēng)格識別和基于多種語音風(fēng)格的轉(zhuǎn)寫，形成針對原始音頻數(shù)據(jù)詳細(xì)和個性化的自然語言描述文本。

當(dāng)前第1頁1 2

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：金澤宇,秦霄羽,賈珈,王琦鑫,李可涵,周朔亦,周松濤,吳志勇
技術(shù)所有人：清華大學(xué)
我是此專利的發(fā)明人

上一篇：壓裂返排液處理裝置的制作方法
下一篇：一種濕巾加工用裁切機(jī)的制作方法

網(wǎng)友詢問留言留言:0條

還沒有人留言評論。精彩留言會獲得點贊！

文明留言，給您點贊！

同類技術(shù)