1. <rt id="e600n"></rt>
      1. <pre id="e600n"><strong id="e600n"><pre id="e600n"></pre></strong></pre>
      2. 岛国免费AV,无码人妻精品一区二区三区夜夜嗨,又大又粗又硬又爽黄毛少妇,精品国产AV二区,91视频最新网址,久操无码,久久无码人妻一区二区三区午夜,国产精品视频中文字幕

        一種用于語音特征描述的語音標(biāo)注方法和裝置

        文檔序號:39249501發(fā)布日期:2024-09-03 17:30閱讀:115來源:國知局

        本發(fā)明涉及語音處理,尤其涉及一種用于語音特征描述的語音標(biāo)注方法和裝置。


        背景技術(shù):

        1、多模態(tài)學(xué)習(xí)的成功推動了近年來語音語言模型開發(fā)的迅速發(fā)展,例如語音合成和自動描述和標(biāo)注的改進(jìn)。大規(guī)模文本到語音(tts)模型(如?vall-e、natural?speech?2)和音頻到文本(att)模型(如salmonn、qwen)在傳統(tǒng)任務(wù)中表現(xiàn)出色。利用大量高質(zhì)量的標(biāo)注數(shù)據(jù)訓(xùn)練此類模型也至關(guān)重要。

        2、現(xiàn)有技術(shù)的研究主要集中在基本音頻特征上,例如生成可理解的語音和對廣泛的音頻進(jìn)行分類,深入解讀語音細(xì)節(jié)的研究較少。若采用人工標(biāo)注數(shù)據(jù)集的方式,通常成本高、耗時長,且可標(biāo)注范圍有限。

        3、如何實現(xiàn)對音頻數(shù)據(jù)的多維度詳盡分析,是目前需要解決的技術(shù)問題。


        技術(shù)實現(xiàn)思路

        1、本發(fā)明提供一種用于語音特征描述的語音標(biāo)注方法和裝置,用以解決現(xiàn)有技術(shù)中存在的缺陷。

        2、本發(fā)明提供一種用于語音特征描述的語音標(biāo)注方法,包括如下步驟:

        3、獲取原始音頻數(shù)據(jù);

        4、將所述原始音頻數(shù)據(jù)輸入至預(yù)訓(xùn)練的語音風(fēng)格識別模型中,得到所述原始音頻數(shù)據(jù)的語音風(fēng)格屬性;其中,所述語音風(fēng)格識別模型包括信號處理子模型、說話人身份識別子模型、情感標(biāo)注子模型和韻律檢測子模型;所述信號處理子模型用于識別所述原始音頻數(shù)據(jù)的音高、音量和語速,所述說話人身份識別子模型用于識別所述原始音頻數(shù)據(jù)的說話人年齡和說話人性別,所述情感標(biāo)注子模型用于識別所述原始音頻數(shù)據(jù)的情感語氣,所述韻律檢測子模型用于識別所述原始音頻數(shù)據(jù)的重音;

        5、將所述語音風(fēng)格屬性和語音識別文本輸入至預(yù)訓(xùn)練的自然語言模型中,得到所述原始音頻數(shù)據(jù)對應(yīng)的自然語言描述文本;其中,所述語音識別文本為:基于所述原始音頻數(shù)據(jù)進(jìn)行語音識別得到;所述自然語言描述文本為:對所述原始音頻數(shù)據(jù)進(jìn)行語音特征描述的文本。

        6、根據(jù)本發(fā)明提供的一種用于語音特征描述的語音標(biāo)注方法,所述原始音頻數(shù)據(jù)包括:原始音頻;

        7、所述將所述原始音頻數(shù)據(jù)輸入至預(yù)訓(xùn)練的語音風(fēng)格識別模型中,得到所述原始音頻數(shù)據(jù)的語音風(fēng)格屬性,包括:

        8、對所述原始音頻進(jìn)行語音音質(zhì)增強(qiáng)處理,得到去噪音頻,并將所述去噪音頻輸入至預(yù)訓(xùn)練的語音風(fēng)格識別模型中,得到所述原始音頻數(shù)據(jù)的語音風(fēng)格屬性。

        9、根據(jù)本發(fā)明提供的一種用于語音特征描述的語音標(biāo)注方法,所述將所述原始音頻數(shù)據(jù)輸入至預(yù)訓(xùn)練的語音風(fēng)格識別模型中,得到所述原始音頻數(shù)據(jù)的語音風(fēng)格屬性,包括:

        10、將所述去噪音頻輸入至預(yù)訓(xùn)練的信號處理子模型中,得到所述原始音頻數(shù)據(jù)的音高、音量和語速;

        11、將所述去噪音頻輸入至預(yù)訓(xùn)練的說話人身份識別子模型中,得到所述原始音頻數(shù)據(jù)的說話人年齡和說話人性別;

        12、將所述去噪音頻輸入至預(yù)訓(xùn)練的情感標(biāo)注子模型中,得到所述原始音頻數(shù)據(jù)的情感語氣;

        13、將所述去噪音頻輸入至預(yù)訓(xùn)練的韻律檢測子模型中,得到所述原始音頻數(shù)據(jù)的重音。

        14、根據(jù)本發(fā)明提供的一種用于語音特征描述的語音標(biāo)注方法,所述語音風(fēng)格識別模型還包括:話題識別子模型;所述原始音頻數(shù)據(jù)還包括:所述原始音頻的描述文本;

        15、所述將所述原始音頻數(shù)據(jù)輸入至預(yù)訓(xùn)練的語音風(fēng)格識別模型中,得到所述原始音頻數(shù)據(jù)的語音風(fēng)格屬性,包括:

        16、將所述原始音頻的描述文本輸入至預(yù)訓(xùn)練的話題識別子模型中,得到所述原始音頻數(shù)據(jù)的話題。

        17、根據(jù)本發(fā)明提供的一種用于語音特征描述的語音標(biāo)注方法,所述將所述語音風(fēng)格屬性和語音識別文本輸入至預(yù)訓(xùn)練的自然語言模型中,得到所述原始音頻數(shù)據(jù)對應(yīng)的自然語言描述文本之后,所述方法還包括:

        18、獲取多個基礎(chǔ)語音數(shù)據(jù)集;

        19、將所述多個基礎(chǔ)語音數(shù)據(jù)集輸入至語音標(biāo)注系統(tǒng)中,得到擴(kuò)展語音數(shù)據(jù)集;其中,所述語音標(biāo)注系統(tǒng)包括:所述語音風(fēng)格識別模型和所述自然語言模型,所述語音標(biāo)注系統(tǒng)用于對所述多個基礎(chǔ)語音數(shù)據(jù)集進(jìn)行語音風(fēng)格屬性擴(kuò)展。

        20、根據(jù)本發(fā)明提供的一種用于語音特征描述的語音標(biāo)注方法,所述將所述多個基礎(chǔ)語音數(shù)據(jù)集輸入至語音標(biāo)注系統(tǒng)中,得到擴(kuò)展語音數(shù)據(jù)集之后,所述方法還包括:

        21、基于所述擴(kuò)展語音數(shù)據(jù)集對所述語音標(biāo)注系統(tǒng)進(jìn)行評估,以驗證所述語音風(fēng)格識別模型的屬性識別準(zhǔn)確性和所述自然語言模型的轉(zhuǎn)寫能力。

        22、本發(fā)明還提供一種用于語音特征描述的語音標(biāo)注裝置,包括如下模塊:

        23、獲取模塊,用于獲取原始音頻數(shù)據(jù);

        24、語音風(fēng)格識別模塊,用于將所述原始音頻數(shù)據(jù)輸入至預(yù)訓(xùn)練的語音風(fēng)格識別模型中,得到所述原始音頻數(shù)據(jù)的語音風(fēng)格屬性;其中,所述語音風(fēng)格識別模型包括信號處理子模型、說話人身份識別子模型、情感標(biāo)注子模型和韻律檢測子模型;所述信號處理子模型用于識別所述原始音頻數(shù)據(jù)的音高、音量和語速,所述說話人身份識別子模型用于識別所述原始音頻數(shù)據(jù)的說話人年齡和說話人性別,所述情感標(biāo)注子模型用于識別所述原始音頻數(shù)據(jù)的情感語氣,所述韻律檢測子模型用于識別所述原始音頻數(shù)據(jù)的重音;

        25、自然語言描述模塊,用于將所述語音風(fēng)格屬性和語音識別文本輸入至預(yù)訓(xùn)練的自然語言模型中,得到所述原始音頻數(shù)據(jù)對應(yīng)的自然語言描述文本;其中,所述語音識別文本為:基于所述原始音頻數(shù)據(jù)進(jìn)行語音識別得到;所述自然語言描述文本為:對所述原始音頻數(shù)據(jù)進(jìn)行語音特征描述的文本。

        26、本發(fā)明還提供一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機(jī)程序,所述處理器執(zhí)行所述程序時實現(xiàn)如上述任一種所述用于語音特征描述的語音標(biāo)注方法。

        27、本發(fā)明還提供一種非暫態(tài)計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,該計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述用于語音特征描述的語音標(biāo)注方法。

        28、本發(fā)明還提供一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述用于語音特征描述的語音標(biāo)注方法。

        29、本發(fā)明提供的用于語音特征描述的語音標(biāo)注方法和裝置,通過獲取原始音頻數(shù)據(jù);將原始音頻數(shù)據(jù)輸入至預(yù)訓(xùn)練的語音風(fēng)格識別模型中,得到原始音頻數(shù)據(jù)的語音風(fēng)格屬性;其中,語音風(fēng)格識別模型包括信號處理子模型、說話人身份識別子模型、情感標(biāo)注子模型和韻律檢測子模型;信號處理子模型用于識別原始音頻數(shù)據(jù)的音高、音量和語速,說話人身份識別子模型用于識別原始音頻數(shù)據(jù)的說話人年齡和說話人性別,情感標(biāo)注子模型用于識別原始音頻數(shù)據(jù)的情感語氣,韻律檢測子模型用于識別原始音頻數(shù)據(jù)的重音;將語音風(fēng)格屬性和語音識別文本輸入至預(yù)訓(xùn)練的自然語言模型中,得到原始音頻數(shù)據(jù)對應(yīng)的自然語言描述文本;其中,語音識別文本為:基于原始音頻數(shù)據(jù)進(jìn)行語音識別得到;自然語言描述文本為:對原始音頻數(shù)據(jù)進(jìn)行語音特征描述的文本。由此可知,本發(fā)明提出一種語音標(biāo)注系統(tǒng),包括語音風(fēng)格識別模型和自然語言模型,分別實現(xiàn)對于原始音頻數(shù)據(jù)的多種語音風(fēng)格識別和基于多種語音風(fēng)格的轉(zhuǎn)寫,形成針對原始音頻數(shù)據(jù)詳細(xì)和個性化的自然語言描述文本。

        當(dāng)前第1頁1 2 
        當(dāng)前第1頁1 2 
        網(wǎng)友詢問留言 留言:0條
        • 還沒有人留言評論。精彩留言會獲得點贊!
        1
        主站蜘蛛池模板: 三浦在线| 国产精品久久久久影视不卡| 免费无码VA一区二区三区| 亚洲综合伊人| 久久精品国产亚洲AV果冻传媒| 中文字幕无码色综合网| 2019国产精品青青草原| 亚洲一本之道高清乱码| 国产午夜亚洲精品理论片八戒| 无码熟妇αⅴ人妻又粗又大| 久久99久久99精品免观看| 国产suv精品一区二区33| A级黄色大片在线观看视频| 波多野结衣无码视频一区二区三区| 亚洲成人四虎在线播放| av中文字幕国产精品| 91久久人澡人妻天天做天天爽 | 国产在线午夜不卡精品影院 | 亚洲第一狼人区在线观看| 国产精品一区二区久久精品无码 | 亚洲尤物你懂的视频在线看| 日本不卡一区二区三区在线| 亚洲性猛交xxxx| 国内精品伊人久久久久影院对白| 国精品91人妻无码一区二区三区 | 精品国产乱码久久久久夜深人妻| 国产精品爽爽久久久久久竹菊| 无码一区二区三区免费| 日本视频一区二区免费播放| 九九热视频在线精品18| 波多野结衣av一区| 成人欧美日韩一区二区三区| 中文字幕久久久人妻无码| 男女扒开双腿猛进入爽爽免费看 | 亚洲人成色777777精品音频| 亚洲精品美女一区二区| 撸啊撸激情久久| 无码人妻精品一区二区蜜桃91| 亚洲美女av一区二区| 91精品久久久久久无码人妻| gogogo高清在线观看视频中文|