兩級語音韻律遷移的制作方法

文檔序號：45071419發布日期：2026-03-31 22:17閱讀：7來源：國知局

技術簡介：
本發明針對現有語音合成系統在跨領域韻律遷移中表現力不足的問題，提出兩級語音韻律遷移方法。通過第一級TTS模型生成包含預期韻律的中間語音表示，第二級模型將中間語音編碼為話語嵌入，結合文本語言特征與聲學信息解碼生成目標語音，實現自然度與表現力的平衡。
關鍵詞：語音韻律遷移,兩級模型

本公開涉及兩級語音韻律遷移。

背景技術：

1、語音合成系統使用文本到語音（tts）模型來從文本輸入生成語音。所生成/合成的語音應該準確地傳達消息（可理解度），同時聽起來像具有預期韻律（表現力）的人類語音（自然度）。雖然傳統的級聯和參數合成模型能夠提供可理解的語音并且語音的神經建模方面的最近進步已顯著地改進了合成語音的自然度，但是大多數現有的tts模型在對各種各樣的韻律風格進行建模時無效，從而使重要應用所使用的合成語音缺乏表現力。例如，對于諸如談話助理和長篇閱讀器的應用來說，期望通過歸納文本輸入中沒有傳達的韻律特征，諸如語調、重音以及節律和風格，來產生逼真的語音。例如，簡單的陳述能夠用許多不同的方式講出，這取決于該陳述是問題、問題的答案、在該陳述中是否存在不確定性，還是傳達輸入文本未指定的關于環境或情景的任何其他含義。

2、在一些場景中將從特定韻律域/垂直行業中的各種不同的講話者，諸如新聞讀者、體育解說員、教育講師等，建模的韻律模型遷移到現有的目標話音可以是有用的。以這種方式將目標話音應用于新韻律域/垂直行業能夠是特別困難的，因為在新域/垂直行業中與目標話音相關聯的訓練數據的量不足。

技術實現思路

1、本公開的一個方面提供一種用于將輸入文本話語合成為具有預期韻律和目標話音的表達性語音的方法。該方法包括：在數據處理硬件處接收要合成為具有預期韻律和目標話音的表達性語音的輸入文本話語。該方法還包括：由數據處理硬件使用第一文本到語音（tts）模型來生成輸入文本話語的中間合成語音表示。中間合成語音表示擁有預期韻律。該方法還包括：由數據處理硬件將中間合成語音表示提供給第二tts模型，該第二tts模型包括編碼器部分和解碼器部分。該編碼器部分被配置成將中間合成語音表示編碼成指定預期韻律的話語嵌入。該解碼器部分被配置成處理輸入文本話語和話語嵌入以生成表達性語音的輸出音頻信號。該輸出音頻信號具有由話語嵌入指定的預期韻律和目標話音的講話者特性。

2、本公開的實施方式可以包括以下可選特征中的一個或多個。在一些實施方式中，該方法還包括：由數據處理硬件從中間合成語音表示中對提供韻律特征的固定長度參考幀的序列進行采樣，該韻律特征表示中間合成語音表示所擁有的預期韻律。這里，將中間合成語音表示提供給第二tts模型包括將從中間合成語音表示中采樣的固定長度參考幀的序列提供給編碼器部分，由此編碼器部分被配置成將固定長度參考幀的序列編碼成話語嵌入。表示中間合成語音表示所擁有的預期韻律的韻律特征可以包括持續時間、音高輪廓、能量輪廓和/或梅爾頻率頻譜輪廓。在這些實施方式中，編碼器部分可以被配置成通過以下操作將固定長度參考幀的序列編碼成話語嵌入：對于中間合成語音表示中的每個音節：將與音節中的每個音素相關聯的音素級語言特征編碼成基于音素特征的音節嵌入；將與音節相關聯的固定長度參考幀編碼成基于幀的音節嵌入，該基于幀的音節嵌入指示與對應音節相關聯的持續時間、音高和/或能量；以及將具有以下各項的基于音素特征的音節嵌入和基于幀的音節嵌入編碼成音節的對應韻律音節嵌入：與音節相關聯的音節級語言特征、與中間合成語音表示相關聯的句子級語言特征、以及與包括對應音節的單詞相關聯的單詞級語言特征。

3、單詞級語言特征可以包括從由來自轉換器的雙向編碼器表示（bert）模型從輸入文本話語生成的詞條嵌入的序列獲得的詞條嵌入。在一些示例中，解碼器部分被配置成處理輸入文本話語和話語嵌入，以通過使用輸入文本話語將對應話語嵌入解碼成提供輸入文本話語的韻律表示的固定長度預測幀的序列來生成輸出音頻信號。這里，韻律表示表示由話語嵌入指定的預期韻律。第二tts模型可以被訓練為使得由解碼器部分解碼的固定長度預測幀的數目等于從中間合成語音表示中采樣的固定長度參考幀的數目。

4、在一些示例中，話語嵌入包括固定長度數值向量。中間合成語音表示可以包括捕獲預期韻律的音頻波形或梅爾頻率頻譜序列，使得將中間合成語音表示提供給第二tts模型可以包括將音頻波形或梅爾頻率頻譜序列提供給編碼器部分。這里，編碼器部分被配置成將音頻波形或梅爾頻率頻譜序列編碼成話語嵌入。

5、在一些實施方式中，該方法還包括：由數據處理硬件獲得表示目標話音的講話者特性的講話者嵌入；以及由數據處理硬件將講話者嵌入提供給第二tts模型的解碼器部分以處理輸入文本話語、話語嵌入和講話者嵌入，以生成表達性語音的輸出音頻信號。使用第一tts模型生成的中間合成語音表示可以包括中間話音，該中間話音缺乏目標話音的講話者特性并且包括不期望的聲學偽跡。

6、該方法還可以包括：在數據處理硬件處接收包括多個訓練音頻信號和對應轉錄的訓練數據，每個訓練音頻信號包括具有由與預期韻律相關聯的韻律域/垂直行業中的對應講話者講出的預期韻律的人類語音的話語。每個轉錄包括對應訓練音頻信號的文本表示。對于訓練數據的每個對應轉錄：該方法還包括：由數據處理硬件訓練第一tts模型以生成對應參考音頻信號，該對應參考音頻信號包括捕獲人類語音的對應話語的預期韻律的訓練合成語音表示；由數據處理硬件通過將對應訓練合成語音表示編碼成表示由訓練合成語音表示捕獲的預期韻律的對應話語嵌入來訓練第二tts模型的編碼器部分；由數據處理硬件使用訓練數據的對應轉錄通過將由編碼器部分編碼的對應話語嵌入解碼成具有預期韻律的表達性語音的預測輸出音頻信號來訓練第二tts模型的解碼器部分；生成預測輸出音頻信號與對應參考音頻信號之間的梯度/損失；以及通過第二tts模型反向傳播梯度/損失。

7、可以分開地或聯合地訓練第一tts模型和第二tts模型。在一些示例中，第一tts模型包括第一神經網絡架構，并且第二tts模型包括與第一神經網絡架構不同的第二神經網絡架構。在其他示例中，第一tts模型和第二tts模型包括相同的神經網絡架構。

8、本公開的另一方面提供一種用于將輸入文本話語合成為具有預期韻律和目標話音的表達性語音的系統。該系統包括數據處理硬件和存儲器硬件，該存儲器硬件與數據處理硬件通信并存儲指令，這些指令當由數據處理硬件運行時，使數據處理硬件執行操作。這些操作包括：接收要合成為具有預期韻律和目標話音的表達性語音的輸入文本話語。這些操作還包括：使用第一文本到語音（tts）模型來生成輸入文本話語的中間合成語音表示。中間合成語音表示擁有預期韻律。這些操作還包括：將中間合成語音表示提供給第二tts模型，該第二tts模型包括編碼器部分和解碼器部分。該編碼器部分被配置成將中間合成語音表示編碼成指定預期韻律的話語嵌入。該解碼器部分被配置成處理輸入文本話語和話語嵌入以生成表達性語音的輸出音頻信號。該輸出音頻信號具有由話語嵌入指定的預期韻律和目標話音的講話者特性。

9、該方面可以包括以下可選特征中的一個或多個。在一些實施方式中，這些操作還包括：從中間合成語音表示中對提供韻律特征的固定長度參考幀的序列進行采樣，該韻律特征表示中間合成語音表示所擁有的預期韻律。這里，將中間合成語音表示提供給第二tts模型包括將從中間合成語音表示中采樣的固定長度參考幀的序列提供給編碼器部分，由此編碼器部分被配置成將固定長度參考幀的序列編碼成話語嵌入。表示中間合成語音表示所擁有的預期韻律的韻律特征可以包括持續時間、音高輪廓、能量輪廓和/或梅爾頻率頻譜輪廓。在這些實施方式中，編碼器部分可以被配置成通過以下操作將固定長度參考幀的序列編碼成話語嵌入：對于中間合成語音表示中的每個音節：將與音節中的每個音素相關聯的音素級語言特征編碼成基于音素特征的音節嵌入；將與音節相關聯的固定長度參考幀編碼成基于幀的音節嵌入，該基于幀的音節嵌入指示與對應音節相關聯的持續時間、音高和/或能量；以及將具有以下各項的基于音素特征的音節嵌入和基于幀的音節嵌入編碼成音節的對應韻律音節嵌入：與音節相關聯的音節級語言特征、與中間合成語音表示相關聯的句子級語言特征、以及與包括對應音節的單詞相關聯的單詞級語言特征。

10、單詞級語言特征可以包括從由來自轉換器的雙向編碼器表示（bert）模型從輸入文本話語生成的詞條嵌入的序列獲得的詞條嵌入。在一些示例中，解碼器部分被配置成處理輸入文本話語和話語嵌入，以通過使用輸入文本話語來將對應話語嵌入解碼成提供輸入文本話語的韻律表示的固定長度預測幀的序列而生成輸出音頻信號。這里，韻律表示表示由話語嵌入指定的預期韻律。第二tts模型可以被訓練為使得由解碼器部分解碼的固定長度預測幀的數目等于從中間合成語音表示中采樣的固定長度參考幀的數目。

11、在一些示例中，話語嵌入包括固定長度數值向量。中間合成語音表示可以包括捕獲預期韻律的音頻波形或梅爾頻率頻譜序列，使得將中間合成語音表示提供給第二tts模型可以包括將音頻波形或梅爾頻率頻譜序列提供給編碼器部分。這里，編碼器部分被配置成將音頻波形或梅爾頻率頻譜序列編碼成話語嵌入。

12、在一些實施方式中，這些操作還包括：獲得表示目標話音的講話者特性的講話者嵌入；以及將講話者嵌入提供給第二tts模型的解碼器部分以處理輸入文本話語、話語嵌入和講話者嵌入以生成表達性語音的輸出音頻信號。使用第一tts模型生成的中間合成語音表示可以包括中間話音，該中間話音缺乏目標話音的講話者特性并且包括不期望的聲學偽跡。

13、這些操作還包括：接收包括多個訓練音頻信號和對應轉錄的訓練數據，每個訓練音頻信號包括具有由與預期韻律相關聯的韻律域/垂直行業中的對應講話者講出的預期韻律的人類語音的話語。每個轉錄包括對應訓練音頻信號的文本表示。對于訓練數據的每個對應轉錄：這些操作還包括：訓練第一tts模型以生成對應參考音頻信號，該對應參考音頻信號包括捕獲人類語音的對應話語的預期韻律的訓練合成語音表示；通過將對應訓練合成語音表示編碼成表示由訓練合成語音表示捕獲的預期韻律的對應話語嵌入來訓練第二tts模型的編碼器部分；使用訓練數據的對應轉錄通過將由編碼器部分編碼的對應話語嵌入解碼成具有預期韻律的表達性語音的預測輸出音頻信號來訓練第二tts模型的解碼器部分；生成預測輸出音頻信號與對應參考音頻信號之間的梯度/損失；以及通過第二tts模型反向傳播梯度/損失。

14、可以分開地或聯合地訓練第一tts模型和第二tts模型。在一些示例中，第一tts模型包括第一神經網絡架構，并且第二tts模型包括與第一神經網絡架構不同的第二神經網絡架構。在其他示例中，第一tts模型和第二tts模型包括相同的神經網絡架構。

15、本公開的一個或多個實施方式的細節在下面的附圖和描述中被闡述。根據說明書和附圖，并且根據權利要求書，其他方面、特征和優點將是明顯的。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：列夫·芬克爾斯坦,詹竣安,比揚哈·春,賈曄,張羽,羅伯特·安德魯·詹姆斯·克拉克,文森特·萬
技術所有人：谷歌有限責任公司
我是此專利的發明人

上一篇：一種餐具的制作方法
下一篇：一種用于柱塞泵銅軸瓦加工的彎鉤裝置的制作方法

相關技術

韻律遷移方法、裝置、電子設備和存儲介質與流程

針對現有韻律遷移技術中跨說話人遷移時音色泄露嚴重、合成語音表現力不足的問題，提出通過解耦源語音的韻律特征與目標說話人的音色特征，利用對比學習訓練解耦模塊，結合自回歸模型生成語音向量并合成音頻的...

語音解耦方法、裝置、電子設備、存儲介質和程序產品與流程

一種韻律遷移方法、裝置、可讀存儲介質及終端設備與流程

兩級語音韻律遷移的制作方法

針對傳統文本到語音（TTS）技術生成語音缺乏自然韻律和個性化的問題，提出雙模型協同方案：第一模型生成含預期韻律的中間語音表示，第二模型通過編碼器-解碼器結構結合話語嵌入，精準還原目標說話者特性...

一種韻律遷移語音合成方法和系統與流程

針對傳統語音合成中韻律控制不足、說話人信息干擾等問題，提出融合多模態特征（梅爾頻譜、音高、能量、說話人特征）的韻律遷移方法，通過梯度反轉分類器消除說話人信息干擾，實現更精準的韻律遷移與語音合成...

一種韻律短語標注方法和裝置與流程

一種韻律預測效果的評估方法及裝置與流程

針對韻律預測效果評估缺乏客觀量化標準的問題，提出基于人工標注權重的自動評估方法。通過構建測聽人員權重轉移矩陣，迭代計算各標注結果的合理權重，再匹配預測結果一致性確定評估得分，最終以得分占比量化...

語音質量評價設備、方法和系統的制作方法

提出一種基于韻律的語音質量評價設備及方法，通過對比用戶語音與參考語音的韻律特征差異，解決傳統語音評估中無法精準量化韻律表現的問題。該方法利用聲學模型實現語音與文本的強制對齊，提取基頻信息并進行...

發音韻律問題的檢測方法及裝置制造方法

針對發音韻律檢測精度不足的問題，提出基于韻律標注的自動比對方法。通過提取待測語音的單詞邊界與韻律特征，生成標準化韻律標注信息，與參考語音標注進行多維度比對，實現韻律問題的精準識別。該方法解決了...

網友詢問留言留言:0條

還沒有人留言評論。精彩留言會獲得點贊！

文明留言，給您點贊！

同類技術

相關技術