本公開涉及兩級語音韻律遷移。
背景技術:
1、語音合成系統使用文本到語音(tts)模型來從文本輸入生成語音。所生成/合成的語音應該準確地傳達消息(可理解度),同時聽起來像具有預期韻律(表現力)的人類語音(自然度)。雖然傳統的級聯和參數合成模型能夠提供可理解的語音并且語音的神經建模方面的最近進步已顯著地改進了合成語音的自然度,但是大多數現有的tts模型在對各種各樣的韻律風格進行建模時無效,從而使重要應用所使用的合成語音缺乏表現力。例如,對于諸如談話助理和長篇閱讀器的應用來說,期望通過歸納文本輸入中沒有傳達的韻律特征,諸如語調、重音以及節律和風格,來產生逼真的語音。例如,簡單的陳述能夠用許多不同的方式講出,這取決于該陳述是問題、問題的答案、在該陳述中是否存在不確定性,還是傳達輸入文本未指定的關于環境或情景的任何其他含義。
2、在一些場景中將從特定韻律域/垂直行業中的各種不同的講話者,諸如新聞讀者、體育解說員、教育講師等,建模的韻律模型遷移到現有的目標話音可以是有用的。以這種方式將目標話音應用于新韻律域/垂直行業能夠是特別困難的,因為在新域/垂直行業中與目標話音相關聯的訓練數據的量不足。
技術實現思路
1、本公開的一個方面提供一種用于將輸入文本話語合成為具有預期韻律和目標話音的表達性語音的方法。該方法包括:在數據處理硬件處接收要合成為具有預期韻律和目標話音的表達性語音的輸入文本話語。該方法還包括:由數據處理硬件使用第一文本到語音(tts)模型來生成輸入文本話語的中間合成語音表示。中間合成語音表示擁有預期韻律。該方法還包括:由數據處理硬件將中間合成語音表示提供給第二tts模型,該第二tts模型包括編碼器部分和解碼器部分。該編碼器部分被配置成將中間合成語音表示編碼成指定預期韻律的話語嵌入。該解碼器部分被配置成處理輸入文本話語和話語嵌入以生成表達性語音的輸出音頻信號。該輸出音頻信號具有由話語嵌入指定的預期韻律和目標話音的講話者特性。
2、本公開的實施方式可以包括以下可選特征中的一個或多個。在一些實施方式中,該方法還包括:由數據處理硬件從中間合成語音表示中對提供韻律特征的固定長度參考幀的序列進行采樣,該韻律特征表示中間合成語音表示所擁有的預期韻律。這里,將中間合成語音表示提供給第二tts模型包括將從中間合成語音表示中采樣的固定長度參考幀的序列提供給編碼器部分,由此編碼器部分被配置成將固定長度參考幀的序列編碼成話語嵌入。表示中間合成語音表示所擁有的預期韻律的韻律特征可以包括持續時間、音高輪廓、能量輪廓和/或梅爾頻率頻譜輪廓。在這些實施方式中,編碼器部分可以被配置成通過以下操作將固定長度參考幀的序列編碼成話語嵌入:對于中間合成語音表示中的每個音節:將與音節中的每個音素相關聯的音素級語言特征編碼成基于音素特征的音節嵌入;將與音節相關聯的固定長度參考幀編碼成基于幀的音節嵌入,該基于幀的音節嵌入指示與對應音節相關聯的持續時間、音高和/或能量;以及將具有以下各項的基于音素特征的音節嵌入和基于幀的音節嵌入編碼成音節的對應韻律音節嵌入:與音節相關聯的音節級語言特征、與中間合成語音表示相關聯的句子級語言特征、以及與包括對應音節的單詞相關聯的單詞級語言特征。
3、單詞級語言特征可以包括從由來自轉換器的雙向編碼器表示(bert)模型從輸入文本話語生成的詞條嵌入的序列獲得的詞條嵌入。在一些示例中,解碼器部分被配置成處理輸入文本話語和話語嵌入,以通過使用輸入文本話語將對應話語嵌入解碼成提供輸入文本話語的韻律表示的固定長度預測幀的序列來生成輸出音頻信號。這里,韻律表示表示由話語嵌入指定的預期韻律。第二tts模型可以被訓練為使得由解碼器部分解碼的固定長度預測幀的數目等于從中間合成語音表示中采樣的固定長度參考幀的數目。
4、在一些示例中,話語嵌入包括固定長度數值向量。中間合成語音表示可以包括捕獲預期韻律的音頻波形或梅爾頻率頻譜序列,使得將中間合成語音表示提供給第二tts模型可以包括將音頻波形或梅爾頻率頻譜序列提供給編碼器部分。這里,編碼器部分被配置成將音頻波形或梅爾頻率頻譜序列編碼成話語嵌入。
5、在一些實施方式中,該方法還包括:由數據處理硬件獲得表示目標話音的講話者特性的講話者嵌入;以及由數據處理硬件將講話者嵌入提供給第二tts模型的解碼器部分以處理輸入文本話語、話語嵌入和講話者嵌入,以生成表達性語音的輸出音頻信號。使用第一tts模型生成的中間合成語音表示可以包括中間話音,該中間話音缺乏目標話音的講話者特性并且包括不期望的聲學偽跡。
6、該方法還可以包括:在數據處理硬件處接收包括多個訓練音頻信號和對應轉錄的訓練數據,每個訓練音頻信號包括具有由與預期韻律相關聯的韻律域/垂直行業中的對應講話者講出的預期韻律的人類語音的話語。每個轉錄包括對應訓練音頻信號的文本表示。對于訓練數據的每個對應轉錄:該方法還包括:由數據處理硬件訓練第一tts模型以生成對應參考音頻信號,該對應參考音頻信號包括捕獲人類語音的對應話語的預期韻律的訓練合成語音表示;由數據處理硬件通過將對應訓練合成語音表示編碼成表示由訓練合成語音表示捕獲的預期韻律的對應話語嵌入來訓練第二tts模型的編碼器部分;由數據處理硬件使用訓練數據的對應轉錄通過將由編碼器部分編碼的對應話語嵌入解碼成具有預期韻律的表達性語音的預測輸出音頻信號來訓練第二tts模型的解碼器部分;生成預測輸出音頻信號與對應參考音頻信號之間的梯度/損失;以及通過第二tts模型反向傳播梯度/損失。
7、可以分開地或聯合地訓練第一tts模型和第二tts模型。在一些示例中,第一tts模型包括第一神經網絡架構,并且第二tts模型包括與第一神經網絡架構不同的第二神經網絡架構。在其他示例中,第一tts模型和第二tts模型包括相同的神經網絡架構。
8、本公開的另一方面提供一種用于將輸入文本話語合成為具有預期韻律和目標話音的表達性語音的系統。該系統包括數據處理硬件和存儲器硬件,該存儲器硬件與數據處理硬件通信并存儲指令,這些指令當由數據處理硬件運行時,使數據處理硬件執行操作。這些操作包括:接收要合成為具有預期韻律和目標話音的表達性語音的輸入文本話語。這些操作還包括:使用第一文本到語音(tts)模型來生成輸入文本話語的中間合成語音表示。中間合成語音表示擁有預期韻律。這些操作還包括:將中間合成語音表示提供給第二tts模型,該第二tts模型包括編碼器部分和解碼器部分。該編碼器部分被配置成將中間合成語音表示編碼成指定預期韻律的話語嵌入。該解碼器部分被配置成處理輸入文本話語和話語嵌入以生成表達性語音的輸出音頻信號。該輸出音頻信號具有由話語嵌入指定的預期韻律和目標話音的講話者特性。
9、該方面可以包括以下可選特征中的一個或多個。在一些實施方式中,這些操作還包括:從中間合成語音表示中對提供韻律特征的固定長度參考幀的序列進行采樣,該韻律特征表示中間合成語音表示所擁有的預期韻律。這里,將中間合成語音表示提供給第二tts模型包括將從中間合成語音表示中采樣的固定長度參考幀的序列提供給編碼器部分,由此編碼器部分被配置成將固定長度參考幀的序列編碼成話語嵌入。表示中間合成語音表示所擁有的預期韻律的韻律特征可以包括持續時間、音高輪廓、能量輪廓和/或梅爾頻率頻譜輪廓。在這些實施方式中,編碼器部分可以被配置成通過以下操作將固定長度參考幀的序列編碼成話語嵌入:對于中間合成語音表示中的每個音節:將與音節中的每個音素相關聯的音素級語言特征編碼成基于音素特征的音節嵌入;將與音節相關聯的固定長度參考幀編碼成基于幀的音節嵌入,該基于幀的音節嵌入指示與對應音節相關聯的持續時間、音高和/或能量;以及將具有以下各項的基于音素特征的音節嵌入和基于幀的音節嵌入編碼成音節的對應韻律音節嵌入:與音節相關聯的音節級語言特征、與中間合成語音表示相關聯的句子級語言特征、以及與包括對應音節的單詞相關聯的單詞級語言特征。
10、單詞級語言特征可以包括從由來自轉換器的雙向編碼器表示(bert)模型從輸入文本話語生成的詞條嵌入的序列獲得的詞條嵌入。在一些示例中,解碼器部分被配置成處理輸入文本話語和話語嵌入,以通過使用輸入文本話語來將對應話語嵌入解碼成提供輸入文本話語的韻律表示的固定長度預測幀的序列而生成輸出音頻信號。這里,韻律表示表示由話語嵌入指定的預期韻律。第二tts模型可以被訓練為使得由解碼器部分解碼的固定長度預測幀的數目等于從中間合成語音表示中采樣的固定長度參考幀的數目。
11、在一些示例中,話語嵌入包括固定長度數值向量。中間合成語音表示可以包括捕獲預期韻律的音頻波形或梅爾頻率頻譜序列,使得將中間合成語音表示提供給第二tts模型可以包括將音頻波形或梅爾頻率頻譜序列提供給編碼器部分。這里,編碼器部分被配置成將音頻波形或梅爾頻率頻譜序列編碼成話語嵌入。
12、在一些實施方式中,這些操作還包括:獲得表示目標話音的講話者特性的講話者嵌入;以及將講話者嵌入提供給第二tts模型的解碼器部分以處理輸入文本話語、話語嵌入和講話者嵌入以生成表達性語音的輸出音頻信號。使用第一tts模型生成的中間合成語音表示可以包括中間話音,該中間話音缺乏目標話音的講話者特性并且包括不期望的聲學偽跡。
13、這些操作還包括:接收包括多個訓練音頻信號和對應轉錄的訓練數據,每個訓練音頻信號包括具有由與預期韻律相關聯的韻律域/垂直行業中的對應講話者講出的預期韻律的人類語音的話語。每個轉錄包括對應訓練音頻信號的文本表示。對于訓練數據的每個對應轉錄:這些操作還包括:訓練第一tts模型以生成對應參考音頻信號,該對應參考音頻信號包括捕獲人類語音的對應話語的預期韻律的訓練合成語音表示;通過將對應訓練合成語音表示編碼成表示由訓練合成語音表示捕獲的預期韻律的對應話語嵌入來訓練第二tts模型的編碼器部分;使用訓練數據的對應轉錄通過將由編碼器部分編碼的對應話語嵌入解碼成具有預期韻律的表達性語音的預測輸出音頻信號來訓練第二tts模型的解碼器部分;生成預測輸出音頻信號與對應參考音頻信號之間的梯度/損失;以及通過第二tts模型反向傳播梯度/損失。
14、可以分開地或聯合地訓練第一tts模型和第二tts模型。在一些示例中,第一tts模型包括第一神經網絡架構,并且第二tts模型包括與第一神經網絡架構不同的第二神經網絡架構。在其他示例中,第一tts模型和第二tts模型包括相同的神經網絡架構。
15、本公開的一個或多個實施方式的細節在下面的附圖和描述中被闡述。根據說明書和附圖,并且根據權利要求書,其他方面、特征和優點將是明顯的。