本發(fā)明涉及計算機,尤其涉及一種語音合成方法、裝置、計算機設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、隨著計算機技術(shù)的不斷發(fā)展,將文字數(shù)據(jù)實時轉(zhuǎn)化為語音數(shù)據(jù)的語音合成功能已經(jīng)得到了廣泛應(yīng)用。但是,隨著語音合成功能的應(yīng)用越來越廣泛,人們對合成語音要求不再局限于合成語音的準確性,還需要合成語音的情感表現(xiàn)力更加豐富,更接近人類真實的情感表達。現(xiàn)階段合成的語音數(shù)據(jù)情感表達顆粒度較粗,無法與人類真實細膩的情感語音進行比擬,因此,如何提高合成語音的情感表現(xiàn)力是現(xiàn)階段亟待解決的問題。
技術(shù)實現(xiàn)思路
1、本發(fā)明實施例提供一種語音合成方法、裝置、計算機設(shè)備及存儲介質(zhì),以解決提高合成語音的情感表現(xiàn)力較差的問題。
2、一種語音合成方法,包括:
3、獲取目標文本數(shù)據(jù);
4、采用聯(lián)合情感預(yù)測器對所述目標文本數(shù)據(jù)進行情感預(yù)測,獲取目標情感類型向量和目標情感強度標量;
5、采用聯(lián)合情感編碼器對所述目標情感類型向量和所述目標情感強度標量進行處理,獲取聯(lián)合情感嵌入向量;
6、采用語音合成模塊對所述目標文本數(shù)據(jù)和所述聯(lián)合情感嵌入向量進行處理,獲取所述目標文本數(shù)據(jù)對應(yīng)的目標合成語音。
7、優(yōu)選地,所述聯(lián)合情感預(yù)測器包括預(yù)訓(xùn)練語言模型、第一全連接層和第二全連接層;
8、所述采用聯(lián)合情感預(yù)測器對所述目標文本數(shù)據(jù)進行情感預(yù)測,獲取目標情感類型向量和目標情感強度標量,包括:
9、采用所述預(yù)訓(xùn)練語言模型對所述目標文本數(shù)據(jù)進行特征提取,獲取目標文本特征;
10、采用所述第一全連接層對所述目標文本特征進行情感類型預(yù)測,獲取目標情感類型向量;
11、采用所述第二全連接層對所述目標文本特征進行情感強度預(yù)測,獲取目標情感強度標量。
12、優(yōu)選地,所述采用聯(lián)合情感編碼器對所述目標情感類型向量和所述目標情感強度標量進行處理,獲取聯(lián)合情感嵌入向量,包括:
13、對所述目標情感類型向量進行投影,獲得情感類型投影矩陣;
14、根據(jù)所述目標情感類型向量和情感類型投影矩陣的乘積,獲得目標嵌入?yún)?shù);
15、對所述目標嵌入?yún)?shù)和所述目標情感強度標量進行處理,獲取聯(lián)合情感嵌入向量。
16、優(yōu)選地,所述語音合成模塊包括編碼器、持續(xù)時間預(yù)測器、解碼器和聲碼器;
17、所述采用語音合成模塊對所述目標文本數(shù)據(jù)和所述聯(lián)合情感嵌入向量進行處理,獲取所述目標文本數(shù)據(jù)對應(yīng)的目標合成語音,包括:
18、采用所述編碼器對所述目標文本數(shù)據(jù)進行處理,獲得文本嵌入向量;
19、采用所述持續(xù)時間預(yù)測器對所述文本嵌入向量、所述聯(lián)合情感嵌入向量和所述目標文本數(shù)據(jù)進行處理,獲得所述目標文本數(shù)據(jù)對應(yīng)的音素持續(xù)時間;
20、采用所述解碼器對所述音素持續(xù)時間和所述聯(lián)合情感嵌入向量進行處理,獲得所述目標文本數(shù)據(jù)對應(yīng)的梅爾頻譜;
21、采用所述聲碼器對所述目標文本數(shù)據(jù)對應(yīng)的梅爾頻譜進行處理,獲得所述目標文本數(shù)據(jù)對應(yīng)的目標合成語音。
22、優(yōu)選地,在所述獲取目標文本數(shù)據(jù)之前,所述語音合成方法還包括:
23、獲取原始訓(xùn)練數(shù)據(jù),所述原始訓(xùn)練數(shù)據(jù)包括原始訓(xùn)練文本數(shù)據(jù)和所述原始訓(xùn)練文本數(shù)據(jù)對應(yīng)的原始訓(xùn)練語音數(shù)據(jù);
24、對所述原始訓(xùn)練數(shù)據(jù)進行情感類型標注,獲取所述原始訓(xùn)練數(shù)據(jù)對應(yīng)的情感類型標簽;
25、對所述原始訓(xùn)練數(shù)據(jù)進行情感強度標注,獲取所述原始訓(xùn)練數(shù)據(jù)對應(yīng)的情感強度標簽;
26、基于所述原始訓(xùn)練數(shù)據(jù)、所述情感類型標簽和所述情感強度標簽,獲取待訓(xùn)練數(shù)據(jù),所述待訓(xùn)練數(shù)據(jù)包括待訓(xùn)練文本數(shù)據(jù)和所述待訓(xùn)練文本數(shù)據(jù)對應(yīng)的待訓(xùn)練語音數(shù)據(jù);
27、基于所述待訓(xùn)練數(shù)據(jù),聯(lián)合訓(xùn)練所述聯(lián)合情感預(yù)測器、聯(lián)合情感編碼器和語音合成模塊。
28、優(yōu)選地,所述對所述原始訓(xùn)練數(shù)據(jù)進行情感強度標注,獲取所述原始訓(xùn)練數(shù)據(jù)對應(yīng)的情感強度標簽,包括:
29、對所述原始訓(xùn)練語音數(shù)據(jù)進行數(shù)據(jù)提取,獲取訓(xùn)練語音特征;
30、采用基于排序的支持向量機對所述訓(xùn)練語音特征進行處理,確定所述原始訓(xùn)練語音數(shù)據(jù)的情感強度等級;
31、對所述原始訓(xùn)練語音數(shù)據(jù)的情感強度等級進行歸一化處理,獲取所述原始訓(xùn)練數(shù)據(jù)對應(yīng)的情感強度標簽。
32、一種語音合成裝置,其特征在于,包括:
33、目標文本數(shù)據(jù)獲取模塊,用于獲取目標文本數(shù)據(jù);
34、情感預(yù)測處理模塊,用于采用聯(lián)合情感預(yù)測器對所述目標文本數(shù)據(jù)進行情感預(yù)測,獲取目標情感類型向量和目標情感強度標量;
35、情感嵌入向量獲取模塊,用于采用聯(lián)合情感編碼器對所述目標情感類型向量和所述目標情感強度標量進行處理,獲取聯(lián)合情感嵌入向量;
36、目標合成語音獲取模塊,用于采用語音合成模塊對所述目標文本數(shù)據(jù)和所述聯(lián)合情感嵌入向量進行處理,獲取所述目標文本數(shù)據(jù)對應(yīng)的目標合成語音。
37、優(yōu)選地,所述情感嵌入向量獲取模塊包括:
38、投影矩陣獲取單元,用于對所述目標情感類型向量進行投影,獲取情感類型投影矩陣;
39、嵌入?yún)?shù)獲取單元,用于根據(jù)所述目標情感類型向量和情感類型投影矩陣的乘積,獲取目標嵌入?yún)?shù);
40、情感嵌入向量獲取單元,用于對所述目標嵌入?yún)?shù)和所述目標情感強度標量進行處理,獲取聯(lián)合情感嵌入向量。
41、一種計算機設(shè)備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述語音合成方法。
42、一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述語音合成方法。
43、上述語音合成方法、裝置、計算機設(shè)備及存儲介質(zhì),采用聯(lián)合情感預(yù)測器對目標文本數(shù)據(jù)進行情感預(yù)測,輸出目標情感類型向量和目標情感強度標量,利用一個聯(lián)合情感預(yù)測器進行情感類型和情感強度兩個維度的預(yù)測處理,有助于保障其預(yù)測處理效率和預(yù)測結(jié)構(gòu)的關(guān)聯(lián)性。再將目標情感類型向量和目標情感強度標量在聯(lián)合情感編碼器中進行聯(lián)合編碼處理,輸出聯(lián)合情感嵌入向量,利用一個聯(lián)合情感編碼器進行聯(lián)合編碼處理,可使最終形成聯(lián)合情感嵌入向量攜帶情感類型和情感強度這兩個維度的信息,使其情感表達更細膩。最后,對目標文本數(shù)據(jù)和聯(lián)合情感嵌入向量進行處理,合成情感表達細膩的目標合成語音,解決了現(xiàn)有技術(shù)中合成的語音情感表達顆粒度較粗、與人類真實語音表達的情感差異度較大的問題。
1.一種語音合成方法,其特征在于,包括:
2.如權(quán)利要求1所述的語音合成方法,其特征在于,所述聯(lián)合情感預(yù)測器包括預(yù)訓(xùn)練語言模型、第一全連接層和第二全連接層;
3.如權(quán)利要求2所述的語音合成方法,其特征在于,所述采用聯(lián)合情感編碼器對所述目標情感類型向量和所述目標情感強度標量進行處理,獲取聯(lián)合情感嵌入向量,包括:
4.如權(quán)利要求3所述的語音合成方法,其特征在于,所述語音合成模塊包括編碼器、持續(xù)時間預(yù)測器、解碼器和聲碼器;
5.如權(quán)利要求1所述的語音合成方法,其特征在于,在所述獲取目標文本數(shù)據(jù)之前,所述語音合成方法還包括:
6.如權(quán)利要求5所述的語音合成方法,其特征在于,所述對所述原始訓(xùn)練數(shù)據(jù)進行情感強度標注,獲取所述原始訓(xùn)練數(shù)據(jù)對應(yīng)的情感強度標簽,包括:
7.一種語音合成裝置,其特征在于,包括:
8.如權(quán)利要求7所述的語音合成裝置,其特征在于,所述情感嵌入向量獲取模塊包括:
9.一種計算機設(shè)備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權(quán)利要求1至6任一項所述語音合成方法。
10.一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至6任一項所述語音合成方法。