本技術屬于語音處理,尤其涉及一種韻律遷移方法、裝置、計算機可讀存儲介質及終端設備。
背景技術:
1、韻律是文本對應的發音節奏和規律,包含音高、強弱和停頓等特性,而不同韻律結構的語音能表達出不同的含義與情感。對于同樣的文本內容,韻律遷移能使得語音的韻律結構接近被模仿對象的韻律結構,從而達到模仿被模仿對象語氣的效果。隨著移動互聯網和人工智能技術的快速發展,韻律遷移技術在人機交互、文本閱讀及新聞播報等場景得到了廣泛的應用。然而,現有的韻律遷移方法中韻律遷移模型的訓練占用較大的算力資源,導致模型訓練效率較低。
技術實現思路
1、有鑒于此,本技術實施例提供了一種韻律遷移方法、裝置、計算機可讀存儲介質及終端設備,以解決現有的韻律遷移方法中韻律遷移模型的訓練占用較大的算力資源,導致訓練效率較低的問題。
2、本技術實施例的第一方面提供了一種韻律遷移方法,可以包括:
3、獲取目標韻律特征和原始聲音頻譜;
4、使用預設的韻律遷移模型對所述目標韻律特征和所述原始聲音頻譜進行韻律遷移,得到具有所述目標韻律特征的目標聲音頻譜;
5、其中,所述韻律遷移模型為在預訓練的聲學模型中加入韻律編碼器得到的模型,所述韻律編碼器用于對韻律特征進行編碼。
6、在第一方面的一種具體實現方式中,所述使用預設的韻律遷移模型對所述目標韻律特征和所述原始聲音頻譜進行韻律遷移,得到具有所述目標韻律特征的目標聲音頻譜,可以包括:
7、使用所述韻律編碼器對所述目標韻律特征進行編碼,得到韻律編碼輸出特征;
8、使用所述韻律遷移模型中的內容編碼器對所述原始聲音頻譜進行編碼,得到內容編碼輸出特征;
9、對所述韻律編碼輸出特征和所述內容編碼輸出特征進行融合,得到韻律融合特征;
10、通過所述韻律遷移模型中的解碼器對所述韻律融合特征進行解碼,得到所述目標聲音頻譜。
11、在第一方面的一種具體實現方式中,所述對所述韻律編碼輸出特征和所述內容編碼輸出特征進行融合,得到韻律融合特征,可以包括:
12、對所述韻律編碼輸出特征和所述內容編碼輸出特征進行拼接,得到拼接特征;
13、對所述拼接特征進行線性層處理,得到所述韻律融合特征;其中,所述韻律融合特征的維度與所述內容編碼輸出特征的維度一致。
14、在第一方面的一種具體實現方式中,在使用預設的韻律遷移模型對所述目標韻律特征和所述原始聲音頻譜進行韻律遷移之前,還可以包括:
15、獲取所述預訓練的聲學模型;
16、在所述預訓練的聲學模型中加入所述韻律編碼器,得到初始模型;
17、使用預設的韻律遷移訓練樣本集對所述初始模型進行訓練,得到所述韻律遷移模型。
18、在第一方面的一種具體實現方式中,所述韻律遷移訓練樣本集包括預設數目的訓練樣本,每個訓練樣本包括目標韻律特征樣本、原始聲音頻譜樣本和對應的預期目標聲音頻譜;
19、所述使用預設的韻律遷移訓練樣本集對所述初始模型進行訓練,得到所述韻律遷移模型,可以包括:
20、以所述韻律遷移訓練樣本集中每個訓練樣本的目標韻律特征樣本和原始聲音頻譜樣本為輸入,以所述韻律遷移訓練樣本集中每個訓練樣本的預期目標聲音頻譜為預期輸出,對所述初始模型進行訓練,得到所述韻律遷移模型。
21、在第一方面的一種具體實現方式中,所述獲取目標韻律特征和原始聲音頻譜,可以包括:
22、分別獲取第一語音和第二語音;
23、對所述第一語音進行韻律特征提取,得到所述目標韻律特征;
24、對所述第二語音進行聲音頻譜提取,得到所述原始聲音頻譜。
25、在第一方面的一種具體實現方式中,在使用預設的韻律遷移模型對所述目標韻律特征和所述原始聲音頻譜進行韻律遷移,得到具有所述目標韻律特征的目標聲音頻譜之后,還可以包括:
26、對所述目標聲音頻譜進行語音合成,得到第三語音。
27、本技術實施例的第二方面提供了一種韻律遷移裝置,可以包括:
28、獲取模塊,用于獲取目標韻律特征和原始聲音頻譜;
29、韻律遷移模塊,用于使用預設的韻律遷移模型對所述目標韻律特征和所述原始聲音頻譜進行韻律遷移,得到具有所述目標韻律特征的目標聲音頻譜;
30、其中,所述韻律遷移模型為在預訓練的聲學模型中加入韻律編碼器得到的模型,所述韻律編碼器用于對韻律特征進行編碼。
31、在第二方面的一種具體實現方式中,所述韻律遷移模塊可以包括:
32、第一編碼單元,用于使用所述韻律編碼器對所述目標韻律特征進行編碼,得到韻律編碼輸出特征;
33、第二編碼單元,用于使用所述韻律遷移模型中的內容編碼器對所述原始聲音頻譜進行編碼,得到內容編碼輸出特征;
34、特征融合單元,用于對所述韻律編碼輸出特征和所述內容編碼輸出特征進行融合,得到韻律融合特征;
35、解碼單元,用于通過所述韻律遷移模型中的解碼器對所述韻律融合特征進行解碼,得到所述目標聲音頻譜。
36、在第二方面的一種具體實現方式中,所述特征融合單元可以包括:
37、特征拼接子單元,用于對所述韻律編碼輸出特征和所述內容編碼輸出特征進行拼接,得到拼接特征;
38、特征處理子單元,用于對所述拼接特征進行線性層處理,得到所述韻律融合特征;其中,所述韻律融合特征的維度與所述內容編碼輸出特征的維度一致。
39、在第二方面的一種具體實現方式中,所述韻律遷移裝置還可以包括:
40、模型獲取模塊,用于獲取所述預訓練的聲學模型;
41、編碼加入模塊,用于在所述預訓練的聲學模型中加入所述韻律編碼器,得到初始模型;
42、模型訓練模塊,用于使用預設的韻律遷移訓練樣本集對所述初始模型進行訓練,得到所述韻律遷移模型。
43、在第二方面的一種具體實現方式中,所述韻律遷移訓練樣本集包括預設數目的訓練樣本,每個訓練樣本包括目標韻律特征樣本、原始聲音頻譜樣本和對應的預期目標聲音頻譜;
44、所述模型訓練模塊可以包括:
45、模型訓練單元,用于以所述韻律遷移訓練樣本集中每個訓練樣本的目標韻律特征樣本和原始聲音頻譜樣本為輸入,以所述韻律遷移訓練樣本集中每個訓練樣本的預期目標聲音頻譜為預期輸出,對所述初始模型進行訓練,得到所述韻律遷移模型。
46、在第二方面的一種具體實現方式中,所述獲取模塊可以包括:
47、語音獲取單元,用于分別獲取第一語音和第二語音;
48、特征提取單元,用于對所述第一語音進行韻律特征提取,得到所述目標韻律特征;
49、頻譜提取單元,用于對所述第二語音進行聲音頻譜提取,得到所述原始聲音頻譜。
50、在第二方面的一種具體實現方式中,所述韻律遷移裝置還可以包括:
51、語音合成模塊,用于對所述目標聲音頻譜進行語音合成,得到第三語音。
52、本技術實施例的第三方面提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現上述任一種韻律遷移方法的步驟。
53、本技術實施例的第四方面提供了一種終端設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現上述任一種韻律遷移方法的步驟。
54、本技術實施例的第五方面提供了一種計算機程序產品,當計算機程序產品在終端設備上運行時,使得終端設備執行上述任一種韻律遷移方法的步驟。
55、本技術實施例與現有技術相比存在的有益效果是:本技術實施例獲取目標韻律特征和原始聲音頻譜;使用預設的韻律遷移模型對所述目標韻律特征和所述原始聲音頻譜進行韻律遷移,得到具有所述目標韻律特征的目標聲音頻譜;其中,所述韻律遷移模型為在預訓練的聲學模型中加入韻律編碼器得到的模型,所述韻律編碼器用于對韻律特征進行編碼。通過本技術實施例,可以在預訓練的聲學模型中加入韻律編碼器,有效降低模型訓練時占用的算力資源,提升了模型訓練效率。