本申請涉及醫療科技、金融科技、人工智能,尤其涉及一種語音合成方法、系統、電子設備及存儲介質。
背景技術:
1、在語音合成技術領域,如何使合成的語音既保持穩定的說話人身份特征,又具備符合上下文語境的豐富語氣和風格,是一個亟待解決的技術難題。?現有技術通常存在兩類局限性:第一類是僅依賴說話人標識生成語音,這種方式雖然能保證音色穩定,但合成的語音往往語氣平淡、缺乏情感起伏;第二類是依賴參考音頻進行風格遷移,若參考音頻存在背景噪聲或時長過短,提取的聲學特征會變得極為不穩定,導致合成出的語音出現音質受損或音色漂移。
2、因此,現有技術難以兼顧身份穩定性與風格豐富度,導致人機交互體驗不佳。
技術實現思路
1、本申請實施例提供一種語音合成方法、系統、電子設備及計算機可讀存儲介質,旨在改善現有語音合成中因難以兼顧身份穩定性與風格多樣性而導致的合成語音自然度較低的問題。
2、第一方面,本申請實施例提供一種語音合成方法,包括:
3、獲取待合成的目標文本、目標說話人標識以及包含語氣及風格信息的參考提示語音;
4、對所述目標文本進行編碼處理,生成文本嵌入向量序列,其中所述文本嵌入向量序列由多個按時序排列的文本嵌入向量組成;
5、基于所述目標說話人標識,生成對應的說話人嵌入向量;
6、對所述參考提示語音進行特征提取及維度映射得到映射特征序列,并基于所述文本嵌入向量序列的序列長度對所述映射特征序列進行時序對齊,得到提示特征向量序列;
7、基于所述文本嵌入向量序列、所述說話人嵌入向量及所述提示特征向量序列構建融合條件序列,其中,所述融合條件序列是通過對所述文本嵌入向量序列、所述說話人嵌入向量及所述提示特征向量序列進行逐元素特征融合得到的;
8、將所述融合條件序列輸入至預置的聲學模型中進行預測,得到目標梅爾頻譜,并基于所述目標梅爾頻譜生成目標語音。
9、第二方面,本申請實施例提供一種基于多條件融合的語音合成系統,包括:
10、數據獲取模塊,用于獲取待合成的目標文本、目標說話人標識以及包含語氣及風格信息的參考提示語音;
11、文本編碼模塊,用于對所述目標文本進行編碼處理,生成文本嵌入向量序列;
12、說話人處理模塊,用于基于所述目標說話人標識,生成對應的說話人嵌入向量;
13、提示處理模塊,用于對所述參考提示語音進行特征提取及維度映射得到映射特征序列,并基于所述文本嵌入向量序列的序列長度對所述映射特征序列進行時序對齊,得到提示特征向量序列;
14、條件融合模塊,用于基于所述文本嵌入向量序列、所述說話人嵌入向量及所述提示特征向量序列構建融合條件序列;
15、語音生成模塊,用于將所述融合條件序列輸入至預置的聲學模型中進行預測,得到目標梅爾頻譜,并基于所述目標梅爾頻譜生成目標語音。
16、第三方面,本申請實施例提供一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現上述第一方面所述的方法。
17、第四方面,本申請實施例提供一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現上述第一方面所述的方法。
18、本申請實施例提供的技術方案,通過獲取文本、說話人標識及提示語音三維信息,利用時序對齊技術將提示語音特征長度調整至與文本序列一致,并采用逐元素融合方式構造統一的融合條件序列。通過引入時序對齊機制,解決了異構模態數據(文本與音頻)在時間維度上的非對應性問題;通過構建包含語義、身份及風格的三元融合條件序列,使得聲學模型能夠在一個統一的特征空間內同時學習到這三種屬性的非線性關系。逐元素融合的策略具有互補增強效應:穩定的說話人嵌入向量作為全局約束,有效抑制了因參考提示語音質量不佳可能引入的噪聲干擾,保證了合成語音的下限穩定性;而動態的提示特征向量則提供了細粒度的韻律調節,賦予了合成語音豐富的情感表現力。最終,該方法顯著提升了合成語音在對話場景下的自然度、魯棒性及用戶體驗。
1.一種語音合成方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述基于所述目標說話人標識,生成對應的說話人嵌入向量,包括:
3.根據權利要求1所述的方法,其特征在于,所述對所述參考提示語音進行特征提取及維度映射得到映射特征序列,包括:
4.根據權利要求1所述的方法,其特征在于,所述基于所述文本嵌入向量序列的序列長度對所述映射特征序列進行時序對齊,得到提示特征向量序列,包括:
5.根據權利要求4所述的方法,其特征在于,所述基于所述長度差異關系,利用對齊模塊將所述映射特征序列調整至所述序列長度,包括:
6.根據權利要求1所述的方法,其特征在于,所述基于所述文本嵌入向量序列、所述說話人嵌入向量及所述提示特征向量序列構建融合條件序列,包括:
7.根據權利要求1-6任一項所述的方法,其特征在于,所述將所述融合條件序列輸入至預置的聲學模型中進行預測,得到目標梅爾頻譜,并基于所述目標梅爾頻譜生成目標語音,包括:
8.一種語音合成系統,其特征在于,包括:
9.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1至7任一項所述的方法。
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至7任一項所述的方法。