1. <rt id="e600n"></rt>
      1. <pre id="e600n"><strong id="e600n"><pre id="e600n"></pre></strong></pre>
      2. 岛国免费AV,无码人妻精品一区二区三区夜夜嗨,又大又粗又硬又爽黄毛少妇,精品国产AV二区,91视频最新网址,久操无码,久久无码人妻一区二区三区午夜,国产精品视频中文字幕

        一種語音合成方法、系統、電子設備及存儲介質與流程

        文檔序號:45264822發布日期:2026-04-17 19:50閱讀:6來源:國知局

        本申請涉及醫療科技、金融科技、人工智能,尤其涉及一種語音合成方法、系統、電子設備及存儲介質。


        背景技術:

        1、在語音合成技術領域,如何使合成的語音既保持穩定的說話人身份特征,又具備符合上下文語境的豐富語氣和風格,是一個亟待解決的技術難題。?現有技術通常存在兩類局限性:第一類是僅依賴說話人標識生成語音,這種方式雖然能保證音色穩定,但合成的語音往往語氣平淡、缺乏情感起伏;第二類是依賴參考音頻進行風格遷移,若參考音頻存在背景噪聲或時長過短,提取的聲學特征會變得極為不穩定,導致合成出的語音出現音質受損或音色漂移。

        2、因此,現有技術難以兼顧身份穩定性與風格豐富度,導致人機交互體驗不佳。


        技術實現思路

        1、本申請實施例提供一種語音合成方法、系統、電子設備及計算機可讀存儲介質,旨在改善現有語音合成中因難以兼顧身份穩定性與風格多樣性而導致的合成語音自然度較低的問題。

        2、第一方面,本申請實施例提供一種語音合成方法,包括:

        3、獲取待合成的目標文本、目標說話人標識以及包含語氣及風格信息的參考提示語音;

        4、對所述目標文本進行編碼處理,生成文本嵌入向量序列,其中所述文本嵌入向量序列由多個按時序排列的文本嵌入向量組成;

        5、基于所述目標說話人標識,生成對應的說話人嵌入向量;

        6、對所述參考提示語音進行特征提取及維度映射得到映射特征序列,并基于所述文本嵌入向量序列的序列長度對所述映射特征序列進行時序對齊,得到提示特征向量序列;

        7、基于所述文本嵌入向量序列、所述說話人嵌入向量及所述提示特征向量序列構建融合條件序列,其中,所述融合條件序列是通過對所述文本嵌入向量序列、所述說話人嵌入向量及所述提示特征向量序列進行逐元素特征融合得到的;

        8、將所述融合條件序列輸入至預置的聲學模型中進行預測,得到目標梅爾頻譜,并基于所述目標梅爾頻譜生成目標語音。

        9、第二方面,本申請實施例提供一種基于多條件融合的語音合成系統,包括:

        10、數據獲取模塊,用于獲取待合成的目標文本、目標說話人標識以及包含語氣及風格信息的參考提示語音;

        11、文本編碼模塊,用于對所述目標文本進行編碼處理,生成文本嵌入向量序列;

        12、說話人處理模塊,用于基于所述目標說話人標識,生成對應的說話人嵌入向量;

        13、提示處理模塊,用于對所述參考提示語音進行特征提取及維度映射得到映射特征序列,并基于所述文本嵌入向量序列的序列長度對所述映射特征序列進行時序對齊,得到提示特征向量序列;

        14、條件融合模塊,用于基于所述文本嵌入向量序列、所述說話人嵌入向量及所述提示特征向量序列構建融合條件序列;

        15、語音生成模塊,用于將所述融合條件序列輸入至預置的聲學模型中進行預測,得到目標梅爾頻譜,并基于所述目標梅爾頻譜生成目標語音。

        16、第三方面,本申請實施例提供一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現上述第一方面所述的方法。

        17、第四方面,本申請實施例提供一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現上述第一方面所述的方法。

        18、本申請實施例提供的技術方案,通過獲取文本、說話人標識及提示語音三維信息,利用時序對齊技術將提示語音特征長度調整至與文本序列一致,并采用逐元素融合方式構造統一的融合條件序列。通過引入時序對齊機制,解決了異構模態數據(文本與音頻)在時間維度上的非對應性問題;通過構建包含語義、身份及風格的三元融合條件序列,使得聲學模型能夠在一個統一的特征空間內同時學習到這三種屬性的非線性關系。逐元素融合的策略具有互補增強效應:穩定的說話人嵌入向量作為全局約束,有效抑制了因參考提示語音質量不佳可能引入的噪聲干擾,保證了合成語音的下限穩定性;而動態的提示特征向量則提供了細粒度的韻律調節,賦予了合成語音豐富的情感表現力。最終,該方法顯著提升了合成語音在對話場景下的自然度、魯棒性及用戶體驗。


        技術特征:

        1.一種語音合成方法,其特征在于,包括:

        2.根據權利要求1所述的方法,其特征在于,所述基于所述目標說話人標識,生成對應的說話人嵌入向量,包括:

        3.根據權利要求1所述的方法,其特征在于,所述對所述參考提示語音進行特征提取及維度映射得到映射特征序列,包括:

        4.根據權利要求1所述的方法,其特征在于,所述基于所述文本嵌入向量序列的序列長度對所述映射特征序列進行時序對齊,得到提示特征向量序列,包括:

        5.根據權利要求4所述的方法,其特征在于,所述基于所述長度差異關系,利用對齊模塊將所述映射特征序列調整至所述序列長度,包括:

        6.根據權利要求1所述的方法,其特征在于,所述基于所述文本嵌入向量序列、所述說話人嵌入向量及所述提示特征向量序列構建融合條件序列,包括:

        7.根據權利要求1-6任一項所述的方法,其特征在于,所述將所述融合條件序列輸入至預置的聲學模型中進行預測,得到目標梅爾頻譜,并基于所述目標梅爾頻譜生成目標語音,包括:

        8.一種語音合成系統,其特征在于,包括:

        9.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1至7任一項所述的方法。

        10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至7任一項所述的方法。


        技術總結
        本申請涉及人工智能技術領域,提供一種語音合成方法、系統、電子設備及介質,可應用于金融、醫療場景下的智能交互場景。方法部分包括:獲取待合成的目標文本、目標說話人標識以及包含語氣及風格信息的參考提示語音;對目標文本進行編碼生成文本嵌入向量序列;基于目標說話人標識生成說話人嵌入向量;對參考提示語音進行特征提取及維度映射,并基于文本序列長度進行時序對齊,得到提示特征向量序列;對上述三種向量進行逐元素特征融合構建融合條件序列;最后輸入聲學模型預測目標梅爾頻譜并生成語音。本申請通過融合多維條件特征,改善了對話場景下合成語音難以兼顧身份穩定性與風格表現力的問題。

        技術研發人員:石巖,陳閩川
        受保護的技術使用者:平安科技(深圳)有限公司
        技術研發日:
        技術公布日:2026/4/16
        網友詢問留言 留言:0條
        • 還沒有人留言評論。精彩留言會獲得點贊!
        主站蜘蛛池模板: 久久青草资料网站| 久久人人97超碰人人澡爱香蕉| caoporn国产| 国产精品禁18久久久夂久| 欧美午夜理论在线网站入口| 国产午夜精品一区二区三区不| 中国china体内裑精亚洲日本| 国产91精品一区二区亚洲| 欧美变态另类zozo| 国产精品成人不卡乱码| 亚洲av一卡二卡三卡| 亚洲人成网站www| 一区二区三区精品日韩| 亚洲高清WWW色好看美女| 99国产精品永久免费视频| 中文字幕在线高清| 饥渴的熟妇张开腿呻吟视频 | 日日碰狠狠添天天爽五月婷| 国产精品自拍实拍在线看| 国产永久免费高清在线观看| 国产国产久热这里只有精品| 久久涩综合| 一本大道中文日本香蕉| 自拍偷拍一区二区精品| 制服丝袜中文字幕在线| 精品人妻少妇嫩草av系列| 日韩精品无码一区二区视频| 国产日韩欧美在线观看不卡| 亚洲无码一卡二卡三卡 | 加勒比无码av中文字幕| 成人精品区| 精品久久精品久久精品九九| 亚洲av无码之国产精品网址蜜芽| 久久亚洲AV无码精品色午夜| 99精品在线| 欧美亚洲国产丝袜在线| 国外欧美一区另类中文字幕| 四虎影视永久在线精品| 亚洲精品一区二区三区综合| 国产精品亚洲二区在线播放| 久久天天躁夜夜躁狠狠I女人|