1. <rt id="e600n"></rt>
      1. <pre id="e600n"><strong id="e600n"><pre id="e600n"></pre></strong></pre>
      2. 岛国免费AV,无码人妻精品一区二区三区夜夜嗨,又大又粗又硬又爽黄毛少妇,精品国产AV二区,91视频最新网址,久操无码,久久无码人妻一区二区三区午夜,国产精品视频中文字幕

        基于因果音頻編碼的對話語音生成方法及裝置與流程

        文檔序號:45272904發(fā)布日期:2026-04-17 20:15閱讀:8來源:國知局

        本申請涉及語音合成,尤其涉及一種基于因果音頻編碼的對話語音生成方法及裝置。


        背景技術(shù):

        1、隨著生成式人工智能技術(shù)的突破,語音對話系統(tǒng)正從傳統(tǒng)的、機(jī)械的指令應(yīng)答模式向具有深度上下文理解能力的、自然流暢的開放域?qū)υ捘J窖葸M(jìn)。在智能投顧、電話客服、風(fēng)險(xiǎn)確認(rèn)等金融業(yè)務(wù)和智能問診、慢病管理、心理健康輔導(dǎo)等醫(yī)療場景中,對能夠進(jìn)行復(fù)雜、連續(xù)對話、低延遲、高質(zhì)量的智能助手的需求日益增長。然而,現(xiàn)有端到端的語音對話生成方案雖然在自然度上有所提升,但依然存在語音生成高延遲、語音合成質(zhì)量低的問題,因此如何降低語音生成延遲,提高語音合成質(zhì)量成為了亟需解決的問題。


        技術(shù)實(shí)現(xiàn)思路

        1、本申請?zhí)峁┝艘环N基于因果音頻編碼的對話語音生成方法及裝置,以降低語音生成延遲,提高語音合成質(zhì)量。

        2、第一方面,本申請?zhí)峁┝艘环N基于因果音頻編碼的對話語音生成方法,所述方法包括:

        3、基于語音對話系統(tǒng)對應(yīng)的音頻采集模塊,對用戶輸入語音進(jìn)行短幀采樣,獲得至少一個(gè)短幀音頻;

        4、將各所述短幀音頻流式傳輸至預(yù)設(shè)的因果音頻編碼器進(jìn)行編碼,獲得各所述短幀音頻對應(yīng)的音頻嵌入向量;

        5、獲取對話歷史信息,并基于大語言模型對所述對話歷史信息和各所述音頻嵌入向量進(jìn)行處理,獲得各所述音頻嵌入向量對應(yīng)的預(yù)測文本令牌和預(yù)測韻律特征向量;

        6、獲取目標(biāo)說話人對應(yīng)的目標(biāo)音色特征向量,基于語音合成模型,對各所述預(yù)測文本令牌、各所述預(yù)測韻律特征向量以及所述目標(biāo)音色特征向量進(jìn)行語音合成,獲得合成語音。

        7、第二方面,本申請還提供了一種基于因果音頻編碼的對話語音生成裝置,所述裝置包括:

        8、音頻采集模塊,用于基于語音對話系統(tǒng)對應(yīng)的音頻采集模塊,對用戶輸入語音進(jìn)行短幀采樣,獲得至少一個(gè)短幀音頻;

        9、音頻編碼模塊,用于將各所述短幀音頻流式傳輸至預(yù)設(shè)的因果音頻編碼器進(jìn)行編碼,獲得各所述短幀音頻對應(yīng)的音頻嵌入向量;

        10、特征預(yù)測模塊,用于獲取對話歷史信息,并基于大語言模型對所述對話歷史信息和各所述音頻嵌入向量進(jìn)行處理,獲得各所述音頻嵌入向量對應(yīng)的預(yù)測文本令牌和預(yù)測韻律特征向量;

        11、語音合成模塊,用于獲取目標(biāo)說話人對應(yīng)的目標(biāo)音色特征向量,基于語音合成模型,對各所述預(yù)測文本令牌、各所述預(yù)測韻律特征向量以及所述目標(biāo)音色特征向量進(jìn)行語音合成,獲得合成語音。

        12、第三方面,本申請還提供了一種計(jì)算機(jī)設(shè)備,所述計(jì)算機(jī)設(shè)備包括存儲器和處理器;所述存儲器,用于存儲計(jì)算機(jī)程序;所述處理器,用于執(zhí)行所述計(jì)算機(jī)程序并在執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上述的基于因果音頻編碼的對話語音生成方法。

        13、第四方面,本申請還提供了一種計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)使所述處理器實(shí)現(xiàn)如上述的基于因果音頻編碼的對話語音生成方法。

        14、本申請公開了一種基于因果音頻編碼的對話語音生成方法及裝置,基于語音對話系統(tǒng)對應(yīng)的音頻采集模塊,對用戶輸入語音進(jìn)行短幀采樣,獲得至少一個(gè)短幀音頻;將各所述短幀音頻流式傳輸至預(yù)設(shè)的因果音頻編碼器進(jìn)行編碼,獲得各所述短幀音頻對應(yīng)的音頻嵌入向量;獲取對話歷史信息,并基于大語言模型對所述對話歷史信息和各所述音頻嵌入向量進(jìn)行處理,獲得各所述音頻嵌入向量對應(yīng)的預(yù)測文本令牌和預(yù)測韻律特征向量;獲取目標(biāo)說話人對應(yīng)的目標(biāo)音色特征向量,基于語音合成模型,對各所述預(yù)測文本令牌、各所述預(yù)測韻律特征向量以及所述目標(biāo)音色特征向量進(jìn)行語音合成,獲得合成語音。本申請通過對短幀音頻進(jìn)行流式傳輸和編碼,無需等待用戶語音的完整輸入,降低了響應(yīng)時(shí)間,避免了語音生成延遲,其次,將風(fēng)格表示解耦為音色特征向量和韻律特征向量,克服了現(xiàn)有單一耦合風(fēng)格向量容易導(dǎo)致音色與韻律特征混淆的問題,在多輪對話中能夠穩(wěn)定保持目標(biāo)說話人音色不變,同時(shí)根據(jù)歷史信息預(yù)設(shè)合理韻律,提高了合成語音的質(zhì)量。


        技術(shù)特征:

        1.一種基于因果音頻編碼的對話語音生成方法,其特征在于,包括:

        2.根據(jù)權(quán)利要求1所述的基于因果音頻編碼的對話語音生成方法,其特征在于,所述將各所述短幀音頻流式傳輸至預(yù)設(shè)的因果音頻編碼器進(jìn)行編碼,獲得各所述短幀音頻對應(yīng)的音頻嵌入向量,包括:

        3.根據(jù)權(quán)利要求1所述的基于因果音頻編碼的對話語音生成方法,其特征在于,所述將各所述短幀音頻流式傳輸至預(yù)設(shè)的因果音頻編碼器進(jìn)行編碼,獲得各所述短幀音頻對應(yīng)的音頻嵌入向量之后,還包括:

        4.根據(jù)權(quán)利要求3所述的基于因果音頻編碼的對話語音生成方法,其特征在于,所述雙路風(fēng)格編碼器包括音色提取支路和韻律提取支路,所述基于所述語音對話系統(tǒng)對應(yīng)的雙路風(fēng)格編碼器對各所述音頻嵌入向量進(jìn)行音色特征和韻律特征提取和編碼,獲得當(dāng)前音色特征向量、當(dāng)前韻律特征向量以及第一置信度,包括:

        5.根據(jù)權(quán)利要求3所述的基于因果音頻編碼的對話語音生成方法,其特征在于,所述基于各所述短幀音頻對應(yīng)的所述當(dāng)前音色特征向量、所述當(dāng)前韻律特征向量、所述當(dāng)前文本片段和所述目標(biāo)置信度對所述對話歷史信息進(jìn)行更新,包括:

        6.根據(jù)權(quán)利要求1所述的基于因果音頻編碼的對話語音生成方法,其特征在于,所述基于語音對話系統(tǒng)對應(yīng)的音頻采集模塊,對用戶輸入語音進(jìn)行短幀采樣,獲得至少一個(gè)短幀音頻之前,還包括:

        7.根據(jù)權(quán)利要求1至6任一項(xiàng)所述的基于因果音頻編碼的對話語音生成方法,其特征在于,所述將各所述短幀音頻流式傳輸至預(yù)設(shè)的因果音頻編碼器進(jìn)行編碼,獲得各所述短幀音頻對應(yīng)的音頻嵌入向量之后,還包括:

        8.一種基于因果音頻編碼的對話語音生成裝置,其特征在于,包括:

        9.一種計(jì)算機(jī)設(shè)備,其特征在于,所述計(jì)算機(jī)設(shè)備包括存儲器和處理器;

        10.一種計(jì)算機(jī)可讀存儲介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)使所述處理器實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的基于因果音頻編碼的對話語音生成方法。


        技術(shù)總結(jié)
        本申請涉及語音合成技術(shù)領(lǐng)域,具體公開了一種基于因果音頻編碼的對話語音生成方法及裝置。本申請通過對短幀音頻進(jìn)行流式傳輸和編碼,無需等待用戶語音的完整輸入,降低了響應(yīng)時(shí)間,避免了語音生成延遲,其次,將風(fēng)格表示解耦為音色特征向量和韻律特征向量,克服了現(xiàn)有單一耦合風(fēng)格向量容易導(dǎo)致音色與韻律特征混淆的問題,在多輪對話中能夠穩(wěn)定保持目標(biāo)說話人音色不變,同時(shí)根據(jù)歷史信息預(yù)設(shè)合理韻律,提高了合成語音的質(zhì)量。將本方法應(yīng)用于智能投顧、電話客服、風(fēng)險(xiǎn)確認(rèn)等金融業(yè)務(wù)和智能問診、慢病管理、心理健康輔導(dǎo)等醫(yī)療業(yè)務(wù)的語音對話系統(tǒng)中,能夠針對用戶輸入語音,實(shí)時(shí)生成高質(zhì)量回復(fù)語音,避免語音生成延遲,提高用戶體驗(yàn)。

        技術(shù)研發(fā)人員:黃耀,薛青,陳閩川,王少軍
        受保護(hù)的技術(shù)使用者:平安科技(深圳)有限公司
        技術(shù)研發(fā)日:
        技術(shù)公布日:2026/4/16
        網(wǎng)友詢問留言 留言:0條
        • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
        主站蜘蛛池模板: 久草热8精品视频在线观看| 国产精品午夜福利| 美女Av影院| 成人影院在线免费观看视频| 18禁亚洲一区二区三区| 人妻聚色窝窝人体WWW一区| 少妇人妻视频| 国产欧美日本一区二区三区| 老司机在线视频免费福利| 麻豆午夜福利国产高潮偷啪| 92国产精品午夜福利免费| 黄又色又污又爽又高潮| 中文字幕日韩精品有码视频| 男女猛烈激情XX00免费视频| 国产自产视频一区二区| 成人又黄又爽又色的视频 | 国产精品无码v在线观看| 瑟瑟日韩无码| 天天做天天爱天天爽综合网| 粗大挺进尤物人妻中文字幕| jk白丝喷浆| 国产精品久久久久久久久久直播| 熟妇人妻av无码一区二区三区| 91国内外精品自在线播放| 国产精品欧美在线观看| 国产精品深夜福利免费观看| 日日摸夜夜添夜夜添国产三级| 丰满白嫩大屁股ass| 久久久久国产精品免费免费搜索| 亚洲人成人网| 999国产精品999久久久久久 | 亚洲综合AV一区二区三区不卡| 欧美国产在线观看| 国产av一区二区三区人妻| 国产亚洲精品福利在线无卡一 | 亚洲一区在线日韩在线深爱| 精品人妻av区乱码| 国产精品一区二区小视频| A片网| 久久99精品久久久久子伦| 欧美亚洲日韩国产人成在线播放|