1. <rt id="e600n"></rt>
      1. <pre id="e600n"><strong id="e600n"><pre id="e600n"></pre></strong></pre>
      2. 岛国免费AV,无码人妻精品一区二区三区夜夜嗨,又大又粗又硬又爽黄毛少妇,精品国产AV二区,91视频最新网址,久操无码,久久无码人妻一区二区三区午夜,国产精品视频中文字幕

        基于自引導(dǎo)擴散模型的語音生成方法、裝置、設(shè)備及介質(zhì)與流程

        文檔序號:45272903發(fā)布日期:2026-04-17 20:15閱讀:5來源:國知局

        本申請涉及語音語義,尤其涉及一種基于自引導(dǎo)擴散模型的語音生成方法、裝置、設(shè)備及介質(zhì)。


        背景技術(shù):

        1、在人工智能技術(shù)蓬勃發(fā)展的今天,文本轉(zhuǎn)語音系統(tǒng)作為人機交互的關(guān)鍵接口,其應(yīng)用已深入到各行各業(yè)。特別是在金融科技與醫(yī)療健康養(yǎng)老兩大關(guān)乎民生福祉與社會效率的關(guān)鍵領(lǐng)域,高質(zhì)量、高可信度、高表現(xiàn)力的語音合成技術(shù)具有巨大的應(yīng)用需求。

        2、在金融科技領(lǐng)域,文本轉(zhuǎn)語音技術(shù)被廣泛應(yīng)用于智能客服外呼、風(fēng)險交易確認、金融產(chǎn)品推介、賬單提醒及投資者教育等場景,這些場景對語音生成的內(nèi)容準確性、專業(yè)性和可信度出了極高要求。例如,在自動播報股價或交易明細時,一個數(shù)字的讀錯或重復(fù)都可能導(dǎo)致嚴重的客戶糾紛與財務(wù)損失;在推銷金融產(chǎn)品時,單調(diào)、機械或含有噪聲的語音會顯著降低用戶的信任感和購買意愿。然而,當(dāng)前的業(yè)務(wù)系統(tǒng)大多依賴于傳統(tǒng)的或基于種子模型的分層文本轉(zhuǎn)語音技術(shù),這些技術(shù)在應(yīng)對金融文本中復(fù)雜的專業(yè)術(shù)語、數(shù)字及特定韻律時顯得力不從心。

        3、在醫(yī)療健康養(yǎng)老領(lǐng)域,文本轉(zhuǎn)語音技術(shù)扮演著更為重要的角色,如智能問診導(dǎo)診、用藥提醒與指導(dǎo)、慢性病管理建議的播報,以及為視障或年邁用戶提供信息播報服務(wù)。該領(lǐng)域?qū)φZ音的清晰度、自然度、情感親和力有著特殊要求。例如,向老年人播報用藥說明時,語音必須絕對清晰、無歧義,任何內(nèi)容的遺漏或背景偽音都可能引發(fā)用藥安全風(fēng)險。

        4、因此,如何在金融科技以及醫(yī)療健康養(yǎng)老等業(yè)務(wù)領(lǐng)域中,提高智能客服系統(tǒng)將文本信息轉(zhuǎn)換為語音信息的可靠性成為了目前亟待解決的技術(shù)問題。


        技術(shù)實現(xiàn)思路

        1、本申請?zhí)峁┝艘环N基于自引導(dǎo)擴散模型的語音生成方法、裝置、設(shè)備及介質(zhì),以提高智能客服系統(tǒng)將文本信息轉(zhuǎn)換為語音信息的可靠性。

        2、第一方面,本申請?zhí)峁┝艘环N基于自引導(dǎo)擴散模型的語音生成方法,所述方法包括:

        3、獲取待轉(zhuǎn)換文本序列,并通過主語義預(yù)測模型、弱化語義引導(dǎo)模型和所述待轉(zhuǎn)換文本序列,生成語義標記序列;

        4、根據(jù)粗粒度擴散模型、細粒度擴散模型和所述語義標記序列生成梅爾頻譜圖;

        5、通過預(yù)設(shè)特征轉(zhuǎn)換技術(shù)和所述梅爾頻譜圖,生成目標語音信息。

        6、第二方面,本申請還提供了一種基于自引導(dǎo)擴散模型的語音生成裝置,所述裝置包括:

        7、語義標記序列生成模塊,用于獲取待轉(zhuǎn)換文本序列,并通過主語義預(yù)測模型、弱化語義引導(dǎo)模型和所述待轉(zhuǎn)換文本序列,生成語義標記序列;

        8、梅爾頻譜圖生成模塊,用于根據(jù)粗粒度擴散模型、細粒度擴散模型和所述語義標記序列生成梅爾頻譜圖;

        9、目標語音信息生成模塊,用于通過預(yù)設(shè)特征轉(zhuǎn)換技術(shù)和所述梅爾頻譜圖,生成目標語音信息。

        10、第三方面,本申請還提供了一種計算機設(shè)備,所述計算機設(shè)備包括存儲器和處理器;所述存儲器用于存儲計算機程序;所述處理器,用于執(zhí)行所述計算機程序并在執(zhí)行所述計算機程序時實現(xiàn)如上述的基于自引導(dǎo)擴散模型的語音生成方法。

        11、第四方面,本申請還提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時使所述處理器實現(xiàn)如上述的基于自引導(dǎo)擴散模型的語音生成方法。

        12、本申請公開了一種基于自引導(dǎo)擴散模型的語音生成方法、裝置、設(shè)備及介質(zhì),所述基于自引導(dǎo)擴散模型的語音生成方法包括獲取待轉(zhuǎn)換文本序列,并通過主語義預(yù)測模型、弱化語義引導(dǎo)模型和所述待轉(zhuǎn)換文本序列,生成語義標記序列;根據(jù)粗粒度擴散模型、細粒度擴散模型和所述語義標記序列生成梅爾頻譜圖;通過預(yù)設(shè)特征轉(zhuǎn)換技術(shù)和所述梅爾頻譜圖,生成目標語音信息。通過上述方式,本申請通過弱化語義引導(dǎo)模型與主語義預(yù)測模型協(xié)同工作,在語義標記生成過程中進行自引導(dǎo)增強,降低錯誤語義標記的產(chǎn)生概率。通過粗粒度與細粒度兩級擴散模型的自引導(dǎo)優(yōu)化,實現(xiàn)了層級式精細化生成語音特征,避免了傳統(tǒng)單一擴散模型易產(chǎn)生的細微噪聲,在金融科技以及醫(yī)療健康養(yǎng)老等業(yè)務(wù)領(lǐng)域中,提高了智能客服系統(tǒng)將文本信息轉(zhuǎn)換為語音信息的可靠性。


        技術(shù)特征:

        1.一種基于自引導(dǎo)擴散模型的語音生成方法,其特征在于,包括:

        2.根據(jù)權(quán)利要求1所述的基于自引導(dǎo)擴散模型的語音生成方法,其特征在于,所述通過主語義預(yù)測模型、弱化語義引導(dǎo)模型和所述待轉(zhuǎn)換文本序列,生成語義標記序列,包括:

        3.根據(jù)權(quán)利要求2所述的基于自引導(dǎo)擴散模型的語音生成方法,其特征在于,所述基于預(yù)設(shè)語義引導(dǎo)強度系數(shù)將所述主輸出概率分布和所述引導(dǎo)輸出概率分布進行加權(quán)融合,生成自引導(dǎo)概率分布之前,包括:

        4.根據(jù)權(quán)利要求1所述的基于自引導(dǎo)擴散模型的語音生成方法,其特征在于,所述根據(jù)粗粒度擴散模型、細粒度擴散模型和所述語義標記序列生成梅爾頻譜圖之前,包括:

        5.根據(jù)權(quán)利要求4所述的基于自引導(dǎo)擴散模型的語音生成方法,其特征在于,所述根據(jù)粗粒度擴散模型、細粒度擴散模型和所述語義標記序列生成梅爾頻譜圖,包括:

        6.根據(jù)權(quán)利要求5所述的基于自引導(dǎo)擴散模型的語音生成方法,其特征在于,所述根據(jù)所述粗粒度擴散模型、所述粗粒度引導(dǎo)模型和所述語義標記序列生成粗粒度聲學(xué)特征,包括:

        7.根據(jù)權(quán)利要求1至6中任一項所述的基于自引導(dǎo)擴散模型的語音生成方法,其特征在于,所述通過預(yù)設(shè)特征轉(zhuǎn)換技術(shù)和所述梅爾頻譜圖,生成目標語音信息,包括:

        8.一種基于自引導(dǎo)擴散模型的語音生成裝置,其特征在于,包括:

        9.一種計算機設(shè)備,其特征在于,所述計算機設(shè)備包括存儲器和處理器;

        10.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時使所述處理器實現(xiàn)如權(quán)利要求1至7中任一項所述的基于自引導(dǎo)擴散模型的語音生成方法。


        技術(shù)總結(jié)
        本申請涉及語音語義技術(shù)領(lǐng)域,公開了一種基于自引導(dǎo)擴散模型的語音生成方法、裝置、設(shè)備及介質(zhì),所述方法包括生成語義標記序列;根據(jù)粗粒度擴散模型、細粒度擴散模型和語義標記序列生成梅爾頻譜圖;通過特征轉(zhuǎn)換技術(shù)和梅爾頻譜圖生成目標語音信息。通過上述方式,本申請通過弱化語義引導(dǎo)模型與主語義預(yù)測模型協(xié)同工作,在語義標記生成過程中進行自引導(dǎo)增強,降低錯誤語義標記的產(chǎn)生概率。通過粗粒度與細粒度兩級擴散模型的自引導(dǎo)優(yōu)化,實現(xiàn)了層級式精細化生成語音特征,避免了傳統(tǒng)單一擴散模型易產(chǎn)生的細微噪聲,本申請可應(yīng)用于金融科技以及醫(yī)療健康養(yǎng)老等業(yè)務(wù)領(lǐng)域,提高了智能客服系統(tǒng)將文本信息轉(zhuǎn)換為語音信息的可靠性。

        技術(shù)研發(fā)人員:陳閩川,萬臣臣,王少軍
        受保護的技術(shù)使用者:平安科技(深圳)有限公司
        技術(shù)研發(fā)日:
        技術(shù)公布日:2026/4/16
        網(wǎng)友詢問留言 留言:0條
        • 還沒有人留言評論。精彩留言會獲得點贊!
        主站蜘蛛池模板: 亚洲欧美国产免费综合视频| 伊人久久大香线蕉亚洲五月天| 日韩一区国产二区欧美三区| 国产伦精品一区二区三区免费迷 | 视频一区视频二区亚洲免费观看| 3751色视频| 蜜臀av久久国产午夜福利软件| 蜜臀久久99精品久久久酒店新书| 夜夜嗨av| 亚洲欧美日韩国产| 五月婷婷综合一区二区三区| 美女一区二区三区在线观看视频| 欧美人禽zozo动人物杂交| 精品女人久久久| 日本一二三区视频在线| 亚洲黄色电影| 亚洲一区二区三区在线| 中文字幕午夜五月一二| 精品久久久久国产免费| 99久久精品国产一区色| 黄色A片网| 亚洲资源av无码日韩av无码| 亚洲人成电影网站色WWW两男一女| 国产精品真实对白精彩久久| 熟女视频在线看| 天堂mv在线mv免费mv香蕉| 蜜芽久久人人超碰爱香蕉| 成人影院激情av在线| 国产精品99久久免费| 亚洲男人的天堂久久精品| 国产精品无码a∨精品影院app| 日韩三级久久| 免费的特黄特色大片| 九九热在线视频只有精品| 久久综合国产| 我国产码在线观看av哈哈哈网站| 欧美性大战久久久久XXX| 欧美野外伦姧在线观看| 狠狠躁夜夜躁人人爽天天5| 漂亮人妻被中出中文字幕久久| 亚洲国产成人久久一区WWW|