一種語音生成方法、裝置、存儲介質(zhì)及電子設(shè)備與流程

文檔序號：45272707發(fā)布日期：2026-04-17 20:14閱讀：7來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本申請涉及語音處理，尤其涉及一種語音生成方法、裝置、存儲介質(zhì)及電子設(shè)備。

背景技術(shù)：

1、語音合成（text-to-speech，tts）是一種將文本自動轉(zhuǎn)換為自然流暢的人類語音的人工智能技術(shù)，它是人機交互（hci）的關(guān)鍵組成部分，廣泛應(yīng)用于智能助手、有聲閱讀、導(dǎo)航播報、無障礙服務(wù)等場景。

2、目前，進行語音合成主要采用編碼器-解碼器-聲碼器的結(jié)構(gòu)，從語音庫中訓(xùn)練發(fā)音人的聲音，其中，語音庫中的數(shù)據(jù)通常在高質(zhì)量的錄音棚中錄制的聲音，且盡可能保證聲音的一致性和穩(wěn)定性，進而合成語音。

3、然而，由于數(shù)字人可以處于元宇宙中各種各樣的不同場景，使用這種語音合成的方式得到的合成語音在應(yīng)用到元宇宙數(shù)字人的過程中，會出現(xiàn)不同場景下的數(shù)字人聲音均相同的情況，進而使得數(shù)字人的聲音與人物自身及所在場景的融合度較差，影響用戶體驗。

技術(shù)實現(xiàn)思路

1、有鑒于此，本申請?zhí)峁┝艘环N語音生成方法、裝置、存儲介質(zhì)及電子設(shè)備，主要目的在于改善目前現(xiàn)有技術(shù)的合成語音在應(yīng)用到元宇宙數(shù)字人的過程中，會出現(xiàn)不同場景下的數(shù)字人聲音均相同的情況，進而使得數(shù)字人的聲音與人物自身及所在場景的融合度較差，影響用戶體驗的技術(shù)問題。

2、第一方面，本申請?zhí)峁┝艘环N語音生成方法，包括：

3、獲取目標(biāo)場景中目標(biāo)人物元素對應(yīng)的待輸出文本信息；

4、基于所述目標(biāo)場景對應(yīng)的場景圖像確定所述目標(biāo)場景對應(yīng)的語音輸出特征；

5、基于所述語音輸出特征確定所述目標(biāo)人物元素對應(yīng)的語音輸出方式；

6、按照所述語音輸出方式生成所述待輸出文本信息對應(yīng)的待輸出語音，所述待輸出語音用于所述目標(biāo)人物元素在所述目標(biāo)場景中進行語音輸出。

7、第二方面，本申請?zhí)峁┝艘环N語音生成裝置，包括：

8、獲取模塊，被配置為獲取目標(biāo)場景中目標(biāo)人物元素對應(yīng)的待輸出文本信息；

9、確定模塊，被配置為基于所述目標(biāo)場景對應(yīng)的場景圖像確定所述目標(biāo)場景對應(yīng)的語音輸出特征；

10、確定模塊，還被配置為基于所述語音輸出特征確定所述目標(biāo)人物元素對應(yīng)的語音輸出方式；

11、生成模塊，被配置為按照所述語音輸出方式生成所述待輸出文本信息對應(yīng)的待輸出語音，所述待輸出語音用于所述目標(biāo)人物元素在所述目標(biāo)場景中進行語音輸出。

12、第三方面，本申請?zhí)峁┝艘环N計算機可讀存儲介質(zhì)，其上存儲有計算機程序，所述計算機程序被處理器執(zhí)行時實現(xiàn)第一方面所述的語音生成方法。

13、第四方面，本申請?zhí)峁┝艘环N電子設(shè)備，包括存儲介質(zhì)、處理器及存儲在存儲介質(zhì)上并可在處理器上運行的計算機程序，所述處理器執(zhí)行所述計算機程序時實現(xiàn)第一方面所述的語音生成方法。

14、第五方面，本申請?zhí)峁┝艘环N計算機程序產(chǎn)品，所述計算機程序產(chǎn)品包括計算機程序，所述計算機程序被處理器執(zhí)行時實現(xiàn)第一方面所述的語音生成方法。

15、借由上述技術(shù)方案，本申請?zhí)峁┑囊环N語音生成方法、裝置、存儲介質(zhì)及電子設(shè)備，包括：獲取目標(biāo)場景中目標(biāo)人物元素對應(yīng)的待輸出文本信息；基于目標(biāo)場景對應(yīng)的場景圖像確定目標(biāo)場景對應(yīng)的語音輸出特征；基于語音輸出特征確定目標(biāo)人物元素對應(yīng)的語音輸出方式；按照語音輸出方式生成待輸出文本信息對應(yīng)的待輸出語音，待輸出語音用于目標(biāo)人物元素在目標(biāo)場景中進行語音輸出。與目前現(xiàn)有技術(shù)相比，本申請可以通過目標(biāo)人物元素對應(yīng)的場景圖像確定目標(biāo)人物元素在目標(biāo)場景中的語音輸出特征，進而可以確定目標(biāo)人物元素在目標(biāo)場景中的語音輸出方式，從而生成目標(biāo)場景中目標(biāo)人物元素的待輸出語音，使得本申請可以在目標(biāo)人物元素處于不同的場景下輸出不同的待輸出語音，從而使得本申請可以將目標(biāo)人物元素的聲音與目標(biāo)場景進行適配，從而提高目標(biāo)人物元素的聲音與目標(biāo)場景的適配度，提升用戶體驗。

技術(shù)特征：

1.一種語音生成方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述基于所述目標(biāo)場景對應(yīng)的場景圖像確定所述目標(biāo)場景對應(yīng)的語音輸出特征，包括：

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述基于所述語音輸出特征確定所述目標(biāo)人物元素對應(yīng)的語音輸出方式，包括：

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，在所述按照所述語音輸出方式生成所述待輸出文本信息對應(yīng)的待輸出語音之前，所述方法還包括：

5.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述按照所述語音輸出方式生成所述待輸出文本信息對應(yīng)的待輸出語音，包括：

6.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述按照所述語音輸出方式對所述第一語音頻譜信息進行調(diào)整，得到所述待輸出文本信息對應(yīng)的目標(biāo)語音頻譜信息，包括：

7.一種語音生成裝置，其特征在于，包括：

8.一種計算機可讀存儲介質(zhì)，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至6中任一項所述的方法。

9.一種電子設(shè)備，包括存儲介質(zhì)、處理器及存儲在存儲介質(zhì)上并可在處理器上運行的計算機程序，其特征在于，所述處理器執(zhí)行所述計算機程序時實現(xiàn)權(quán)利要求1至6中任一項所述的方法。

10.一種計算機程序產(chǎn)品，所述計算機程序產(chǎn)品包括計算機程序，其特征在于，所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至6中任一項所述的方法。

技術(shù)總結(jié)
本申請公開了一種語音生成方法、裝置、存儲介質(zhì)及電子設(shè)備，涉及語音處理技術(shù)領(lǐng)域，包括：獲取目標(biāo)場景中目標(biāo)人物元素對應(yīng)的待輸出文本信息；基于目標(biāo)場景對應(yīng)的場景圖像確定目標(biāo)場景對應(yīng)的語音輸出特征；基于語音輸出特征確定目標(biāo)人物元素對應(yīng)的語音輸出方式；按照語音輸出方式生成待輸出文本信息對應(yīng)的待輸出語音，待輸出語音用于目標(biāo)人物元素在目標(biāo)場景中進行語音輸出。與目前現(xiàn)有技術(shù)相比，本申請可以在目標(biāo)人物元素處于不同的場景下輸出不同的待輸出語音，從而使得本申請可以將目標(biāo)人物元素的聲音與目標(biāo)場景進行適配，從而提高目標(biāo)人物元素的聲音與目標(biāo)場景的適配度，提升用戶體驗。

技術(shù)研發(fā)人員：何鑫,馬丹,喬曦雨
受保護的技術(shù)使用者：咪咕文化科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2026/4/16

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：何鑫,馬丹,喬曦雨
技術(shù)所有人：咪咕文化科技有限公司
我是此專利的發(fā)明人

網(wǎng)友詢問留言留言:0條

還沒有人留言評論。精彩留言會獲得點贊！

文明留言，給您點贊！

同類技術(shù)