本發明涉及基于擴散模型技術和大語言模型思維鏈推理機制的歌聲合成領域,具體來說,本發明提供了一種基于參考音頻和文本提示的歌聲合成方法及裝置。
背景技術:
1、歌聲合成是語音合成領域的分支之一,其核心任務是依據給定的樂譜與歌詞,自動生成自然流暢且具備藝術表現力的歌聲輸出。近年來,深度學習與人工智能算法的快速迭代,推動歌聲合成技術實現了跨越式發展——當前該技術在合成自然度與音質維度方面,已逐漸接近甚至達到人類演唱的水平。而在當下的應用場景中,歌聲合成的研究重心已不再局限于能否產出可聽的歌聲,而是轉向能否生成契合用戶個性化需求、同時具備高表現力與精準可控性的定制化歌聲。
2、對于非專業歌手的普通用戶來說,手動調控歌聲的韻律特征存在較高的技術門檻。而自然語言技術尤其是大語言模型的持續演進,為用戶提供了更便捷的操作路徑:通過自然語言描述即可實現對歌聲的控制,這一思路在語音合成領域已取得顯著突破。prompttts首次探索了以文本描述為提示指導語音合成的可行性,模型以風格描述+內容描述組合的文本提示作為輸入,生成對應的目標語音。相較于傳統可控語音合成方法要求用戶具備韻律、音高等聲學專業知識,prompttts的交互方式更貼近日常表達,如“一位女士緩慢地對朋友低語”,大幅降低了使用門檻。針對prompttts中存在的文本對語音存在這歧義性問題,promptts2提出變異網絡,基于文本提示的特征表征,預測參考語音中包含完整語音變異信息的特征;另一方面,為解決文本提示數據集稀缺、人工標注成本高昂的問題,設計了提示生成流水線。而在歌聲合成領域也有相關研究,prompt-singer是首個支持以自然語言控制歌手性別、音域與音量屬性的歌聲合成方法:該模型采用解碼器transformer的多尺度層級架構,同時設計了音域-旋律解耦的音高表示。而techsinger是采用流匹配生成模型,支持五種語言和七種演唱技巧的控制,提升合成歌聲的表現力。
3、而單純依賴文本提示進行控制存在固有局限:文本難以精準描述音色、風格等語音特有的復雜感知信息。而風格建模技術為突破這一瓶頸提供了新路徑——通過輸入參考音頻,提取目標風格的特征并遷移至生成結果中,彌補文本描述的不足。例如,midi-voice提出將基于midi的先驗引入分數擴散模型,同時提出基于?ddsp?的?midi?風格先驗,進一步增強合成歌聲的表現力與風格適配性。stylesinger核心設計兩個模塊——其中殘差風格適配器主要用于捕捉歌聲細節風格特征,而不確定性建模歸一化層主要是提高模型的泛化能力,實現域外風格遷移能力。fitted-singer[10]的核心在于文本提示與參考歌聲音頻提示的雙重控制;針對現階段缺乏文本標注的歌聲數據集的問題,不再額外訓練文本特征提取器,而是采用大語言模型分析提取的方式,同時提出cross-fusion編碼器從短時參考歌聲中提取豐富的風格信息。tcsinger2[11]則設計了多任務多語言的歌聲合成模型,定制音頻編碼器,通過對比學習的方式,將文本提示、參考歌聲與參考演講音頻中提取對齊的特征表征,但只能提取三者之間的共性信息,而歌聲所具有的細節特征沒有建模會影響控制的效果。
4、綜上,基于參考演講音頻提示的歌聲合成研究主要面臨如下兩個問題:(1)提示音頻的類型較為單一,現階段方法多以歌聲音頻作為提示源,可從中提取到細節特征更好地控制合成歌聲的風格,利于風格重建,但歌聲數據缺乏使得用戶難以獲得目標風格的歌聲音頻用于控制;(2)部分研究嘗試采用泛化性更強的演講音頻控制,但采用傳統的對比學習方法只能捕捉歌聲數據與演講數據的共性信息,而歌聲特有的一些韻律變化和情感層次、語調起伏等細節信息無法充分提取,單一的共性特征使得合成控制的表現力差。
技術實現思路
1、本發明的目的是為了克服現有技術中的不足,現階段的風格提示一般采取參考歌聲音頻,但參考歌聲音頻的缺乏使得應用場景受到限制,而采用廣泛的參考演講音頻作為提示時,現有方法只能提取演講音頻的特征,而此特征缺乏歌聲數據所具有的細節特征。為了解決上述問題,提供一種基于參考音頻和文本提示的歌聲合成方法及裝置,通過設計風格變異網絡,通過基于參考演講音頻的特征為指導,重構對應的歌聲數據所具有的細節風格特征,進而控制合成歌聲的風格。文本提示便于非音樂專業用戶控制合成歌聲的韻律信息,針對于文本提示的處理,采用大語言模型進行分析韻律信息進而控制合成歌聲。為了提高大語言模型分析的準確率,設計系統提示,采用“思維鏈”推理的方式逐步讓大語言模型具備從文本中分析韻律信息的能力。
2、本發明的目的是通過以下技術方案實現的:
3、一種基于參考音頻和文本提示的歌聲合成方法,包括:
4、獲取用戶輸入的文本歌詞、文本提示以及參考演講音頻;
5、將所述文本歌詞輸入至歌聲合成框架的音素處理器,轉換為對應的音素序列;
6、將所述文本提示輸入至文本處理器,通過大語言模型進行思維鏈推理分析,提取得到旋律控制信息,所述旋律控制信息至少包括音高變化信息和音量變化信息;
7、將所述參考演講音頻輸入至音頻風格生成模塊,提取多層次音頻特征,并將所述多層次音頻特征輸入至風格變異網絡進行特征重構,得到包含目標歌聲細節特征的生成的參考音頻向量;
8、將所述音素序列、所述旋律控制信息以及經過風格處理器處理后的所述生成的參考音頻向量,融合輸入至聲學擴散模型進行聲學特征生成,并通過聲碼器轉換為目標歌聲波形。
9、進一步的,所述將所述參考演講音頻輸入至音頻風格生成模塊,提取多層次音頻特征,并將所述多層次音頻特征輸入至風格變異網絡進行特征重構,包括:分別通過梅爾編碼器、基頻編碼器和音色編碼器從所述參考演講音頻中提取頻譜特征、基頻特征和音色特征;將所述頻譜特征、所述基頻特征和所述音色特征經過補掩碼層進行對齊后拼接,得到初始參考音頻向量;將所述初始參考音頻向量和噪聲輸入至所述風格變異網絡,通過若干層去噪網絡進行去噪采樣,輸出所述生成的參考音頻向量。
10、進一步的,所述風格變異網絡采用基于4步生成器的擴散模型,并以非因果wavenet作為去噪網絡骨干;在所述去噪網絡的每個層級內部,輸入信息與當前時間步的編碼信息以及編碼器生成的嵌入向量融合,并并行輸出用于去噪與風格變換的殘差輸出以及用于多尺度特征融合的跳躍連接輸出。
11、進一步的,所述風格變異網絡的訓練損失函數包括基礎擴散損失和細節重構損失;所述細節重構損失采用l1損失,用于約束生成的參考音頻向量向目標歌聲向量的方向生成,其計算公式為:;其中,為擴散模型預測的干凈的音頻向量,為從參考歌聲音頻中提取的目標歌聲向量。
12、進一步的,所述將所述文本提示輸入至文本處理器,通過大語言模型進行思維鏈推理分析,提取得到旋律控制信息,包括:向所述大語言模型輸入系統提示詞和所述文本提示,限制所述大語言模型的角色為需求文本中的歌聲韻律信息;通過所述大語言模型分析所述文本提示,定位音高和音量的描述,并進行分類;根據描述的強烈程度,分析并輸出對應的音高縮放率和音量縮放率。
13、進一步的,所述定位音高和音量的描述,并進行分類的過程中:
14、將音高描述中偏向高亢、尖銳、起伏劇烈的歸為高,偏向平緩、低沉、無起伏的歸為低;
15、將音量描述中偏向響亮、充盈、強烈的歸為高,偏向微弱、輕柔、內斂的歸為低;
16、縮放率區間為0-1,程度越強烈縮放率越接近1,越溫和則越接近0。
17、進一步的,所述聲學擴散模型包括f0擴散模塊和mel擴散模塊;所述音高變化信息通過改變樂器數字接口midi控制所述f0擴散模塊;所述音量變化信息通過控制所述mel擴散模塊中的去噪過程實現,具體過程包括:在采樣過程中計算梅爾頻譜轉換為波形后的均方根,并與目標音量比較,通過計算梯度調整采樣步均值;所述梯度的計算公式為:;其中,為預測的干凈樣本,為目標音量,采用l1損失。
18、本發明還提供一種基于參考音頻和文本提示的歌聲合成裝置,包括:
19、數據采集單元,用于獲取用戶輸入的文本歌詞、文本提示以及參考演講音頻;
20、文本歌詞處理單元,用于將所述文本歌詞輸入至歌聲合成框架的音素處理器,轉換為對應的音素序列;
21、文本提示處理單元,用于將所述文本提示輸入至文本處理器,通過大語言模型進行思維鏈推理分析,提取得到旋律控制信息,所述旋律控制信息至少包括音高變化信息和音量變化信息;
22、音頻處理單元,用于將所述參考演講音頻輸入至音頻風格生成模塊,提取多層次音頻特征,并將所述多層次音頻特征輸入至風格變異網絡進行特征重構,得到包含目標歌聲細節特征的生成的參考音頻向量;
23、合成單元,用于將所述音素序列、所述旋律控制信息以及經過風格處理器處理后的所述生成的參考音頻向量,融合輸入至聲學擴散模型進行聲學特征生成,并通過聲碼器轉換為目標歌聲波形。
24、本發明還提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現所述基于參考音頻和文本提示的歌聲合成方法的步驟。
25、本發明還提供一種計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現所述基于參考音頻和文本提示的歌聲合成方法的步驟。
26、與現有技術相比,本發明的技術方案所帶來的有益效果是:
27、1.現有技術在使用演講音頻作為提示時,僅能提取音色等共性特征,導致合成歌聲缺乏表現力及特有的韻律等細節缺陷。本發明創新性地設計了風格變異網絡,基于演講音頻特征主動重構歌聲特有的情感層次和語調起伏等細節特征。這使得合成歌聲在保留參考人聲音色的同時,具備了高度的歌唱表現力(f0曲線更貼合真實基線,梅爾頻譜細節更豐富);突破提示音頻的數據瓶頸,實現高保真細節風格遷移。
28、2.針對非專業用戶難以手動調控聲學特征的痛點,本發明為大語言模型定制了專屬的思維鏈系統提示詞。通過“定位描述-分類-計算縮放率”的有條理推理機制,大幅提升了大模型解析文本中隱式韻律特征的準確率,從而實現了對合成歌聲的音高和音量的精確、自然控制;降低用戶操作門檻,實現精準的自然語言韻律控制。