一種韻律短語標注方法和裝置與流程

文檔序號：22744113發布日期：2020-10-31 09:31閱讀：385來源：國知局

本發明涉及語音合成技術領域，特別是涉及一種韻律短語標注方法和裝置。

背景技術：

隨著計算機性能的發展，語音合成技術的發展越來越趨向基于大型語料庫的波形拼接方法。語料庫在語音結構和語音單元的有效覆蓋率成為提高合成語音質量的關鍵。對語料庫中的語音數據進行詳細的韻律標注是檢查語料庫數據覆蓋率的基礎。

韻律標注是對語音數據中的韻律詞、韻律詞組、韻律短語和語調短語等不同層級的單元進行劃分，確定語音數據中的韻律詞、韻律詞組、韻律短語和語調短語的邊界的過程。其中，由于每個韻律短語都是一段語調落定的聽感，對于合成語音語義分段表征、節拍的穩定感至關重要，因此在韻律標注中，確定語音數據中的韻律短語邊界，對語音數據中的韻律短語進行標注至關重要。

目前，主要由人工根據語音數據中的停頓和低音線來確定韻律短語邊界，對語音數據的韻律短語進行標注。由人工對語音數據的韻律短語進行標注時，效率低下、無法滿足需求，并且主觀性高，標注得到的韻律短語邊界的準確率較低。

技術實現要素：

鑒于上述問題，提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的一種韻律短語標注方法和裝置。

依據本發明的第一方面，提供了一種韻律短語標注方法，該方法包括：

獲取語音數據，并將所述語音數據劃分為多個第一音頻幀；

根據所述多個第一音頻幀，確定所述語音數據中的每個第一文字、每個所述第一文字分別對應的所述第一音頻幀、以及每個所述第一音頻幀的音素后驗概率，并確定每個所述第一音頻幀的基頻值；

根據第一目標音頻幀的基頻值和音素后驗概率，確定所述第一目標音頻幀的概率值，所述第一目標音頻幀為所述多個第一音頻幀中的任意一個音頻幀，所述概率值表征所述第一目標音頻幀為所述語音數據的韻律短語邊界對應的音頻幀的概率；

根據每個所述第一文字分別對應的所述第一目標音頻幀的概率值，確定所述韻律短語邊界。

可選的，所述根據第一目標音頻幀的基頻值和音素后驗概率，確定所述第一目標音頻幀的概率值，包括：

將所述第一目標音頻幀的基頻值和音素后驗概率輸入第一模型，得到所述第一目標音頻幀的概率值。

可選的，在所述將所述第一目標音頻幀的基頻值和音素后驗概率輸入第一模型之前，還包括：

獲取多個樣本語音數據、以及每個所述樣本語音數據的韻律短語邊界；

將目標樣本語音數據劃分為多個第二音頻幀，并根據所述多個第二音頻幀，確定所述目標樣本語音數據中的每個第二文字、每個所述第二文字分別對應的所述第二音頻幀、以及每個所述第二音頻幀的音素后驗概率，并確定每個所述第二音頻幀的基頻值，所述目標樣本語音數據為所述多個樣本語音數據中的任意一個樣本語音數據；

根據每個所述第二文字分別對應的所述第二音頻幀，設置所述多個第二音頻幀中與所述目標樣本語音數據的韻律短語邊界對應的第二音頻幀的標簽為第一標簽、以及設置所述多個第二音頻幀中除與所述目標樣本語音數據的韻律短語邊界對應的第二音頻幀之外的第二音頻幀的標簽為第二標簽，所述第一標簽與所述第二標簽為不同的標簽；

根據第二目標音頻幀的標簽、音素后驗概率和基頻值對第一預設模型進行訓練，得到所述第一模型，所述第二目標音頻幀為所述多個第二音頻幀中的任意一個音頻幀。

可選的，所述根據第一目標音頻幀的基頻值和音素后驗概率，確定所述第一目標音頻幀的概率值，包括：

將所述第一目標音頻幀的音素后驗概率輸入第二模型，得到所述第一目標音頻幀的第一權重；

將所述第一目標音頻幀的基頻值和第一權重輸入第一模型，得到所述第一目標音頻幀的概率值。

可選的，在所述將所述第一目標音頻幀的音素后驗概率輸入第二模型，得到所述第一目標音頻幀的第一權重之前，還包括：

獲取多個樣本語音數據、以及每個所述樣本語音數據的韻律短語邊界；

將第二目標音頻幀的音素后驗概率輸入第二預設模型，得到所述第二目標音頻幀的第二權重，所述第二目標音頻幀為所述多個第二音頻幀中的任意一個音頻幀；

根據所述第二目標音頻幀的標簽、第二權重和基頻值對第一預設模型和所述第二預設模型進行訓練，得到所述第一模型和所述第二模型。

依據本發明的第二方面，提供了一種韻律短語標注裝置，該裝置包括：

第一獲取模塊，用于獲取語音數據，并將所述語音數據劃分為多個第一音頻幀；

第一確定模塊，用于根據所述多個第一音頻幀，確定所述語音數據中的每個第一文字、每個所述第一文字分別對應的所述第一音頻幀、以及每個所述第一音頻幀的音素后驗概率，并確定每個所述第一音頻幀的基頻值；

第二確定模塊，用于根據第一目標音頻幀的基頻值和音素后驗概率，確定所述第一目標音頻幀的概率值，所述第一目標音頻幀為所述多個第一音頻幀中的任意一個音頻幀，所述概率值表征所述第一目標音頻幀為所述語音數據的韻律短語邊界對應的音頻幀的概率；

第三確定模塊，用于根據每個所述第一文字分別對應的所述第一目標音頻幀的概率值，確定所述韻律短語邊界。

可選的，所述第二確定模塊具體用于將所述第一目標音頻幀的基頻值和音素后驗概率輸入第一模型，得到所述第一目標音頻幀的概率值。

可選的，該裝置還包括：

第二獲取模塊，用于獲取多個樣本語音數據、以及每個所述樣本語音數據的韻律短語邊界；

第一劃分模塊，用于將目標樣本語音數據劃分為多個第二音頻幀，并根據所述多個第二音頻幀，確定所述目標樣本語音數據中的每個第二文字、每個所述第二文字分別對應的所述第二音頻幀、以及每個所述第二音頻幀的音素后驗概率，并確定每個所述第二音頻幀的基頻值，所述目標樣本語音數據為所述多個樣本語音數據中的任意一個樣本語音數據；

第一設置模塊，用于根據每個所述第二文字分別對應的所述第二音頻幀，設置所述多個第二音頻幀中與所述目標樣本語音數據的韻律短語邊界對應的第二音頻幀的標簽為第一標簽、以及設置所述多個第二音頻幀中除與所述目標樣本語音數據的韻律短語邊界對應的第二音頻幀之外的第二音頻幀的標簽為第二標簽，所述第一標簽與所述第二標簽為不同的標簽；

第一訓練模塊，用于根據第二目標音頻幀的標簽、音素后驗概率和基頻值對第一預設模型進行訓練，得到所述第一模型，所述第二目標音頻幀為所述多個第二音頻幀中的任意一個音頻幀。

可選的，所述第二確定模塊具體用于將所述第一目標音頻幀的音素后驗概率輸入第二模型，得到所述第一目標音頻幀的第一權重；將所述第一目標音頻幀的基頻值和第一權重輸入第一模型，得到所述第一目標音頻幀的概率值。

可選的，該裝置還包括：

第三獲取模塊，用于獲取多個樣本語音數據、以及每個所述樣本語音數據的韻律短語邊界；

第二劃分模塊，用于將目標樣本語音數據劃分為多個第二音頻幀，并根據所述多個第二音頻幀，確定所述目標樣本語音數據中的每個第二文字、每個所述第二文字分別對應的所述第二音頻幀、以及每個所述第二音頻幀的音素后驗概率，并確定每個所述第二音頻幀的基頻值，所述目標樣本語音數據為所述多個樣本語音數據中的任意一個樣本語音數據；

第二設置模塊，用于根據每個所述第二文字分別對應的所述第二音頻幀，設置所述多個第二音頻幀中與所述目標樣本語音數據的韻律短語邊界對應的第二音頻幀的標簽為第一標簽、以及設置所述多個第二音頻幀中除與所述目標樣本語音數據的韻律短語邊界對應的第二音頻幀之外的第二音頻幀的標簽為第二標簽，所述第一標簽與所述第二標簽為不同的標簽；

輸入模塊，用于將第二目標音頻幀的音素后驗概率輸入第二預設模型，得到所述第二目標音頻幀的第二權重，所述第二目標音頻幀為所述多個第二音頻幀中的任意一個音頻幀；

第二訓練模塊，用于根據所述第二目標音頻幀的標簽、第二權重和基頻值對第一預設模型和所述第二預設模型進行訓練，得到所述第一模型和所述第二模型。

本發明實施例提供的一種韻律短語標注方法和裝置，獲取語音數據，并將語音數據劃分為多個第一音頻幀，根據多個第一音頻幀，確定語音數據中的每個第一文字、每個第一文字分別對應的第一音頻幀、以及每個第一音頻幀的音素后驗概率，并確定每個第一音頻幀的基頻值，根據第一目標音頻幀的基頻值和音素后驗概率，確定第一目標音頻幀的概率值，根據每個第一文字分別對應的第一目標音頻幀的概率值，確定語音數據的韻律短語邊界。在韻律短語標注過程中，根據每個音頻幀的ppgs和基頻值確定語音數據的韻律短語邊界，可以避免人工對語音數據的韻律短語進行標注，從而快速的確定語音數據的韻律短語邊界，提高韻律短語標注的效率。并且，根據語音數據的ppgs和基頻值確定韻律短語邊界，并不受人為主觀音素的干擾，可以提高韻律短語邊界的準確性。

上述說明僅是本發明技術方案的概述，為了能夠更清楚了解本發明的技術手段，而可依照說明書的內容予以實施，并且為了讓本發明的上述和其它目的、特征和優點能夠更明顯易懂，以下特舉本發明的具體實施方式。

附圖說明

通過閱讀下文優選實施方式的詳細描述，各種其他的優點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優選實施方式的目的，而并不認為是對本發明的限制。而且在整個附圖中，用相同的參考符號表示相同的部件。在附圖中：

圖1是本發明實施例提供的一種韻律短語標注方法的步驟流程圖；

圖2是本發明實施例提供的另一種韻律短語標注方法的步驟流程圖；

圖3是本發明實施例提供的一種韻律短語標注裝置的框圖。

具體實施方式

下面將參照附圖更詳細地描述本發明的示例性實施例。雖然附圖中顯示了本發明的示例性實施例，然而應當理解，可以以各種形式實現本發明而不應被這里闡述的實施例所限制。相反，提供這些實施例是為了能夠更透徹地理解本發明，并且能夠將本發明的范圍完整的傳達給本領域的技術人員。

為了更清楚的介紹本發明，首先對韻律標注的相關技術進行介紹。

語音是由人的發音器官發出的具有一定社會意義的聲音，語音數據是對語音進行采樣錄制后，得到的音頻數據。在語音音系學中，語音可以劃分為韻律詞、韻律詞組、韻律短語和語調短語等不同層級的單元。韻律詞是一組在語音中聯系密切、一起發音的多個音節，例如在一段語音“使用程序節省了時間且提高了數據的準確性”中，“使用”和“程序”分別為其中的一個韻律詞。韻律詞組一般由兩個或三個聯系比較緊密的韻律詞組成，例如“使用程序”為一個韻律詞組。韻律短語一般由多個共用同一個節奏群的韻律詞組成，例如“使用程序節省了時間”為一個韻律短語。語調短語是將幾個韻律短語按照一定的句調模式連接起來的語句，例如“使用程序節省了時間且提高了數據的準確性”為一個語調短語。對韻律詞、韻律詞組、韻律短語和語調短語的理解可參考相關技術，本實施例在此不做贅述。

韻律短語標注是確定韻律短語邊界的過程，韻律短語邊界即韻律短語的結束位置對應的文字，如韻律短語“使用程序節省了時間”在文字“間”處結束，則韻律短語邊界為文字“間”。韻律短語的劃分條件包括結尾的停頓和低音線的漸降，即在每個韻律短語的結尾必然有停頓，同時在整個韻律短語的發音過程中，語音的頻率是逐漸降低的，根據每段語音中的停頓和低音線的漸降，可以確定語音中韻律短語的邊界。現有技術中，主要由人工根據每個語音數據中的停頓和低音線的變化，確定韻律短語邊界。當語音數據較多時，人工確定韻律短語邊界的效率低，并且帶有很大的主觀性，確定的韻律短語邊界的準確率較低。

為了解決上述問題，本發明實施提供一種韻律短語標注方法和韻律短語標注裝置。

圖1是本發明實施例提供的一種韻律短語標注方法的步驟流程圖，如圖1所示，該方法可以包括：

步驟101、獲取語音數據，并將語音數據劃分為多個第一音頻幀。

本實施例中，電子設備可以直接采樣錄制得到語音數據，或者獲取預先存儲的語音數據，具體獲取語音數據的方法可以根據需求設置，本實施例對此不做限制。

在獲取語音數據之后，首先可以對語音數據進行分幀，將語音數據劃分為多個第一音頻幀。例如，語音數據為“你好嗎”，并且長度為3秒，則可以設置每個第一音頻幀的長度為10毫秒，將語音數據依次劃分為300個第一音頻幀。每個第一音頻幀的具體長度可以根據需求設置，本實施例對此不做限制。

步驟102、根據多個第一音頻幀，確定語音數據中的每個第一文字、每個第一文字分別對應的第一音頻幀、以及每個第一音頻幀的音素后驗概率，并確定每個第一音頻幀的基頻值。

本實施例中，在劃分得到多個第一音頻幀之后，可以根據每個第一音頻幀對語音數據進行識別，識別出語音數據中的每個第一文字，同時確定每個第一文字分別對應的第一音頻幀，以及確定每個第一音頻幀的音素后驗概率(ppgs，phoneticposteriorgrams)。

示例的，可以對kaldi平臺、隱馬爾科夫模型(hmm，hiddenmarkovmodels)，或者深度神經網絡(dnn，deepneuralnetworks)等神經網絡模型進行訓練，得到語音識別模型。結合步驟101，在將語音數據劃分為多個第一音頻幀之后，可以對每個第一音頻幀進行短時傅里葉變換，得到每個第一音頻幀分別對應的頻譜特征，然后將每個第一音頻幀的頻譜特征依次輸入語音識別模型，識別出語音數據中的每個第一文字。如識別出語音數據中的第一文字“你”、“好”和“嗎”。同時在識別出語音數據中的第一文字的過程中，可以確定每個第一文字分別對應的第一音頻幀，如確定第一文字“你”對應的第一音頻幀為第1至100個第一音頻幀，第一文字“好”對應的第一音頻幀為第101至200個第一音頻幀，以及第一文字“嗎”對應的第一音頻幀為第201至300個第一音頻幀。與此同時，還可以確定每個第一音頻幀的ppgs。例如，若語音識別模型中，預設的音素為{a，b，c，d，e，f，g…zh，ch，sh}等70個音素，則確定的第一音頻幀的ppgs為{0.1，0.8，0.2……0.0}等70個向量。其中，第i個向量對應第i個音素，i大于等于1且小于等于70，第i個向量表示第一音頻幀的音素為第i個音素的概率，如向量0.1表示第一音頻幀的音素為“a”的概率為0.1，對ppgs的理解可參考現有技術，本實施例對此不做贅述。具體訓練得到語音識別模型的過程，以及根據語音識別模型確定第一文字、第一文字對應的第一音頻幀，以及第一音頻幀的ppgs的過程可參考現有技術，本實施對此不做限制。

需要說明的是，確定語音數據中的第一文字、第一文字對應的第一音頻幀、以及第一音頻幀的ppgs過程，也可以通過其他方法實現，本實施例對此不做限制。

本實施例中，在將語音數據劃分為多個第一音頻幀之后，還可以確定每個第一音頻幀的基頻值。例如，可以根據基頻提取算法(例如自相關法、倒譜法、循環直方圖法或hsrvest算法)確定每個第一音頻幀的基頻值。具體確定每個第一音頻幀的基頻值的方法可以根據需求選擇，本實施對此不做限制。

在實際應用中，確定第一文字、第一文字對應的第一音頻幀、以及第一音頻幀的音素后驗概率的過程和確定基頻值的過程可以同步執行，也可以分步執行，本實施例對此不做限制。

步驟103、根據第一目標音頻幀的基頻值和音素后驗概率，確定第一目標音頻幀的概率值。

其中，第一目標音頻幀為多個第一音頻幀中的任意一個音頻幀，概率值表征第一目標音頻幀為語音數據的韻律短語邊界對應的音頻幀的概率。

本實施例中，在確定第一音頻幀的音素后驗概率和基頻值之后，可以根據第一音頻幀的音素后驗概率和基頻值，確定第一音頻幀的概率值。

示例的，步驟103可以通過如下方式實現：

將第一目標音頻幀的基頻值和音素后驗概率輸入第一模型，得到第一目標音頻幀的概率值。

本實施例中，可以通過神經網絡模型確定每個第一音頻幀的概率值。例如，首先可以根據多個樣本語音數據和每個樣本語音數據的韻律短語邊界，對長短期記憶網絡(lstm，longshort-termmemory)或雙向長短時記憶循環神經網絡(bilstm，bi-directionallongshort-termmemory)等神經網絡模型進行訓練，得到第一模型，然后通過第一模型確定每個第一音頻幀的概率值。

可選的，根據多個樣本語音數據和每個樣本語音數據的韻律短語邊界對神經網絡模型進行訓練的過程可以通過如下方式實現：

a01、獲取多個樣本語音數據、以及每個樣本語音數據的韻律短語邊界。

本實施例中，樣本語音數據為預先獲取的語音數據，樣本語音數據的韻律短語邊界為預先標注的韻律短語邊界。例如，若樣本語音數據為“桌面干凈了”，則可以確定并標注文字“了”為樣本語音數據的韻律短語邊界。樣本語音數據的韻律短語邊界可以由人工標注，也可以通過其他方式標注，本實施例對此不做限制。

a02、將目標樣本語音數據劃分為多個第二音頻幀，并根據多個第二音頻幀，確定目標樣本語音數據中的每個第二文字、每個第二文字分別對應的第二音頻幀、以及每個第二音頻幀的音素后驗概率，并確定每個第二音頻幀的基頻值，目標樣本語音數據為多個樣本語音數據中的任意一個樣本語音數據。

其中，對步驟a02的理解可參考步驟102，本實施例在此不做贅述。

a03、根據每個第二文字分別對應的第二音頻幀，設置多個第二音頻幀中與目標樣本語音數據的韻律短語邊界對應的第二音頻幀的標簽為第一標簽、以及設置多個第二音頻幀中除與目標樣本語音數據的韻律短語邊界對應的第二音頻幀之外的第二音頻幀的標簽為第二標簽，第一標簽與第二標簽為不同的標簽。

本實施例中，在確定樣本語音數據中的每個第二文字，以及每個第二文字分別對應的第二音頻幀之后，可以根據根據每個第二文字分別對應的第二音頻幀，設置每個第二音頻幀的標簽。結合步驟a01至a03，若樣本語音數據的韻律短語邊界為文字“了”，樣本語音數據中包括400個第二音頻幀，在確定每個第二文字之后，可以設置與第二文字“了”(樣本語音數據的韻律短語邊界)對應的第301至400個第二音頻幀的標簽為第一標簽“1”，第一標簽“1”表征第301至400個第二音頻幀為韻律短語邊界對應的音頻幀。相反的，設置除301至400之外的第1至300個第二音頻幀的標簽為第二標簽“0”，第二標簽“0”表征第1至300個第二音頻幀不是韻律短語邊界對應的音頻幀。第一標簽和第二標簽的具體形式可以根據需求設置，本實施例對此不做限制。

a04、根據第二目標音頻幀的標簽、音素后驗概率和基頻值對第一預設模型進行訓練，得到第一模型，第二目標音頻幀為多個第二音頻幀中的任意一個音頻幀。

本實施例中，在為每個第二音頻幀設置對應的標簽之后，可以將每個第二音頻幀的ppgs和基頻值依次輸入第一預設模型(例如bilstm)，得到對應的第一結果，根據第一結果和對應的標簽對第一預設模型的參數進行調整，得到訓練后的第一預設模型，即第一模型。

示例的，可以將第二音頻幀的ppgs與基頻值進行拼接，得到拼接后的向量。結合上述舉例，若第二音頻幀的ppgs為{0.1，0.8，0.2……0.0}的70維向量，基頻值為f0，可以將第二音頻幀的ppgs和基頻值橫向拼接，得到{0.1，0.8，0.2……0.0，f0}的71維向量。將每個第二音頻幀的ppgs和基頻值依次拼接后，可以得到與樣本語音數據對應的300行×71列的向量矩陣，向量矩陣中的每一行對應一個第二音頻幀。將向量矩陣中的每行向量依次輸入第一預設模型(第一預設模型的輸入為71維)，得到第一結果。當第二音頻幀的標簽為第一標簽“1”時，計算第一標簽與對應的第一結果的損失值，根據損失值對第一預設模型的參數進行調整，當第二音頻幀的標簽為第二標簽“0”時，計算第二標簽和對應的第一結果的損失值，根據損失值對第一預設模型的參數進行調整，當損失值滿足預設條件時，確定訓練完成，得到第一模型。根據第二音頻幀的標簽和對應的第一結果對第一預設模型進行訓練的過程可參考現有技術中模型的訓練過程，本實施例對此不做限制。

相應的，在確定第一音頻幀的概率值時，可以將第一音頻幀的ppgs和基頻值進行拼接，將拼接得到的向量輸入第一模型，得到第一音頻幀的概率值。

需要說明的是，在實際應用中，也可以通過其他方法根據第一音頻幀的基頻值和音素后驗概率，確定第一音頻幀的概率值，本實施例對此不做限制。

步驟104、根據每個第一文字分別對應的第一目標音頻幀的概率值，確定韻律短語邊界。

本實施例中，在確定每個第一音頻幀的概率值之后，可以根據每個第一文字分別對應的第一音頻幀的概率值，確定語音數據的韻律短語邊界。

示例的，可以設置預設概率閾值，當第一文字對應的所有第一音頻幀中，概率值大于等于預設概率閾值的第一音頻幀的數量大于等于預設數量時，確定第一文字為語音數據的韻律短語邊界。例如，可以設置預設概率閾值為0.7，當第一文字“嗎”對應的第201至300個第一音頻幀中，概率值大于等于0.7的第一音頻幀的數量超過預設數量(例如80)時，確定第一文字“嗎”為語音數據的韻律短語邊界。具體根據每個第一文字對應的第一音頻幀的概率值，確定語音數據的韻律短語邊界的過程可以根據需求設置，本實施例對此不做限制。

在韻律短語標注中，需要根據韻律短語結尾的停頓和低音線的漸降來確定韻律短語的邊界。在語音數據中，每個音頻幀的基頻值可以表征低音線的變化，而每個音頻幀的ppgs可以表征語音數據中的停頓。在模型訓練過程中根據每個音頻幀的ppgs和基頻幀對模型進行訓練，可以使模型根據語音數據中的停頓和低音線的變化，確定音頻幀是否為韻律短語邊界對應的音頻幀，進一步的可以確定韻律短語邊界。同時，由于ppgs是語音數據的共性，可以使模型針對任何人的語音數據進行識別，確定韻律短語邊界，提高了模型的通用性。

綜上所述，本發明實施例提供的韻律短語標注方法，獲取語音數據，并將語音數據劃分為多個第一音頻幀，根據多個第一音頻幀，確定語音數據中的每個第一文字、每個第一文字分別對應的第一音頻幀、以及每個第一音頻幀的音素后驗概率，并確定每個第一音頻幀的基頻值，根據第一目標音頻幀的基頻值和音素后驗概率，確定第一目標音頻幀的概率值，根據每個第一文字分別對應的第一目標音頻幀的概率值，確定語音數據的韻律短語邊界。在韻律短語標注過程中，根據每個音頻幀的ppgs和基頻值確定語音數據的韻律短語邊界，可以避免人工對語音數據的韻律短語進行標注，從而快速的確定語音數據的韻律短語邊界，提高韻律短語標注的效率。并且，根據語音數據的ppgs和基頻值確定韻律短語邊界，并不受人為主觀音素的干擾，可以提高韻律短語邊界的準確性。

圖2是本發明實施例提供的另一種韻律短語標注方法的步驟流程圖，如圖2所示，該方法可以包括：

步驟201、獲取語音數據，并將語音數據劃分為多個第一音頻幀。

步驟202、根據多個第一音頻幀，確定語音數據中的每個第一文字、每個第一文字分別對應的第一音頻幀、以及每個第一音頻幀的音素后驗概率，并確定每個第一音頻幀的基頻值。

步驟203、將第一目標音頻幀的音素后驗概率輸入第二模型，得到第一目標音頻幀的第一權重。

步驟204、將第一目標音頻幀的第一權重和基頻值輸入第一模型，得到第一目標音頻幀的概率值。

本實施例中，首先可以根據多個樣本語音數據和每個樣本語音數據的韻律短語邊界訓練得到第一模型和第二模型，在確定第一音頻幀的概率值時，首先可以通過第二模型對每個第一音頻幀的ppgs進行處理，得到第一音頻幀的第一權重，然后根據第一音頻幀的第一權重和基頻值，通過第一模型確定第一音頻幀的概率值。

示例的，根據多個樣本語音數據和每個樣本語音數據的韻律短語邊界，訓練得到第一模型和第二模型的過程可以通過如下方式實現：

b01、獲取多個樣本語音數據、以及每個樣本語音數據的韻律短語邊界。

b02、將目標樣本語音數據劃分為多個第二音頻幀，并根據多個第二音頻幀，確定目標樣本語音數據中的每個第二文字、每個第二文字分別對應的第二音頻幀、以及每個第二音頻幀的音素后驗概率，并確定每個第二音頻幀的基頻值，目標樣本語音數據為多個樣本語音數據中的任意一個樣本語音數據。

b03、根據每個第二文字分別對應的第二音頻幀，設置多個第二音頻幀中與目標樣本語音數據的韻律短語邊界對應的第二音頻幀的標簽為第一標簽、以及設置多個第二音頻幀中除與目標樣本語音數據的韻律短語邊界對應的第二音頻幀之外的第二音頻幀的標簽為第二標簽，第一標簽與第二標簽為不同的標簽。

b04、將第二目標音頻幀的音素后驗概率輸入第二預設模型，得到第二目標音頻幀的第二權重，第二目標音頻幀為多個第二音頻幀中的任意一個音頻幀。

b05、根據第二目標音頻幀的標簽、第二權重和基頻值對第一預設模型和第二預設模型進行訓練，得到第一模型和第二模型。

本實施例中，在模型訓練過程中，首先可以根據第二音頻幀的ppgs，通過第二預設模型，得到第二音頻幀的第二權重。結合上述舉例，第二音頻幀的ppgs為70維的向量，若第二預設模型(例如bilstm)的輸入為70維，輸出為32維，則將第二音頻幀的ppgs輸入第二預設模型后，可以得到與第二音頻幀對應的32維的向量(第二權重)。

在得到第二權重之后，可以將第二權重和基頻值輸入第一預設模型。具體的，可以將第二權重和基頻值進行拼接，結合步驟a05，可以將32維的第二權重和基頻值f0進行拼接，得到第二音頻幀的33維的向量，將每個第二音頻幀的第二權重和基頻值進行拼接，可以得到樣本語音數據對應的300行×33列的向量矩陣。將向量矩陣中的每行向量依次輸入第一預設模型(第一預設模型的輸入為33維)，得到對應的第二結果。

可選的，在將第二權重和基頻值輸入第一預設模型之前，可以根據每個第二音頻幀在樣本語音數據中的位置，構建每個第二音頻幀的基頻向量，例如[f0，x]?？梢詷嫿颖菊Z音數據中的第一個第二音頻幀的基頻向量為[f0，1]、第二個第二音頻幀的基頻向量為[f0，2]，以及第三個第二音頻幀的基頻向量為[f0，3]，依次類推構建得到每個第二音頻幀的基頻向量。

在構建得到每個第二音頻幀的基頻向量后，可以將每個第二音頻幀的基頻向量和第二權重進行拼接，得到每個第二音頻幀的34維的向量(基頻向量為2維)，將每個第二音頻幀的34維的向量依次輸入第一預設模型，得到對應的第二結果。

本實施例中，在得到第二結果之后，可以根據第二音頻幀的標簽和對應的第二結果，同時對第一預設模型和第二預設模型進行訓練，得到第一模型和第二模型。具體根據第二音頻幀的標簽和第二結果同時對第一預設模型和第二預設模型進行訓練的過程可參考現有技術，本實施例對此不做限制。

相應的，在確定第一音頻幀的概率值時，首先可以將第一音頻幀的ppgs輸入第二模型，得到第一權重，然后將第一音頻幀的基頻值和第一權重進行拼接后輸入第二模型，得到第一音頻幀的概率值。

本實施例中，在模型訓練過程中，根據第二音頻幀的ppgs對第二預設模型進行訓練，在應用中可以使第二模型根據語音數據中所有音頻幀的ppgs，得到更準確的表征語音數據中停頓的權重參數。進一步的，可以根據權重參數和基頻值，得到更準確的韻律短語邊界。同時，在模型訓練過程中，根據每個第二音頻幀在樣本語音數據中的位置，構建基頻向量，通過第二音頻幀在樣本語音中的位置對模型進行訓練，可以使訓練得到的第一模型根據第二音頻幀的先后順序確定語音數據的韻律短語邊界，進一步提高韻律短語邊界的準確性。

步驟205、根據每個第一文字分別對應的第一目標音頻幀的概率值，確定韻律短語邊界。

圖3是本發明實施例提供的一種韻律短語標注裝置的框圖，如圖3所示，該裝置300可以包括：第一獲取模塊301、第一確定模塊302、第二確定模塊303和第三確定模塊304。

第一獲取模塊301用于獲取語音數據，并將語音數據劃分為多個第一音頻幀。

第一確定模塊302用于根據多個第一音頻幀，確定語音數據中的每個第一文字、每個第一文字分別對應的第一音頻幀、以及每個第一音頻幀的音素后驗概率，并確定每個第一音頻幀的基頻值。

第二確定模塊303用于根據第一目標音頻幀的基頻值和音素后驗概率，確定第一目標音頻幀的概率值，第一目標音頻幀為多個第一音頻幀中的任意一個音頻幀，概率值表征第一目標音頻幀為語音數據的韻律短語邊界對應的音頻幀的概率。

第三確定模塊304用于根據每個第一文字分別對應的第一目標音頻幀的概率值，確定韻律短語邊界。

可選的，第二確定模塊303具體用于將第一目標音頻幀的基頻值和音素后驗概率輸入第一模型，得到第一目標音頻幀的概率值。

可選的，該裝置300還可以包括：第二獲取模塊、第一劃分模塊、第一設置模塊和第一訓練模塊。

第二獲取模塊用于獲取多個樣本語音數據、以及每個樣本語音數據的韻律短語邊界。

第一劃分模塊用于將目標樣本語音數據劃分為多個第二音頻幀，并根據多個第二音頻幀，確定目標樣本語音數據中的每個第二文字、每個所第二文字分別對應的第二音頻幀、以及每個第二音頻幀的音素后驗概率，并確定每個第二音頻幀的基頻值，目標樣本語音數據為多個樣本語音數據中的任意一個樣本語音數據。

第一設置模塊用于根據每個第二文字分別對應的第二音頻幀，設置多個第二音頻幀中與目標樣本語音數據的韻律短語邊界對應的第二音頻幀的標簽為第一標簽、以及設置多個第二音頻幀中除與目標樣本語音數據的韻律短語邊界對應的第二音頻幀之外的第二音頻幀的標簽為第二標簽，第一標簽與第二標簽為不同的標簽。

第一訓練模塊用于根據第二目標音頻幀的標簽、音素后驗概率和基頻值對第一預設模型進行訓練，得到第一模型，第二目標音頻幀為多個第二音頻幀中的任意一個音頻幀。

可選的，第二確定模塊具體用于將第一目標音頻幀的音素后驗概率輸入第二模型，得到第一目標音頻幀的第一權重；將第一目標音頻幀的基頻值和第一權重輸入第一模型，得到第一目標音頻幀的概率值。

可選的，該裝置還可以包括：第三獲取模塊、第二劃分模塊、第二設置模塊、輸入模塊和第二訓練模塊。

第三獲取模塊用于獲取多個樣本語音數據、以及每個樣本語音數據的韻律短語邊界。

第二劃分模塊用于將目標樣本語音數據劃分為多個第二音頻幀，并根據多個第二音頻幀，確定目標樣本語音數據中的每個第二文字、每個第二文字分別對應的第二音頻幀、以及每個第二音頻幀的音素后驗概率，并確定每個第二音頻幀的基頻值，目標樣本語音數據為多個樣本語音數據中的任意一個樣本語音數據。

第二設置模塊用于根據每個第二文字分別對應的第二音頻幀，設置多個第二音頻幀中與目標樣本語音數據的韻律短語邊界對應的第二音頻幀的標簽為第一標簽、以及設置多個第二音頻幀中除與目標樣本語音數據的韻律短語邊界對應的第二音頻幀之外的第二音頻幀的標簽為第二標簽，第一標簽與第二標簽為不同的標簽。

輸入模塊用于將第二目標音頻幀的音素后驗概率輸入第二預設模型，得到第二目標音頻幀的第二權重，第二目標音頻幀為多個第二音頻幀中的任意一個音頻幀。

第二訓練模塊用于根據第二目標音頻幀的標簽、第二權重和基頻值對第一預設模型和第二預設模型進行訓練，得到第一模型和第二模型。

綜上所述，本發明實施例提供的韻律短語標注裝置，獲取語音數據，并將語音數據劃分為多個第一音頻幀，根據多個第一音頻幀，確定語音數據中的每個第一文字、每個第一文字分別對應的第一音頻幀、以及每個第一音頻幀的音素后驗概率，并確定每個第一音頻幀的基頻值，根據第一目標音頻幀的基頻值和音素后驗概率，確定第一目標音頻幀的概率值，根據每個第一文字分別對應的第一目標音頻幀的概率值，確定語音數據的韻律短語邊界。在韻律短語標注過程中，根據每個音頻幀的ppgs和基頻值確定語音數據的韻律短語邊界，可以避免人工對語音數據的韻律短語進行標注，從而快速的確定語音數據的韻律短語邊界，提高韻律短語標注的效率。并且，根據語音數據的ppgs和基頻值確定韻律短語邊界，并不受人為主觀音素的干擾，可以提高韻律短語邊界的準確性。

本說明書中的各個實施例均采用遞進的方式描述，每個實施例重點說明的都是與其他實施例的不同之處，各個實施例之間相同相似的部分互相參見即可。

本領域技術人員易于想到的是：上述各個實施例的任意組合應用都是可行的，故上述各個實施例之間的任意組合都是本發明的實施方案，但是由于篇幅限制，本說明書在此就不一一詳述了。

在此處所提供的說明書中，說明了大量具體細節。然而，能夠理解，本發明的實施例可以在沒有這些具體細節的情況下實踐。在一些實例中，并未詳細示出公知的方法、結構和技術，以便不模糊對本說明書的理解。

類似地，應當理解，為了精簡本發明并幫助理解各個發明方面中的一個或多個，在上面對本發明的示例性實施例的描述中，本發明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而，并不應將該公開的方法解釋成反映如下意圖：即所要求保護的本發明要求比在每個權利要求中所明確記載的特征更多的特征。更確切地說，如權利要求書所反映的那樣，發明方面在于少于前面公開的單個實施例的所有特征。因此，遵循具體實施方式的權利要求書由此明確地并入該具體實施方式，其中每個權利要求本身都作為本發明的單獨實施例。

本領域那些技術人員可以理解，可以對實施例中的設備中的模塊進行自適應性地改變并且把它們設置在與該實施例不同的一個或多個設備中?？梢园褜嵤├械哪K或單元或組件組合成一個模塊或單元或組件，以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外，可以采用任何組合對本說明書(包括伴隨的權利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設備的所有過程或單元進行組合。除非另外明確陳述，本說明書(包括伴隨的權利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。

此外，本領域的技術人員能夠理解，盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征，但是不同實施例的特征的組合意味著處于本發明的范圍之內并且形成不同的實施例。例如，在權利要求書中，所要求保護的實施例的任意之一都可以以任意的組合方式來使用。

應該注意的是上述實施例對本發明進行說明而不是對本發明進行限制，并且本領域技術人員在不脫離所附權利要求的范圍的情況下可設計出替換實施例。在權利要求中，不應將位于括號之間的任何參考符號構造成對權利要求的限制。單詞“包含”不排除存在未列在權利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發明可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算機來實現。在列舉了若干裝置的單元權利要求中，這些裝置中的若干個可以是通過同一個硬件項來具體體現。單詞第一、第二、以及第三等的使用不表示任何順序?？蓪⑦@些單詞解釋為名稱。

當前第1頁1 2

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：王愈;李健;武衛東
技術所有人：北京捷通華聲科技股份有限公司
我是此專利的發明人

上一篇：一種用于油氣井分層段測試的可重復坐封解封電控封隔器的制作方法
下一篇：一種基于油田井下用封隔器的制作方法

網友詢問留言留言:0條

還沒有人留言評論。精彩留言會獲得點贊！

文明留言，給您點贊！

同類技術