人聲提取方法、人聲提取裝置及相關產品與流程

文檔序號：18325557發布日期：2019-08-03 10:58閱讀：915來源：國知局

技術簡介：
本專利針對混合音頻中人聲與非人聲分離不徹底的問題，提出采用人聲提取模型初步分離出中間音頻，再通過人聲過濾模型結合維特比算法優化人聲概率序列，精準剔除非人聲音頻幀，顯著提升人聲純凈度。該方法通過雙模型協同與動態概率優化，解決了傳統方法分離精度不足的痛點。
關鍵詞：人聲提取,維特比算法

本申請涉及電子音頻信號處理領域，具體涉及一種人聲提取方法、人聲提取裝置及相關產品。

背景技術：

人聲提取技術是廣泛研究的一類音頻處理方法，現有人聲提取的算法有許多類別。但由于算法本身或訓練樣本的限制，目前沒有一種人聲提取算法能夠干凈的提出人聲。例如，現有技術中通過hourglass模型從混合音頻中提取人聲，提取到的人聲結果雖然比較干凈，具有較高的可辨識度，但存在將部分前奏、間奏等器樂演奏部分誤識為人聲而加以保留的錯誤。所以，現有技術中無法從混合音頻中提取到完全純凈的人聲。

技術實現要素：

本申請實施例提供了一種人聲提取方法、人聲提取裝置及相關產品，以期通過兩步人聲提取，得到純凈的人聲音頻，避免現有人聲提取時的誤識別問題。

第一方面，本申請實施例提供一種人聲提取方法，包括：

基于人聲提取模型，對混合音頻進行人聲提取，得到中間音頻，所述中間音頻包括人聲音頻幀和非人聲音頻幀；

基于人聲過濾模型，濾除所述中間音頻的非人聲音頻幀，得到人聲音頻。

第二方面，本申請實施例提供一種人聲提取裝置，包括：

提取單元，用于基于人聲提取模型，對混合音頻進行人聲提取，得到中間音頻，所述中間音頻包括人聲音頻幀和非人聲音頻幀；

過濾單元，用于基于人聲過濾模型，濾除所述中間音頻的非人聲音頻幀，得到人聲音頻。

第三方面，本申請實施例提供一種電子設備，包括處理器、存儲器、通信接口以及一個或多個程序，其中，所述一個或多個程序被存儲在所述存儲器中，并且被配置由所述處理器執行，所述程序包括用于執行如第一方面所述的方法中的步驟的指令。

第四方面，本申請實施例提供一種計算機可讀存儲介質，所述計算機可讀存儲介質存儲有計算機程序，所述計算機程序使得計算機執行如第一方面所述的方法。

第五方面，本申請實施例提供一種計算機程序產品，所述計算機程序產品包括存儲了計算機程序的非瞬時性計算機可讀存儲介質，所述計算機可操作來使計算機執行如第一方面所述的方法。

實施本申請實施例，具有如下有益效果：

可以看出，在本申請實施例中，將人聲提取模型提取到中間音頻輸入到過濾模型，對該中間音頻中的非人聲音頻幀進行過濾，通過兩步人聲提取，得到純凈的人聲音頻，解決了現有技術中無法從混合音頻中提取出純凈的音頻的問題，使人聲提取效果更加良好。

附圖說明

為了更清楚地說明本申請實施例中的技術方案，下面將對實施例描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖是本申請的一些實施例，對于本領域普通技術人員來講，在不付出創造性勞動的前提下，還可以根據這些附圖獲得其他的附圖。

圖1為本申請實施例提供的一種人聲提取方法的流程示意圖；

圖2a為本申請實施例提供的一種得到訓練數據方法的流程示意圖；

圖2b為本申請實施例提供的另一種得到訓練數據方法的流程示意圖；

圖2c為本申請實施例提供的一種音頻幀頻譜圖的示意圖；

圖3為本申請實施例提供的另一種人聲提取方法的流程示意圖；

圖4為本申請實施例提供的一種人聲過濾模型的網絡結構圖；

圖5為本申請實施例提供的一種人聲提取裝置的結構示意圖；

圖6為本申請實施例提供的一種人聲提取裝置的功能單元組成框圖。

具體實施方式

下面將結合本申請實施例中的附圖，對本申請實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例是本申請一部分實施例，而不是全部的實施例。基于本申請中的實施例，本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例，都屬于本申請保護的范圍。

本申請的說明書和權利要求書及所述附圖中的術語“第一”、“第二”、“第三”和“第四”等是用于區別不同對象，而不是用于描述特定順序。此外，術語“包括”和“具有”以及它們任何變形，意圖在于覆蓋不排他的包含。例如包含了一系列步驟或單元的過程、方法、系統、產品或設備沒有限定于已列出的步驟或單元，而是可選地還包括沒有列出的步驟或單元，或可選地還包括對于這些過程、方法、產品或設備固有的其它步驟或單元。

在本文中提及“實施例”意味著，結合實施例描述的特定特征、結果或特性可以包含在本申請的至少一個實施例中。在說明書中的各個位置出現該短語并不一定均是指相同的實施例，也不是與其它實施例互斥的獨立的或備選的實施例。本領域技術人員顯式地和隱式地理解的是，本文所描述的實施例可以與其它實施例相結合。

本申請中的人聲提取裝置可以包括智能手機(如android手機、ios手機、windowsphone手機等)、平板電腦、掌上電腦、筆記本電腦、移動互聯網設備mid(mobileinternetdevices，簡稱：mid)或穿戴式設備等，上述電子設備僅是舉例，而非窮舉，包含但不限于上述電子設備，為了描述的方便，當然在實際應用中，上述人聲提取裝置也不限于上述變現形式，例如還可以包括：智能車載終端、計算機設備等等。

參閱圖1，圖1為本申請實施例提供的一種人聲提取方法，該方法應用于人聲提取裝置，該方法包括步驟101～102：

步驟101：人聲提取裝置基于人聲提取模型，對混合音頻進行人聲提取，得到中間音頻，所述中間音頻包括人聲音頻幀和非人聲音頻幀。

其中，人聲提取為從人聲與背景器樂聲中的混合音頻中分離出可辨識的人聲音頻。

其中，該人聲提取模型為現有技術中的神經網絡模型。例如，可以為hoursglass模型等，不再對人聲提取過程進行贅述。需要知道的是，hoursglass模型在進行人聲提取時，其輸入數據為一個一個的音頻幀，從每個音頻幀分別提取出人聲，故hoursglass模型在對混合音頻進行人聲提取時，基于混合音頻的局部信息進行人聲提取，從而導致將部分前奏、間奏等器樂演奏部分誤識別為人聲而提取出來，導致最后提取出的人聲音頻中保留了部分部分前奏、間奏等器樂演奏，所以無法從混合音頻中提取出純凈的人聲音頻。

步驟102：人聲提取裝置基于人聲過濾模型，濾除所述中間音頻的非人聲音頻幀，得到人聲音頻。

其中，所述人聲過濾模型為基于機器學習集成算法構建的，其中，該機器學習集成算法可以為維特比viterbi算法、條件隨機場算法crf算法，本申請以維特比viterbi算法為例做具體說明。

viterbi算法是一種動態規劃算法用于尋找最有可能產生觀測事件序列的-維特比路徑-隱含狀態序列，特別y應用在馬爾可夫信息源上下文和隱馬爾可夫模型中，用于解決最優路徑問題。本申請中以維比特算法動態調整人聲概率序列，以完成對人聲過濾模型的構建。

其中，對人聲過濾模型的構建過程為為：基于機器學習集成算法、訓練數據以及與所述訓練數據對應的標簽序列預先訓練好的人聲過濾模型，所述訓練數據和所述標簽序列為對已有的音頻文件進行預處理得到的。由于所述人聲過濾模型的輸入數據為音頻段，具有更大的感受野，可獲取到該中間音頻的全局信息，從而過濾該中間音頻中的非人聲音頻幀。

可以看出，在本申請實施例中，在基于人聲提取模型提取到中間音頻后，利用感受野更大的人聲過濾模型，對該中間音頻進行過濾，以濾除該中間音頻中的非人聲音頻幀，從而從混合音頻中提取出純凈的人聲，使提取到的人聲效果更好，提高用戶體驗。

下面詳細敘述對音頻文件進行預處理得到訓練數據和標簽序列的過程。

參閱圖2a，圖2a為本申請實施例提供的一種得到訓練數據和標簽序列方法的流程示意圖，該方法應用于人聲提取裝置，該方法包括步驟201a～205a：

步驟201a：人聲提取裝置基于人聲提取模型對音頻文件進行人聲提取，得到樣本音頻。

可選的，該樣本音頻中包含人聲音頻幀和非人聲音頻幀，該非人聲音頻幀為誤識別得到的部分前奏、間奏等器樂演奏的音頻幀。

步驟202a：人聲提取裝置對所述樣本音頻進行分幀處理，得到n個樣本音頻幀，n為大于1的整數。

其中，由于音頻信號在整個時間周期內為非平穩信號，無法進行信號處理，故對該樣本音頻按照預設窗口函數和預設步長進行分幀，得到n個樣本音頻幀，每個樣本音頻幀看做是平穩信號，而且為了保證音頻信號的連續型，任意相鄰的兩個樣本音頻幀之間具有重疊部分。例如，預設窗口函數時長為30ms，預設步長為20ms，故任意相鄰的兩個樣本音頻幀之間具有10ms的重疊部分。

步驟203a：人聲提取裝置對每個樣本音頻幀進行短時傅里葉變換，得到每個樣本音頻幀的頻譜圖。

在一些可能的實施例中，頻譜圖可以為振幅譜、功率譜(能量譜)或者log功率譜。本申請以振幅譜為例做具體說明。

步驟204a：人聲提取裝置基于每個樣本音頻幀的頻譜圖，得到所述音頻文件的第一聲譜圖，將所述第一聲譜圖標記為訓練數據。

其中，第一聲譜圖是由每個樣本音頻幀的頻譜向量組成的矩陣，每個樣本音頻幀的頻譜向量是由每個樣本音頻幀的各個頻點對應的幅值組成的列向量。

舉例來說，參閱圖2c，圖2c為第k個樣本音頻幀的頻譜圖，1≤k≤n，f1、f2、f3、…、fm為第k個樣本音頻幀在頻域中的頻點，m為每幀樣本音頻幀在頻域中頻點的數量，第k個樣本音頻幀的頻譜圖對應的頻譜向量為[ak1、ak2、ak3、…、akm]^t，故獲取該n個樣本音頻幀對應的n個頻譜向量，可將該n個頻譜向量組成該第一聲譜圖為：

步驟205a：人聲提取裝置基于所述第一聲譜圖得到所述訓練數據對應的標簽序列。

其中，所述標簽序列用于標注所述訓練數據中與每個列向量對應的樣本音頻幀的幀屬性，所述幀屬性包括人聲和非人聲。例如，該標簽序列中的第j個元素用于標注所述訓練數據中第j個音頻幀的幀屬性，1≤j≤n，j為整數。

在一些可能的實施例中，基于所述第一聲譜圖得到所述訓練數據對應的標簽序列的實現過程可以為：基于語音端點檢測算法vad確定所述第一聲譜圖中靜音音頻幀對應的第一幀序號；獲取所述音頻文件對應的歌詞文件，基于所述歌詞文件確定所述第一聲譜圖中人聲音頻幀對應的第二幀序號和非人聲音頻幀對應的第三幀序號；基于所述第一幀序號、所述第二幀序號、所述第三幀序號得到標簽序列。

在一些可能的實施例中，在基于語音端點檢測算法vad確定所述第一聲譜圖中靜音音頻幀對應的第一幀序號之前，所述方法還包括：對所述第一頻譜圖進行譜減法降噪，以濾除所述第一頻譜圖中的背景噪聲，譜減法降噪是現有技術，不再贅述。

具體來講，基于該歌詞文件確定該音頻文件對應的包含有歌詞的歌唱時間段和不包含歌詞的非歌唱時間段，則非歌唱時間段對應的所有音頻幀均為非人聲音頻幀，歌唱時間段對應的所有音頻幀至少包括人聲音頻幀。可以理解是，在任意一個歌唱時間段內，任意兩句相鄰的歌詞之間可能存在歌手換氣的階段，故在歌唱時間段存在靜音時間段，即歌唱時間段對應的所有音頻幀存在靜音音頻幀。所以，基于語音端點檢測算法vad確定該音頻文件中靜音音頻幀對應的靜音時間段。然后，將每個時間段與每個樣本音頻幀對應的時間段進行比對，得到每個樣本音頻幀所屬的時間段，基于每個樣本音頻幀所屬的時間段確定每個樣本音頻幀的幀屬性，即確定出人聲音頻幀對應的幀序號，非人聲音頻幀對應的幀序號以及靜音音頻幀對應的幀序號。

舉例來說，如音頻幀時長為30ms，步長為10ms，設定人聲音頻幀對應的標簽為1，非人聲音頻幀對應的標簽為0，靜音幀標記對應的標簽也為0。如該音頻文件的0-50ms內屬于非人聲音頻時間段，則確定第1、2個音頻幀均為非人聲音頻幀，則訓練數據中的第1、2個音頻幀的標簽均為0，如該音頻文件的50ms-70ms，90ms-110ms內屬于人聲音頻時間段，則確定第3、5個音頻幀均為人聲音頻幀、第4幀為靜音音頻幀，則確定該訓練數據中的第3、5個音頻幀幀音頻的標簽均為1，第4幀音頻的標簽為0等；故其標簽序列為[0,0,1,0，1…，]。

參閱圖2b，基于圖2a，圖2b為本申請實施例提供的另一種得到訓練數據的方法的流程示意圖，該方法應用于人聲提取裝置，該方法包括步驟201b～207b：

步驟201b：人聲提取裝置基于人聲提取模型對音頻文件進行人聲提取，得到樣本音頻。

步驟202b：人聲提取裝置對所述樣本音頻進行分幀處理，得到n個樣本音頻幀。

步驟203b：人聲提取裝置對每個樣本音頻幀進行短時傅里葉變換，得到每個樣本音頻幀的頻譜圖。

步驟204b：人聲提取裝置基于每個樣本音頻幀的頻譜圖，得到所述音頻文件的第一聲譜圖。

步驟205b：人聲提取裝置確定所述第一聲譜圖中的第i個列向量和所述第一聲譜圖中的第(i+1)個列向量對應元素的一階差分，得到差分向量，將所述差分向量與所述第(i+1)個列向量進行縱向拼接，得到第二聲譜圖，1≤i≤n，i為整數。

其中，由于該第一聲譜圖中的第一個樣本音頻幀不存在對應的差分向量，故對其縱向拼接一個預設的差分向量a＝[a01,a02,…,a0m]，其中，該預設的差分向量可以為元素全為0的零向量或者為預設元素的向量，等等，本申請不做唯一限定。

在縱向拼接預設的差分向量后，該第二聲譜圖為：

可選的，獲取相鄰兩個樣本音頻幀的幀向量的一階差分，將差分向量與第一頻譜圖進行縱向拼接，使得到的第二聲譜圖的每個列向量包含了上一個音頻幀的音頻信息，故在計算每個樣本音頻幀對應的人聲概率時，由于每個樣本音頻幀對應的列向量中包含了上一個音頻幀的音頻信息，由于加入了先驗信息，使計算得到的該樣本音頻幀的人聲概率更加精確。

步驟206b：人聲提取裝置將所述第二聲譜圖標記為訓練數據。

步驟207b：人聲提取裝置基于所述第一聲譜圖得到所述訓練數據對應的標簽序列。

最后，利用訓練數據對人聲過濾模型進行訓練為現有技術，不再贅述。

參閱圖3，圖3為本申請實施例提供的另一種人聲提取方法的流程示意圖，該方法應用于人聲提取裝置，該方法包括步驟301～306：

步驟301：人聲提取裝置基于人聲提取模型，對混合音頻進行人聲提取，得到中間音頻，所述中間音頻包括人聲音頻幀和非人聲音頻幀。

步驟302：人聲提取裝置將所述中間音頻分割為若干個音頻段，任意兩個相鄰的音頻段存在重疊的音頻段。

可選的，人聲提取裝置按照預設的窗函數和預設步長將所述中間音頻分割為若干個音頻段，每個音頻段至少包括一個音頻幀。例如，可按照窗函數為10s，預設步長為5s對所述中間音頻分割為若干個音頻段，每個音頻段故任意兩個相鄰的音頻段存在5s重疊的音頻段。

步驟303：人聲提取裝置將每個音頻段先后輸入到人聲過濾模型，得到每個音頻段的第一人聲概率序列，所述第一人聲概率序列用于表示每個音頻段中每個音頻幀為人聲的概率。

步驟304：人聲提取裝置基于每個音頻段的第一人聲概率序列確定重疊音頻段中每個音頻幀的人聲概率均值，得到所述中間音頻的第二人聲概率序列。

可選的，基于所述人聲過濾模型，確定出每個音頻段的第一人聲概率序列，由于相鄰的兩個音頻段中存在重疊的音頻段，故相鄰的兩個音頻段對應的兩個第一人聲概率序列中均包含該重疊的音頻段中每個音頻幀的人聲概率，通過求取平均值的方式獲取重疊的音頻段中每個音頻幀的人聲概率，然后，與未重疊的音頻段對應的人聲概率組成該中間音頻的第二人聲概率序列，該第二人聲概率序列中的每個元素用于表示該中間音頻中每個音頻幀為人聲的概率。

步驟305：人聲提取裝置基于維特比算法以及所述第二人聲概率序列確定所述中間音頻的目標人聲概率序列。

可選的，基于維特比viterbi算法對所述第二概率序列中的元素進行調整，得到最優的概率序列，將最優的概率序列作為目標人聲概率序列。即類似求取最優路徑的方法，基于維特比viterbi算法確定該第二概率序列對應的隱藏序列，獲取每個隱藏序列對應的可能概率，得到該最優的概率序列，具體過程為現有技術，不再敘述。

舉例來說，如第二人聲概率序列為[0.0,0,1,0.1,0.2,0.3,0.5,0.8,0.7,0.1,0.1,0.6,0.7,0.8,…,]，通過該第二人聲概率序列可以看出，該中間音頻的第6、7、8、11、12、13個音頻幀可能為人聲音頻幀，而第9、10個音頻幀可能為非人聲音頻幀，由于說話人說話存在一個漸變的過程，所以人聲概率之間也是一個漸變過程，一般來講，不存在上一個音頻幀的人聲概率非常大，下一個音頻幀的人聲概率非常小，不符合說話人的說話規律，所以，可斷定第9、10個音頻幀對應的人聲概率存在問題，故需動態調整，以符合說話人的說話規律。

步驟306：人聲提取裝置基于所述目標人聲概率序列濾除所述中間音頻中非人聲音頻幀，得到人聲音頻，所述非人聲音頻幀為所述中間音頻中與所述目標人聲概率序列中的目標元素對應的音頻幀，所述目標元素為滿足預設條件的元素。

其中，滿足預設條件的元素可以為大于或者等于閾值的元素，該閾值可以為0.5、0.6、0.7或者其他值。

可以看出，在本申請實施例中，在基于人聲提取模型提取到中間音頻后，對中間音頻分段，確定每個音頻段對應的輸入數據，將該輸入數據輸入到人聲過濾模型，以濾除該中間音頻的非人聲音頻幀，得到純凈的人聲音頻，由于人聲過濾模型中的輸入數據為音頻段，相比現有技術中輸入數據為音頻幀，該人聲過濾模型具有更大的感受野，利用中間音頻的全局信息過濾非人聲音頻幀，從混合音頻中提取出純凈的人聲，使提取到的人聲效果更好，提高用戶體驗。

在一些可能的實施例中，本申請公開的人聲提取方法應用于如圖4所示的人聲過濾模型，該人聲過濾模型包括p個相同的網絡層和全連接層，其中，該p個相同的網絡層以殘差形式連接，每個網絡層包括：第一卷積層、第二卷積層、激活層、特征融合層和特征疊加層；該全連接層可以為多個網絡層密集連接。

首先，人聲提取裝置對中間音頻進行分段，得到若干個音頻段，然后，再對每個音頻段進行傅里葉變換，得到每個音頻段進行短時傅里葉變換，得到每個音頻段對應的聲譜圖(可以為上述的第一聲譜圖或者第二聲譜圖)，基于該聲譜圖得到每個音頻段對應的輸入數據，其具體的變換過程參見上述得到訓練數據的過程，在此不做詳細敘述，并將所述輸入數據輸入到該人聲過濾模型中的p個網絡層的第一個網絡層；第一卷積層，用于對所述輸入數據進行第一卷積運算，得到第一特征矩陣；第二卷積層，用于對輸入數據進行第二卷積運算，得到第二特征矩陣；激活層，用于對所述第二特征矩陣進行非線性激活，得到第三特征矩陣；特征融合層，用于對所述第一特征矩陣和第三特征矩陣進行叉乘運算，得到第四特征矩陣；特征疊加層，用于將第四特征矩陣和輸入數據進行特征疊加，得到該網絡層的輸出數據，將該輸出數據作為下一個網絡層的輸入數據，經過p個網絡層后，得到每個音頻段的目標特征矩陣；全連接層，用于對該目標特征矩陣進行全連接運算，得到每個音頻段對應的特征向量，將所述特征向量輸入到softmax分類器，得到每個音頻段對應的人聲概率序列。

需要說明的是，圖4僅是人聲過濾模型的一種網絡結構，本申請僅以該網絡結構為例做具體說明，不對人聲過濾模型進行唯一限定。

上述主要從方法側執行過程的角度對本申請實施例的方案進行了介紹。可以理解的是，單位時間內音節數量的計算裝置為了實現上述功能，其包含了執行各個功能相應的硬件結構和/或軟件模塊。本領域技術人員應該很容易意識到，結合本文中所公開的實施例描述的各示例的單元及算法步驟，本申請能夠以硬件或硬件和計算機軟件的結合形式來實現。某個功能究竟以硬件還是計算機軟件驅動硬件的方式來執行，取決于技術方案的特定應用和設計約束條件。專業技術人員可以對每個特定的應用使用不同方法來實現所描述的功能，但是這種實現不應認為超出本申請的范圍。

本申請實施例可以根據上述方法示例對單位時間內音節數量的計算裝置進行功能單元的劃分，例如，可以對應各個功能劃分各個功能單元，也可以將兩個或兩個以上的功能集成在一個處理單元中。上述集成的單元既可以采用硬件的形式實現，也可以采用軟件功能單元的形式實現。需要說明的是，本申請實施例中對單元的劃分是示意性的，僅僅為一種邏輯功能劃分，實際實現時可以有另外的劃分方式。

與上述所示的人聲提取方法的實施例一致的，請參閱圖5，圖5為本申請實施例提供的一種人聲提取裝置500的結構示意圖，如圖5所示，人聲提取裝置500包括處理器、存儲器、通信接口以及一個或多個程序，其中，上述一個或多個程序不同于上述一個或多個應用程序，且上述一個或多個程序被存儲在上述存儲器中，并且被配置由上述處理器執行，上述程序包括用于執行以下步驟的指令：

基于人聲提取模型，對混合音頻進行人聲提取，得到中間音頻，所述中間音頻包括人聲音頻幀和非人聲音頻幀；

基于人聲過濾模型，濾除所述中間音頻的非人聲音頻幀，得到人聲音頻。

在一可能的實施例中，所述人聲過濾模型基于機器學習集成算法構建，上述程序還用于執行以下步驟的指令：

在基于人聲過濾模型，濾除所述中間音頻的非人聲音頻幀之前，對音頻文件進行預處理得到訓練數據和標簽序列，使用所述訓練數據以及所述標簽序列對所述人聲過濾模型進行優化訓練。

在一可能的實施例中，在對音頻文件進行預處理得到訓練數據和標簽序列方面，上述程序具體用于執行以下步驟的指令：

基于所述人聲提取模型對音頻文件進行人聲提取，得到樣本音頻；

對所述樣本音頻進行分幀處理，得到n個樣本音頻幀，n為大于1的整數；

對每個樣本音頻幀進行短時傅里葉變換，得到每個樣本音頻幀的頻譜圖；

基于每個樣本音頻幀的頻譜圖，得到所述音頻文件的第一聲譜圖，所述第一聲譜圖是由每個樣本音頻幀的頻譜向量組成的矩陣，每個樣本音頻幀的頻譜向量是由每個樣本音頻幀的各個頻點對應的幅值組成的列向量；

將所述第一聲譜圖標記為訓練數據；

基于所述第一聲譜圖得到所述訓練數據對應的標簽序列，所述標簽序列用于標注所述訓練數據中與每個列向量對應的樣本音頻幀的幀屬性，所述幀屬性包括人聲和非人聲。

在一可能的實施例中，在將所述第一聲譜圖標記為訓練數據之前，上述程序還用于執行以下步驟的指令：

確定所述第一聲譜圖中的第i個列向量和所述第一聲譜圖中的第(i+1)個列向量對應元素的一階差分，得到差分向量，1≤i≤n，i為整數；

將所述差分向量與所述第(i+1)個列向量進行縱向拼接，得到第二聲譜圖；

所述將所述第一聲譜圖作為訓練數據，包括：

將所述第二聲譜圖標記為訓練數據。

在一可能的實施例中，在基于所述第一聲譜圖得到所述訓練數據對應的標簽序列方面，上述程序具體用于執行以下步驟的指令：

基于語音端點檢測算法確定所述第一聲譜圖中靜音音頻幀對應的第一幀序號；

獲取所述音頻文件對應的歌詞文件，基于所述歌詞文件確定所述第一聲譜圖中人聲音頻幀對應的第二幀序號和非人聲音頻幀對應的第三幀序號；

基于所述第一幀序號、所述第二幀序號、所述第三幀序號得到標簽序列。

在一可能的實施例中，在基于人聲過濾模型，濾除所述中間音頻的非人聲音頻幀方面，上述程序具體用于執行以下步驟的指令：

將所述中間音頻分割為若干個音頻段，任意兩個相鄰的音頻段存在重疊的音頻段；

將每個音頻段先后輸入到人聲過濾模型，得到每個音頻段的第一人聲概率序列，所述第一人聲概率序列用于表示每個音頻段中每個音頻幀為人聲的概率；

基于每個音頻段的第一人聲概率序列確定重疊音頻段中每個音頻幀的人聲概率均值，得到所述中間音頻的第二人聲概率序列；

基于維特比算法以及所述第二人聲概率序列確定所述中間音頻的目標人聲概率序列；

基于所述目標人聲概率序列濾除所述中間音頻中非人聲音頻幀，得到人聲音頻，所述非人聲音頻幀為所述中間音頻中與所述目標人聲概率序列中的目標元素對應的音頻幀，所述目標元素為滿足預設條件的元素。

參閱圖6，圖6示出了上述實施例中所涉及的人聲提取裝置600的一種可能的功能單元組成框圖，人聲提取裝置600包括：提取單元610、過濾單元620，其中：

提取單元610，用于基于人聲提取模型，對混合音頻進行人聲提取，得到中間音頻，所述中間音頻包括人聲音頻幀和非人聲音頻幀；

過濾單元620，用于基于人聲過濾模型，濾除所述中間音頻的非人聲音頻幀，得到人聲音頻。

在一可能的實施例中，所述人聲過濾模型基于機器學習集成算法構建，人聲提取裝置600還包括訓練單元630，訓練單元630，用于：在基于人聲過濾模型，濾除所述中間音頻的非人聲音頻幀之前，對音頻文件進行預處理得到訓練數據和標簽序列，使用所述訓練數據以及所述標簽序列對所述人聲過濾模型進行優化訓練。

在一可能的實施例中，在對音頻文件進行預處理得到訓練數據和標簽序列方面，訓練單元630，具體用于：基于所述人聲提取模型對音頻文件進行人聲提取，得到樣本音頻；對所述樣本音頻進行分幀處理，得到n個樣本音頻幀，n為大于1的整數；對每個樣本音頻幀進行短時傅里葉變換，得到每個樣本音頻幀的頻譜圖；基于每個樣本音頻幀的頻譜圖，得到所述音頻文件的第一聲譜圖，所述第一聲譜圖是由每個樣本音頻幀的頻譜向量組成的矩陣，每個樣本音頻幀的頻譜向量是由每個樣本音頻幀的各個頻點對應的幅值組成的列向量；將所述第一聲譜圖標記為訓練數據；基于所述第一聲譜圖得到所述訓練數據對應的標簽序列，所述標簽序列用于標注所述訓練數據中與每個列向量對應的樣本音頻幀的幀屬性，所述幀屬性包括人聲和非人聲。

在一可能的實施例中，在將所述第一聲譜圖標記為訓練數據之前，訓練單元630，還用于：確定所述第一聲譜圖中的第i個列向量和所述第一聲譜圖中的第(i+1)個列向量對應元素的一階差分，得到差分向量，1≤i≤n，i為整數；將所述差分向量與所述第(i+1)個列向量進行縱向拼接，得到第二聲譜圖；在將所述第一聲譜圖作為訓練數據方面，訓練單元630，具體用于：將所述第二聲譜圖標記為訓練數據。

在一可能的實施例中，在基于所述第一聲譜圖得到所述訓練數據對應的標簽序列方面，訓練單元630，具體用于：基于語音端點檢測算法確定所述第一聲譜圖中靜音音頻幀對應的第一幀序號；獲取所述音頻文件對應的歌詞文件，基于所述歌詞文件確定所述第一聲譜圖中人聲音頻幀對應的第二幀序號和非人聲音頻幀對應的第三幀序號；基于所述第一幀序號、所述第二幀序號、所述第三幀序號得到標簽序列。

在一可能的實施例中，在基于人聲過濾模型，濾除所述中間音頻的非人聲音頻幀方面，過濾單元620，具體用于,：將所述中間音頻分割為若干個音頻段，任意兩個相鄰的音頻段存在重疊的音頻段；將每個音頻段先后輸入到人聲過濾模型，得到每個音頻段的第一人聲概率序列，所述第一人聲概率序列用于表示每個音頻段中每個音頻幀為人聲的概率；基于每個音頻段的第一人聲概率序列確定重疊音頻段中每個音頻幀的人聲概率均值，得到所述中間音頻的第二人聲概率序列；基于維特比算法以及所述第二人聲概率序列確定所述中間音頻的目標人聲概率序列；基于所述目標人聲概率序列濾除所述中間音頻中非人聲音頻幀，得到人聲音頻，所述非人聲音頻幀為所述中間音頻中與所述目標人聲概率序列中的目標元素對應的音頻幀，所述目標元素為滿足預設條件的元素。

本申請實施例還提供一種計算機存儲介質，所述計算機可讀存儲介質存儲有計算機程序，所述計算機程序被處理器執行以實現如上述方法實施例中記載的任何一種人聲提取方法的部分或全部步驟。

本申請實施例還提供一種計算機程序產品，所述計算機程序產品包括存儲了計算機程序的非瞬時性計算機可讀存儲介質，所述計算機程序可操作來使計算機執行如上述方法實施例中記載的任何一種人聲提取方法的部分或全部步驟。

需要說明的是，對于前述的各方法實施例，為了簡單描述，故將其都表述為一系列的動作組合，但是本領域技術人員應該知悉，本申請并不受所描述的動作順序的限制，因為依據本申請，某些步驟可以采用其他順序或者同時進行。其次，本領域技術人員也應該知悉，說明書中所描述的實施例均屬于可選實施例，所涉及的動作和模塊并不一定是本申請所必須的。

在上述實施例中，對各個實施例的描述都各有側重，某個實施例中沒有詳述的部分，可以參見其他實施例的相關描述。

在本申請所提供的幾個實施例中，應該理解到，所揭露的裝置，可通過其它的方式實現。例如，以上所描述的裝置實施例僅僅是示意性的，例如所述單元的劃分，僅僅為一種邏輯功能劃分，實際實現時可以有另外的劃分方式，例如多個單元或組件可以結合或者可以集成到另一個系統，或一些特征可以忽略，或不執行。另一點，所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口，裝置或單元的間接耦合或通信連接，可以是電性或其它的形式。

所述作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位于一個地方，或者也可以分布到多個網絡單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。

另外，在本申請各個實施例中的各功能單元可以集成在一個處理單元中，也可以是各個單元單獨物理存在，也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現，也可以采用軟件程序模塊的形式實現。

所述集成的單元如果以軟件程序模塊的形式實現并作為獨立的產品銷售或使用時，可以存儲在一個計算機可讀取存儲器中。基于這樣的理解，本申請的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟件產品的形式體現出來，該計算機軟件產品存儲在一個存儲器中，包括若干指令用以使得一臺計算機設備(可為個人計算機、服務器或者網絡設備等)執行本申請各個實施例所述方法的全部或部分步驟。而前述的存儲器包括：u盤、只讀存儲器(rom，read-onlymemory)、隨機存取存儲器(ram，randomaccessmemory)、移動硬盤、磁碟或者光盤等各種可以存儲程序代碼的介質。

本領域普通技術人員可以理解上述實施例的各種方法中的全部或部分步驟是可以通過程序來指令相關的硬件來完成，該程序可以存儲于一計算機可讀存儲器中，存儲器可以包括：閃存盤、只讀存儲器(英文：read-onlymemory，簡稱：rom)、隨機存取器(英文：randomaccessmemory，簡稱：ram)、磁盤或光盤等。

以上對本申請實施例進行了詳細介紹，本文中應用了具體個例對本申請的原理及實施方式進行了闡述，以上實施例的說明只是用于幫助理解本申請的方法及其核心思想；同時，對于本領域的一般技術人員，依據本申請的思想，在具體實施方式及應用范圍上均會有改變之處，綜上所述，本說明書內容不應理解為對本申請的限制。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：王征韜
技術所有人：騰訊音樂娛樂科技（深圳）有限公司
我是此專利的發明人

上一篇：一種木框樓承板、側邊樓承板及其拼裝樓承板的制作方法
下一篇：臨邊預制墻體現澆部位模板及其安裝方法與流程

相關技術

音頻信號處理方法、電子設備、存儲介質及程序產品與流程

人聲提取方法與流程

針對封閉場景下人聲提取準確率低、計算資源消耗大的問題，提出雙段策略：通過分段處理減少數據量實現輕量化，再結合二次分段特征處理結果疊加融合，彌補首次處理的不足，從而在降低計算成本的同時提升噪聲環...

人聲提取方法與流程

針對封閉場景下混合音頻中人聲提取準確度低的問題，提出融合音頻與唇動特征的解決方案。通過多頭注意力機制提取多維度特征，結合人聲增強處理提升魯棒性，最終實現高精度人聲分離。核心技術在于特征融合與注...

人聲主旋律提取方法和裝置、電子設備及存儲介質與流程

人聲分離提取方法方法、裝置、計算機設備及存儲介質與流程

伴奏和人聲提取方法及裝置、逐字歌詞生成方法及裝置與流程

音頻處理方法、裝置、存儲介質及電子設備與流程

針對現場錄制節目因聲道不對齊導致人聲提取效果差的問題，提出基于盲源分離模型的音頻處理方法。通過分離左右聲道的人聲與背景聲，并結合場景權重參數合成，實現人聲增強與音效優化，顯著提升音頻聽覺效果。...

一種人聲提取方法、系統以及人聲音頻播放方法及裝置制造方法

針對傳統CASA技術提取人聲時算法復雜、計算量大的問題，提出以主音高為參照頻率判斷基音頻率的新方法。通過提取人聲與背景聲共存的樣本檢測主音高，再將后續音頻分幀處理，利用時頻單元合并與基頻比對，...

網友詢問留言留言:0條

還沒有人留言評論。精彩留言會獲得點贊！

文明留言，給您點贊！

同類技術

相關技術