本發明涉及音頻領域,尤其涉及一種人聲分割方法及裝置。
背景技術:
傳統的基于文本的音頻檢索采用人工標注的方式,不但成本昂貴,而且效率低,而基于語音識別的檢索技術雖然在效率上有所提升,但是卻丟失了同樣重要的說話人信息,因此,需要通過人聲分割系統進行彌補。
人聲分割是指在無先驗知識的條件下,即在說話人數量和身份都未知的情況下,自動找到一段多個說話人語音的說話人改變點,并對這些語音段進行分類標注,使相同的說話人數據被標注為同一類。
目前的人聲分割系統先尋找連續語音中的說話人改變點,將長語音分割成若干段短語音,之后對每段短語音提取特征,再運用常用層次聚類方法來對說話人進行聚類。它通過不斷的分裂或合并來分割大類或者合并小類,直到滿足一定的停止聚類準則。
但是這種人聲分割系統的效率較低,需要對每段語音片段進行建模,建模過程需要的時間較長。因此,導致了傳統人聲分割系統效率低,耗費時間長的技術問題。
技術實現要素:
本發明提供了一種人聲分割方法及裝置,解決了傳統人聲分割系統效率低,耗費時間長的技術問題。
本發明提供了一種人聲分割方法,其特征在于,包括:
s1:對音頻數據進行特征向量的提?。?/p>
s2:對音頻數據進行語音激活監測,將靜音片段和語音片段分別進行標注;
s3:根據標注提取語音片段,將語音片段按照預置時間長度進行分割,將各個分割后的語音片段中的特征向量通過概率分布聚類方法進行聚類操作并分別輸出對應的聚類標簽;
s4:將不同聚類標簽對應的語音片段分別按照時間順序進行排列和合并,并輸出排列和合并后的不同聚類標簽的語音片段。
優選地,步驟s2具體包括:
s201:根據標注提取語音片段,將語音片段按照預置時間長度進行分割;
s202:以任意兩個分割后的語音片段為一種組合方式,計算所有組合方式中的兩個分割后的語音片段進行合并后的信息丟失函數的求解值,判斷最小的求解值是否超過預置閾值,若是,則執行步驟s204,若否,則執行步驟s203;
s203:將求解值最小的兩個語音片段進行合并,并返回步驟s202;
s204:停止聚類并根據聚類結果進行排列和合并,分別輸出對應的聚類標簽。
優選地,步驟s1之前還包括:
s0:獲取wav文件格式中的音頻數據。
本發明提供了一種人聲分割裝置,其特征在于,包括:
特征提取模塊,用于對音頻數據進行特征向量的提取;
語音激活模塊,用于對音頻數據進行語音激活監測,將靜音片段和語音片段分別進行標注;
聚類模塊,用于根據標注提取語音片段,將語音片段按照預置時間長度進行分割,將各個分割后的語音片段中的特征向量通過概率分布聚類方法進行聚類操作并分別輸出對應的聚類標簽;
排列輸出模塊,用于將不同聚類標簽對應的語音片段分別按照時間順序進行排列和合并,并輸出排列和合并后的不同聚類標簽的語音片段。
優選地,聚類模塊具體包括:
分割子模塊,用于根據標注提取語音片段,將語音片段按照預置時間長度進行分割;
丟失計算子模塊,用于以任意兩個分割后的語音片段為一種組合方式,計算所有組合方式中的兩個分割后的語音片段進行合并后的信息丟失函數的求解值,判斷最小的求解值是否超過預置閾值,若是,則觸發聚類輸出子模塊,若否,則觸發合并子模塊;
合并子模塊,用于將求解值最小的兩個語音片段進行合并,并觸發丟失計算子模塊;
聚類輸出子模塊,用于停止聚類并根據聚類結果進行排列和合并,分別輸出對應的聚類標簽。
優選地,還包括:
讀取模塊,用于獲取wav文件格式中的音頻數據。
從以上技術方案可以看出,本發明具有以下優點:
本發明提供了一種人聲分割方法,其特征在于,包括:s1:對音頻數據進行特征向量的提取;s2:對音頻數據進行語音激活監測,將靜音片段和語音片段分別進行標注;s3:根據標注提取語音片段,將語音片段按照預置時間長度進行分割,將各個分割后的語音片段中的特征向量通過概率分布聚類方法進行聚類操作并分別輸出對應的聚類標簽;s4:將不同聚類標簽對應的語音片段分別按照時間順序進行排列和合并,并輸出排列和合并后的不同聚類標簽的語音片段。
本發明中采用概率分布聚類方法對語音片段進行聚類操作,無需像傳統的人聲分割系統對語音片段進行建模,可以對語音的特征向量快速處理,實現快速聚類;并且加入了語音激活監測,區分靜音片段和語音片段,只對語音片段進行處理,進一步減少了人聲分割的工作量,提高了工作效率,解決了傳統人聲分割系統效率低,耗費時間長的技術問題。
附圖說明
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其它的附圖。
圖1為本發明實施例提供的一種人聲分割方法的一個實施例的流程示意圖;
圖2為本發明實施例提供的一種人聲分割方法的另一個實施例的流程示意圖;
圖3為本發明實施例提供的一種人聲分割裝置的一個實施例的流程示意圖;
圖4為本發明實施例提供的一種人聲分割裝置的另一個實施例的流程示意圖。
具體實施方式
本發明實施例提供了一種人聲分割方法及裝置,解決了傳統人聲分割系統效率低,耗費時間長的技術問題。
為使得本發明的發明目的、特征、優點能夠更加的明顯和易懂,下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,下面所描述的實施例僅僅是本發明一部分實施例,而非全部的實施例?;诒景l明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其它實施例,都屬于本發明保護的范圍。
請參閱圖1,本發明提供了一種人聲分割方法的一個實施例,包括:
步驟101:對音頻數據進行特征向量的提??;
步驟102:對音頻數據進行語音激活監測,將靜音片段和語音片段分別進行標注;
需要說明的是,pcm數據進行特征向量的提取和語音激活監測后存入內存,轉而釋放pcm數據內存塊;
通過語音激活檢測可以將靜音片段過濾,減小人聲分割的工作量。
步驟103:根據標注提取語音片段,將語音片段按照預置時間長度進行分割,將各個分割后的語音片段中的特征向量通過概率分布聚類方法進行聚類操作并分別輸出對應的聚類標簽;
需要說明的是,概率分布聚類方法從率失真理論的基礎上發展而來,采用聯合概率分布表示數據,以互信息作為度量手段,刻畫樣本和樣本屬性的相關性,并不需要對樣本之間的距離函數做任何假設。
步驟104:將不同聚類標簽對應的語音片段分別按照時間順序進行排列和合并,并輸出排列和合并后的不同聚類標簽的語音片段。
需要說明的是,例如最后剩下三個標簽,但是三個標簽中的語音片段都是雜亂的,需要對各個標簽中的語音片段按照時間順序進行排列梳理,然后再分別輸出。
本發明中采用概率分布聚類方法對語音片段進行聚類操作,無需像傳統的人聲分割系統對語音片段進行建模,可以對短語音的特征向量快速處理,實現快速聚類;并且加入了語音激活監測,區分靜音片段和語音片段,只對語音片段進行處理,進一步減少了人聲分割的工作量,提高了工作效率,解決了傳統人聲分割系統效率低,耗費時間長的技術問題。
以上為本發明提供的一種人聲分割方法的一個實施例,以下為本發明提供的一種人聲分割方法的另一個實施例。
請參閱圖2,本發明提供了一種人聲分割方法的另一個實施例,包括:
步驟201:獲取wav文件格式中的音頻數據;
需要說明的是,讀取wav格式的音頻數據(即pcm數據),將pcm數據導入內存,進行后續的步驟。
步驟202:對音頻數據進行特征向量的提?。?/p>
步驟203:對音頻數據進行語音激活監測,將靜音片段和語音片段分別進行標注;
需要說明的是,例如三個人對話,則將人聲的部分作為語音片段,非人聲的部分作為靜音片段。
步驟204:根據標注提取語音片段,將語音片段按照預置時間長度進行分割;
需要說明的是,例如將語音片段以250ms為單位進行分割。
步驟205:以任意兩個分割后的語音片段為一種組合方式,計算所有組合方式中的兩個分割后的語音片段進行合并后的信息丟失函數的求解值,判斷最小的求解值是否超過預置閾值,若是,則執行步驟207,若否,則執行步驟206;
需要說明的是,步驟205需要將所有的分割后的語音片段以兩兩為一組進行組合,例如:存在a、b、c三個片段,則有ab、ac和bc三種兩兩為一組的組合方式;
并且計算每一種組合方式中的兩個分割后的語音片段進行合并后的信息丟失函數的求解值;
此步驟是為了衡量當合并兩個語音片段時語音片段信息的損失程度,判斷是否仍有可合并的兩個語音片段。
步驟206:將求解值最小的兩個語音片段進行合并,并返回步驟205;
需要說明的是,如果任意兩個語音片段的信息丟失函數都不超過預置閾值,則將信息丟失函數最小,即相性最高的兩個語音片段進行融合,并返回步驟205。
步驟207:停止聚類并根據聚類結果進行排列和合并,分別輸出對應的聚類標簽;
需要說明的是,若存在任意兩個語音片段的信息丟失函數超過預置閾值,則停止聚類操作,例如最后剩下三個合并后的語音片段,則輸出三個聚類標簽。
步驟208:將不同聚類標簽對應的語音片段分別按照時間順序進行排列和合并,并輸出排列和合并后的不同聚類標簽的語音片段。
需要說明的是,本發明中采用概率分布聚類方法對語音片段進行聚類操作,無需像傳統的人聲分割系統對語音片段進行建模,可以對短語音的特征向量快速處理,實現快速聚類;并且加入了語音激活監測,區分靜音片段和語音片段,只對語音片段進行處理,進一步減少了人聲分割的工作量,提高了工作效率,解決了傳統人聲分割系統效率低,耗費時間長的技術問題。
以上為本發明提供的一種人聲分割方法的另一個實施例,以下為本發明提供的一種人聲分割裝置的一個實施例。
請參閱圖3,本發明提供了一種人聲分割裝置的一個實施例,包括:
特征提取模塊301,用于對音頻數據進行特征向量的提??;
語音激活模塊302,用于對音頻數據進行語音激活監測,將靜音片段和語音片段分別進行標注;
聚類模塊303,用于根據標注提取語音片段,將語音片段按照預置時間長度進行分割,將各個分割后的語音片段中的特征向量通過概率分布聚類方法進行聚類操作并分別輸出對應的聚類標簽;
排列輸出模塊304,用于將不同聚類標簽對應的語音片段分別按照時間順序進行排列和合并,并輸出排列和合并后的不同聚類標簽的語音片段。
以上為本發明實施例提供的一種人聲分割裝置的一個實施例,以下為本發明實施例提供的一種人聲分割裝置的另一個實施例。
請參閱圖4,本發明是實力提供了一種人聲分割裝置的另一個實施例,包括:
特征提取模塊402,用于對音頻數據進行特征向量的提??;
語音激活模塊403,用于對音頻數據進行語音激活監測,將靜音片段和語音片段分別進行標注;
聚類模塊404,用于根據標注提取語音片段,將語音片段按照預置時間長度進行分割,將各個分割后的語音片段中的特征向量通過概率分布聚類方法進行聚類操作并分別輸出對應的聚類標簽;
排列輸出模塊405,用于將不同聚類標簽對應的語音片段分別按照時間順序進行排列和合并,并輸出排列和合并后的不同聚類標簽的語音片段。
進一步地,聚類模塊404具體包括:
分割子模塊4041,用于根據標注提取語音片段,將語音片段按照預置時間長度進行分割;
丟失計算子模塊4042,用于以任意兩個分割后的語音片段為一種組合方式,計算所有組合方式中的兩個分割后的語音片段進行合并后的信息丟失函數的求解值,判斷最小的求解值是否超過預置閾值,若是,則觸發聚類輸出子模塊4044,若否,則觸發合并子模塊4043;
合并子模塊4043,用于將求解值最小的兩個語音片段進行合并,并觸發丟失計算子模塊4042;
聚類輸出子模塊4044,用于停止聚類并根據聚類結果進行排列和合并,分別輸出對應的聚類標簽。
進一步地,還包括:
讀取模塊401,用于獲取wav文件格式中的音頻數據。
所屬領域的技術人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統,裝置和模塊的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。
在本申請所提供的幾個實施例中,應該理解到,所揭露的系統,裝置和方法,可以通過其它的方式實現。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述模塊的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個模塊或組件可以結合或者可以集成到另一個系統,或一些特征可以忽略,或不執行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或模塊的間接耦合或通信連接,可以是電性,機械或其它的形式。
所述作為分離部件說明的模塊可以是或者也可以不是物理上分開的,作為模塊顯示的部件可以是或者也可以不是物理模塊,即可以位于一個地方,或者也可以分布到多個網絡模塊上??梢愿鶕嶋H的需要選擇其中的部分或者全部模塊來實現本實施例方案的目的。
另外,在本發明各個實施例中的各功能模塊可以集成在一個處理模塊中,也可以是各個模塊單獨物理存在,也可以兩個或兩個以上模塊集成在一個模塊中。上述集成的模塊既可以采用硬件的形式實現,也可以采用軟件功能模塊的形式實現。
所述集成的模塊如果以軟件功能模塊的形式實現并作為獨立的產品銷售或使用時,可以存儲在一個計算機可讀取存儲介質中。基于這樣的理解,本發明的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟件產品的形式體現出來,該計算機軟件產品存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網絡設備等)執行本發明各個實施例所述方法的全部或部分步驟。而前述的存儲介質包括:u盤、移動硬盤、只讀存儲器(rom,read-onlymemory)、隨機存取存儲器(ram,randomaccessmemory)、磁碟或者光盤等各種可以存儲程序代碼的介質。
以上所述,以上實施例僅用以說明本發明的技術方案,而非對其限制;盡管參照前述實施例對本發明進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分技術特征進行等同替換;而這些修改或者替換,并不使相應技術方案的本質脫離本發明各實施例技術方案的精神和范圍。