本發(fā)明涉及語音處理的技術領域,尤其是涉及一種針對大功率目標語音的提取方法。
背景技術:
語音分離技術可以從多個聲源的混合信號中分離出原始的聲源信號,是語音信號處理領域的一項重要任務,在智能家居系統(tǒng)、視頻會議系統(tǒng)以及語音識別系統(tǒng)等多種應用場景下都發(fā)揮了重要作用。
在多通道的語音信號處理方案中,獨立矢量分析(iva)以及它的變體被認為是最先進的分離方法,它對所有的聲源信號都進行了完全的分離。然而,在很多的應用場景中,只需要估計出某一個特定話者的語音信號。通常的語音分離方法對那些不需要的聲源信號也進行了估計,并且還要采取額外的步驟從所有分離出的信號當中挑選出目標的源信號,這樣的做法浪費計算量且增加了系統(tǒng)的復雜程度。所以這種情況下,采用語音提取方法比起語音分離更加的高效。
已有的語音提取方法都需要對目標信號以及干擾信號作嚴格的假定,或是對源信號混合方式有先驗的知識,這在很大程度上限制了此類方法在實際中的應用。如何高效、準確地針對目標信號進行提取,即使在很少的限制條件下也能保證算法的性能,是一個值得關注的技術問題。
技術實現(xiàn)要素:
為了解決上述技術問題,本發(fā)明提出了一種針對大功率目標信號的語音提取方法,該方法能準確、高效地對目標信號進行提取,并且估計出的目標信號有良好的效果。
本發(fā)明采用的技術方案為:
一種針對大功率目標信號的語音提取方法,包括如下步驟:
步驟1,獲取待處理混合語音的時頻域信號;
步驟2,初始化各頻帶的分離向量;將步驟1得到的混合語音時頻域信號進行白化預處理,然后對所有頻帶的分離向量進行聯(lián)合優(yōu)化,收斂后對分離向量進行標準化,得到最終的目標語音分離向量并由此估計出目標語音的時頻域信號;
步驟3,將步驟2估計出的目標語音時頻域信號通過短時傅里葉逆變換,得到時域的目標語音信號。
進一步地,所述步驟1的具體步驟為:利用信號采集系統(tǒng)獲取待處理混合語音的時域信號,對時域信號做短時傅里葉變換,得到待處理混合語音的時頻域信號。
進一步地,所述步驟2中,初始化各頻帶的分離向量采用的是獨熱向量,向量的第一個元素是1,其余元素是0。
進一步地,所述步驟2中,進行白化預處理的具體步驟為:(1)根據(jù)各個頻帶的混合語音時頻域信號計算對應頻帶的協(xié)方差矩陣;(2)將各頻帶的所述協(xié)方差矩陣進行特征值分解,獲取按降序排列的由特征向量構成的特征向量矩陣,以及按降序排列的特征值作為對角元素構成的特征值對角矩陣;(3)根據(jù)所述特征向量矩陣以及特征值對角矩陣得到各頻帶白化的混合語音信號。
進一步地,所述步驟2中,對所有頻帶的分離向量進行聯(lián)合優(yōu)化的具體步驟為:(1)根據(jù)源信號模型選取得分函數(shù),從而獲得代價函數(shù);(2)根據(jù)所述代價函數(shù),利用快速不動點迭代方法得到分離向量的迭代更新規(guī)則;(3)使用所述迭代更新規(guī)則進行迭代直到收斂,得到各頻帶優(yōu)化后的分離向量。
進一步地,所述步驟2中,對分離向量進行標準化的具體步驟為:(1)根據(jù)各個頻帶的協(xié)方差矩陣以及各頻帶優(yōu)化后的分離向量,得到各頻帶混合向量;(2)根據(jù)各頻帶混合向量,對各頻帶優(yōu)化后的分離向量進行標準化,得到各個頻帶最終的目標語音分離向量。
本發(fā)明針對大功率的目標語音信號,實現(xiàn)了一種高效的語音提取方法。該方法能夠有針對性地對多個傳聲器實現(xiàn)多通道環(huán)境下的目標信號進行提取,有利于節(jié)省計算量,提取準確率高,同時保證了恢復出來的源信號的效果。
附圖說明
圖1為本發(fā)明的語音提取方法的流程示意圖;
圖2為本發(fā)明所適用的一個場景示意圖;
圖3是現(xiàn)有的ilrma方法、five方法、ogive-w方法與本發(fā)明方法在不同聲源個數(shù)情況下的sir提升值對比圖。
圖4是現(xiàn)有的five方法、ogive-w方法與本發(fā)明方法在不同聲源個數(shù)情況下對目標信號正確提取率的對比圖。
具體實施方式
本發(fā)明針對大功率的目標語音提取方法主要包括以下幾個部分:
1、信號獲取
1)將兩個以上的傳聲器以線陣列的形式布放來采集聲源的信號,然后通過ad轉換將模擬信號轉換為數(shù)字信號。
2)對信號做短時傅里葉變換
若第m個傳聲器采集到的混合信號為xm(t),對其進行短時傅里葉變換,變換到時-頻域,忽略時間幀數(shù)指標n,第k個頻帶的信號表示為
3)對信號進行白化預處理
對全部k個頻帶,計算xk的協(xié)方差矩陣
其中,
2、對目標信號的分離向量進行優(yōu)化
1)基于負熵的代價函數(shù)
若第n個源信號矢量表示為sn,相應的估計信號表示為yn,為了使各估計信號之間盡可能地獨立,采用負熵來作為獨立性的度量,所以代價函數(shù)可以寫為如下形式:
其中n{yn}代表變量yn的負熵,h{yn}代表變量yn的熵,
其中
上式是對n個源信號非高斯性的求和,所以可以通過尋找單個變量的非高斯性極大值來對某一個源信號進行提取。在很多實際的運用場景,通常目標源信號比起其他干擾信號有更高的功率(例如在所有說話人中目標說話人距離麥克風陣列最近,或者是在嘈雜的環(huán)境中目標說話人有意地提高音量),所以在本實施例中將大功率源信號最為目標信號進行提取。經(jīng)過了白化之后,針對大功率源信號進行提取的代價函數(shù)為:
2)對各頻帶分離向量進行初始化
對所有的k=1,2,…,k,將分離向量
下標o表示初始值,其中e1是獨熱向量(one-hotvector),向量的第一個元素為1,其余元素為0.由于經(jīng)過了白化,白化后的第一個主成分
3)快速不動點迭代
最小化代價函數(shù)的解需要滿足使代價函數(shù)的一階導數(shù)為零的條件,將代價函數(shù)對分離向量進行求導,并利用泰勒展式做近似得到:
下標o表示當前次迭代的參數(shù)。分別用g′(·)和g″(·)表示g(·)的一階和二階導數(shù),可以進一步計算出(8)式右邊的項,
上式最后的等號是由于常用的圓周對稱假設
在每一步迭代之后,都需要對分離向量進行歸一化:
4)源信號分布模型
根據(jù)不同的源信號先驗分布模型,g有不同的形式。本發(fā)明實施例中采用了三種不同的分布:一種是常用的圓周對稱拉普拉斯分布(ssl),相應地
3、對分離向量進行標準化
通過多次的迭代,最后將得到各頻帶收斂后的分離向量的解。為了解決恢復出的信號幅度不確定性,需要對收斂后得到的分離向量再進行標準化。根據(jù)源信號之間正交的假設,混合向量
然后取
4、重建目標信號
1)估計時-頻域目標信號
本實施例的目標是估計出干凈的目標語音信號,各個頻帶的目標信號可以通過如下的式子來計算:
2)重建時域目標信號
最終,將時頻域的目標信號通過短時逆傅里葉變換變換到時域,恢復出時域的目標源信號。
實施例
下面結合附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述。
1、測試樣本及客觀評價標準
本實施例用imagemodel(j.b.allenandd.a.berkley,“imagemethodforefficientlysimulatingsmall-roomacoustics,”j.acoust.soc.am.,vol.65,pp.943–950,1979.)來生成混合信號,仿真房間的尺寸為7m×5m×2.75m,混響時間為200ms。參見圖2,本實施例中有6個可供使用的揚聲器作為聲源,6個傳聲器以間隔為1.25cm排列成線陣列,距地面1.5m,陣列中心的位置在[4,1,1.5](m)處。揚聲器與陣列處于同一水平面,干擾聲源分布在距離陣列中心為1m的圓周上,目標聲源(聲源1)距離陣列中心0.3m,目標源比干擾源的功率高大約10db。干凈語音信號選取自timit語音庫,約10s長,信號采樣率為16khz。本實施例中聲源數(shù)目n從2變化到6,對每個n的取值,相應地選取附圖2中的聲源1到聲源n發(fā)出信號,以及傳聲器1到傳聲器n接收信號,生成30段不同的混合語音樣本。
本實施例采用sir(signal-to-interferenceratio)作為客觀評價標準,其描述了估計信號中目標語音相對其他干擾信號的信干比。
2、參數(shù)設置
1)信號的短時傅里葉變換
短時傅里葉變換使用漢寧窗,窗長為2048,幀移為512。
2)源信號先驗分布模型
在本發(fā)明的提取方法中,源信號分別選取了圓周對稱拉普拉斯分布、多維廣義高斯分布和多維t分布這三種模型,其中多維t分布模型的自由度參數(shù)v取值為4.
3)成功提取的判定
本實施例中將提取算法處理后的輸出sir值(sir_out)與輸入的混合信號的sir值(sir_in)相減,得到經(jīng)過算法處理后的sir提升值(sir_imp),即sir_imp=sir_out-sir_in。若sir_imp>0,則認為提取成功。
3、方法的具體實現(xiàn)流程
參見附圖1,輸入時域混合語音做短時傅里葉變換得到時頻譜并對其進行白化預處理,再按照(7)式對各頻帶的分離向量進行初始化。使用公式(12)(13)進行迭代優(yōu)化。迭代收斂之后采用式(15)進行標準化得到最終的目標語音分離向量
為了體現(xiàn)本發(fā)明方法的性能,本實施例對當下最先進的ilrma方法(d.kitamuraetal.,“determinedblindsourceseparationunifyingindependentvectoranalysisandnonnegativematrixfactorization,”ieee/acmtrans.,audio,speech,lang.process.,vol.24,no.9,pp.1622-1637,2016.)和現(xiàn)有的其他兩種提取方法five(r.scheiblerandn.ono,“fastindependentvectorextractionbyiterativesinrmaximization,”icassp.pp.601-605,ieee,2020.)、ogive-w(z.koldovskyandp.tichavsky,“gradientalgorithmsforcomplexnon-gaussianindependentcomponent/vectorextraction,questionofconvergence,”ieeetrans.signalprocess.,vol.67,no.4,pp.1050-1064,2018.)與本發(fā)明的方法進行對比,圖3給出了只考慮正確提取的情況下,本發(fā)明中采用不同源信號模型的提取方法與ilrma方法、five方法、ogive-w方法處理后的平均sir_imp的對比圖,圖4給出了各提取方法的成功率,圖中“fastive-ssl”表示采用圓周對稱超高斯分布模型的本發(fā)明提取方法,“fastive-gg”表示采用多維廣義高斯分布模型的本發(fā)明提取方法,“fastive-t”表示采用多維t分布模型的本發(fā)明提取方法。從圖3的sir提升值可以看出,本發(fā)明的提取方法相比于其他兩種提取方法(five和ogive-w)有更好的提取效果。從圖4的正確提取率可以看出,本發(fā)明的提取方法能夠保證對目標信號提取的準確率。