本發(fā)明涉及語音技術(shù)、人工智能和量子計算等領域,尤其涉及一種基于最大snr的實時自適應波束形成方法和裝置。
背景技術(shù):
1、隨著智能終端、遠程會議、自動駕駛等領域的快速發(fā)展,語音交互的可靠性需求日益提升。語音信號處理技術(shù)作為語音交互的核心支撐,其性能直接決定交互體驗,其中波束形成技術(shù)因其能通過空域濾波實現(xiàn)語音增強,成為該領域的研究熱點。
2、因此,如何開發(fā)一種基于最大snr的實時自適應波束形成方法和裝置,以適應當前語音交互的技術(shù)支撐,成為本領域亟待解決的技術(shù)問題。
技術(shù)實現(xiàn)思路
1、本發(fā)明旨在解決這些問題,提供一種基于最大snr的實時自適應波束形成方法和裝置,以滿足當前語音交互的技術(shù)支撐。
2、本發(fā)明提供一種基于最大snr的實時自適應波束形成方法,包括以下步驟:
3、對m路麥克風采集的時域音頻信號進行加窗預處理后,執(zhí)行fft變換,得到m×f維的頻域信號矩陣x;
4、基于所述頻域信號矩陣x,采用指數(shù)加權(quán)滑動平均機制更新各頻點的m×m維協(xié)方差矩陣rnow(f);
5、采用sherman-morrison-woodbury矩陣求逆引理對所述協(xié)方差矩陣rnow(f)的逆矩陣rnow-1(f)進行遞歸更新;
6、并行計算各麥克風通道的snr,篩選最優(yōu)參考麥克風并提取對應的波束形成權(quán)重,對每一個頻點f,應用該權(quán)重對頻域信號x(f)進行波束形成處理,得到輸出頻譜y(f);
7、基于最優(yōu)參考麥克風構(gòu)建增益補償機制,對輸出頻譜y(f)進行逐頻點增益補償后,執(zhí)行ifft變換還原為時域信號,輸出增強語音。
8、其中,
9、所述步驟,對m路麥克風采集的時域音頻信號進行加窗預處理后,執(zhí)行fft變換,得到m×f維的頻域信號矩陣x;中包括
10、所述加窗預處理采用漢寧窗抑制頻譜泄漏,所述fft變換將每路時域信號轉(zhuǎn)換為f個頻點的頻域信號;其中,時域信號的采樣率為16khz、幀長為10ms,m為麥克風陣列的麥克風數(shù)量,取值為8,f為頻點總數(shù);
11、所述步驟,基于所述頻域信號矩陣x,采用指數(shù)加權(quán)滑動平均機制更新各頻點的m×m維協(xié)方差矩陣rnow(f);中包括
12、所述指數(shù)加權(quán)滑動平均機制通過遺忘因子α平衡歷史信號特征保留與環(huán)境變化響應速度,協(xié)方差矩陣rnow(f)的更新公式為:
13、,
14、其中,為上一幀對應頻點f的協(xié)方差矩陣,x(f)為當前幀頻點f的m×1維頻域信號向量,表示共軛轉(zhuǎn)置運算,α為遺忘因子,取值范圍為0.8~0.95。
15、其中,
16、所述步驟,采用sherman-morrison-woodbury矩陣求逆引理對所述協(xié)方差矩陣rnow(f)的逆矩陣rnow-1(f)進行遞歸更新;中包括
17、第一幀處理時,逆矩陣rnow-1(f)通過直接求逆得到,公式為:
18、rnow-1(f)=inv(rnow(f))
19、其中,表示矩陣求逆運算;
20、計算標量值k,公式為:
21、其中,為上一幀對應頻點f的協(xié)方差矩陣逆矩陣,α為上述步驟中定義的遺忘因子;
22、當前幀逆矩陣rnow-1(f)的計算公式為:
23、
24、該更新方法將矩陣求逆復雜度從o(m3)降低至o(m2),滿足嵌入式設備實時處理需求。
25、其中,
26、所述步驟,并行計算各麥克風通道的snr,篩選最優(yōu)參考麥克風并提取對應的波束形成權(quán)重,對每一個頻點f,應用該權(quán)重對頻域信號x(f)進行波束形成處理,得到輸出頻譜y(f);中包括,
27、所述snr的最優(yōu)波束形成器選擇的具體過程包括:
28、針對第m個麥克風,構(gòu)造指向該麥克風的m×1維導向矢量,其中第m個元素為1,其余元素為0,對應的波束形成器權(quán)重的計算公式為:
29、其中,m的取值范圍為1~m,為導向矢量的共軛轉(zhuǎn)置;
30、選取0~2000hz對應的頻點計算snr,計算公式為:
31、
32、其中,為頻點f的噪聲協(xié)方差矩陣,通過最小值跟蹤或語音靜止段統(tǒng)計方法估計,分子為波束形成后語音信號功率總和,分母為噪聲信號功率總和;
33、比較m路麥克風的snr計算結(jié)果,選取最大值對應的權(quán)向量作為當前幀的波束形成權(quán)重,應用該權(quán)重得到輸出頻譜。
34、其中,
35、所述步驟,基于最優(yōu)參考麥克風構(gòu)建增益補償機制,對輸出頻譜y(f)進行逐頻點增益補償后,執(zhí)行ifft變換還原為時域信號,輸出增強語音;中包括,
36、構(gòu)造參考麥克風選擇向量sref,該向量在最優(yōu)麥克風索引位置取值為1,其余位置取值為0;
37、計算頻域逐點增益因子g(f),公式為:
38、其中,為最優(yōu)波束形成權(quán)重向量的共軛轉(zhuǎn)置,sref為參考麥克風選擇向量;
39、對輸出頻譜y(f)進行逐頻點修正,得到最終輸出頻譜,公式為:
40、=y(f)/max(g(f),ε)
41、其中,ε為極小值,取值為,用于避免分母為零的情況;
42、對執(zhí)行ifft變換,將頻域信號轉(zhuǎn)回時域,輸出1路高保真增強語音信號,該信號的幅值特性與最優(yōu)參考麥克風采集的原始信號保持一致,無幅度畸變。
43、根據(jù)本發(fā)明的另一方面,本發(fā)明還提供一種基于最大snr的實時自適應波束形成裝置,包括:
44、預處理單元,其配置為,對m路麥克風采集的時域音頻信號進行加窗預處理后,執(zhí)行fft變換,得到m×f維的頻域信號矩陣x;
45、滑動平均處理單元,其配置為,基于所述頻域信號矩陣x,采用指數(shù)加權(quán)滑動平均機制更新各頻點的m×m維協(xié)方差矩陣rnow(f);
46、遞歸更新單元,其配置為,采用sherman-morrison-woodbury矩陣求逆引理對所述協(xié)方差矩陣rnow(f)的逆矩陣rnow-1(f)進行遞歸更新;
47、波束形成處理單元,其配置為,并行計算各麥克風通道的snr,篩選最優(yōu)參考麥克風并提取對應的波束形成權(quán)重,對每一個頻點f,應用該權(quán)重對頻域信號x(f)進行波束形成處理,得到輸出頻譜y(f);
48、輸出單元,其配置為,基于最優(yōu)參考麥克風構(gòu)建增益補償機制,對輸出頻譜y(f)進行逐頻點增益補償后,執(zhí)行ifft變換還原為時域信號,輸出增強語音。
49、其中,
50、所述預處理單元包括
51、所述加窗預處理采用漢寧窗抑制頻譜泄漏,所述fft變換將每路時域信號轉(zhuǎn)換為f個頻點的頻域信號;其中,時域信號的采樣率為16khz、幀長為10ms,m為麥克風陣列的麥克風數(shù)量,取值為8,f為頻點總數(shù);
52、所述滑動平均處理單元包括
53、所述指數(shù)加權(quán)滑動平均機制通過遺忘因子α平衡歷史信號特征保留與環(huán)境變化響應速度,協(xié)方差矩陣rnow(f)的更新公式為:
54、
55、其中,為上一幀對應頻點f的協(xié)方差矩陣,x(f)為當前幀頻點f的m×1維頻域信號向量,表示共軛轉(zhuǎn)置運算,α為遺忘因子,取值范圍為0.8~0.95。
56、其中,
57、所述遞歸更新單元包括
58、第一幀處理時,逆矩陣rnow-1(f)通過直接求逆得到,公式為:
59、rnow-1(f)=inv(rnow(f))
60、其中,表示矩陣求逆運算;
61、計算標量值k,公式為:
62、其中,為上一幀對應頻點f的協(xié)方差矩陣逆矩陣,α為上述步驟中定義的遺忘因子;
63、當前幀逆矩陣rnow-1(f)的計算公式為:
64、
65、該更新方法將矩陣求逆復雜度從o(m3)降低至o(m2),滿足嵌入式設備實時處理需求。
66、其中,
67、所述波束形成處理單元包括,
68、所述snr的最優(yōu)波束形成器選擇的具體過程包括:
69、針對第m個麥克風,構(gòu)造指向該麥克風的m×1維導向矢量,其中第m個元素為1,其余元素為0,對應的波束形成器權(quán)重的計算公式為:
70、其中,m的取值范圍為1~m,為導向矢量的共軛轉(zhuǎn)置;
71、選取0~2000hz對應的頻點計算snr,計算公式為:
72、
73、其中,為頻點f的噪聲協(xié)方差矩陣,通過最小值跟蹤或語音靜止段統(tǒng)計方法估計,分子為波束形成后語音信號功率總和,分母為噪聲信號功率總和;
74、比較m路麥克風的snr計算結(jié)果,選取最大值對應的權(quán)向量作為當前幀的波束形成權(quán)重,應用該權(quán)重得到輸出頻譜。
75、其中,
76、所述輸出單元包括,
77、構(gòu)造參考麥克風選擇向量sref,該向量在最優(yōu)麥克風索引位置取值為1,其余位置取值為0;
78、計算頻域逐點增益因子g(f),公式為:
79、其中,為最優(yōu)波束形成權(quán)重向量的共軛轉(zhuǎn)置,sref為參考麥克風選擇向量;
80、對輸出頻譜y(f)進行逐頻點修正,得到最終輸出頻譜,公式為:
81、=y(f)/max(g(f),ε)
82、其中,ε為極小值,取值為,用于避免分母為零的情況;
83、對執(zhí)行ifft變換,將頻域信號轉(zhuǎn)回時域,輸出1路高保真增強語音信號,該信號的幅值特性與最優(yōu)參考麥克風采集的原始信號保持一致,無幅度畸變。
84、本發(fā)明涉及一種基于最大snr的實時自適應波束形成方法,包括,對m路麥克風采集的時域音頻信號進行加窗預處理后,執(zhí)行fft變換,得到m×f維的頻域信號矩陣x;基于所述頻域信號矩陣x,采用指數(shù)加權(quán)滑動平均機制更新各頻點的m×m維協(xié)方差矩陣rnow(f);采用sherman-morrison-woodbury矩陣求逆引理對所述協(xié)方差矩陣rnow(f)的逆矩陣rnow-1(f)進行遞歸更新;并行計算各麥克風通道的snr,篩選最優(yōu)參考麥克風并提取對應的波束形成權(quán)重,對每一個頻點f,應用該權(quán)重對頻域信號x(f)進行波束形成處理,得到輸出頻譜y(f);基于最優(yōu)參考麥克風構(gòu)建增益補償機制,對輸出頻譜y(f)進行逐頻點增益補償后,執(zhí)行ifft變換還原為時域信號,輸出增強語音。
85、該方法能夠有效應對聲源位置的不確定性,從而提升語音增強的魯棒性。該技術(shù)通過麥克風陣列采集語音信號,將時域語音信號轉(zhuǎn)換到頻域進行處理,通過動態(tài)更新語音信號頻譜的協(xié)方差矩陣與逆矩陣來優(yōu)化波束形成器權(quán)重,無需先驗聲源doa信息,基于snr評估即可篩選出最優(yōu)麥克風通道,對應用最優(yōu)波束形成器的頻譜進行增益補償,最終將頻域語音轉(zhuǎn)換為時域語音,即可輸出高保真的增強語音。
86、上述說明僅是本方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的具體實施方式。