一種基于最大SNR的實時自適應波束形成方法和裝置與流程

文檔序號：45268973發(fā)布日期：2026-04-17 20:03閱讀：14來源：國知局

本發(fā)明涉及語音技術(shù)、人工智能和量子計算等領域，尤其涉及一種基于最大snr的實時自適應波束形成方法和裝置。

背景技術(shù)：

1、隨著智能終端、遠程會議、自動駕駛等領域的快速發(fā)展，語音交互的可靠性需求日益提升。語音信號處理技術(shù)作為語音交互的核心支撐，其性能直接決定交互體驗，其中波束形成技術(shù)因其能通過空域濾波實現(xiàn)語音增強，成為該領域的研究熱點。

2、因此，如何開發(fā)一種基于最大snr的實時自適應波束形成方法和裝置，以適應當前語音交互的技術(shù)支撐，成為本領域亟待解決的技術(shù)問題。

技術(shù)實現(xiàn)思路

1、本發(fā)明旨在解決這些問題，提供一種基于最大snr的實時自適應波束形成方法和裝置，以滿足當前語音交互的技術(shù)支撐。

2、本發(fā)明提供一種基于最大snr的實時自適應波束形成方法，包括以下步驟：

3、對m路麥克風采集的時域音頻信號進行加窗預處理后，執(zhí)行fft變換，得到m×f維的頻域信號矩陣x；

4、基于所述頻域信號矩陣x，采用指數(shù)加權(quán)滑動平均機制更新各頻點的m×m維協(xié)方差矩陣rnow(f)；

5、采用sherman-morrison-woodbury矩陣求逆引理對所述協(xié)方差矩陣rnow(f)的逆矩陣rnow-1(f)進行遞歸更新；

6、并行計算各麥克風通道的snr，篩選最優(yōu)參考麥克風并提取對應的波束形成權(quán)重，對每一個頻點f，應用該權(quán)重對頻域信號x(f)進行波束形成處理，得到輸出頻譜y(f)；

7、基于最優(yōu)參考麥克風構(gòu)建增益補償機制，對輸出頻譜y(f)進行逐頻點增益補償后，執(zhí)行ifft變換還原為時域信號，輸出增強語音。

8、其中，

9、所述步驟，對m路麥克風采集的時域音頻信號進行加窗預處理后，執(zhí)行fft變換，得到m×f維的頻域信號矩陣x；中包括

10、所述加窗預處理采用漢寧窗抑制頻譜泄漏，所述fft變換將每路時域信號轉(zhuǎn)換為f個頻點的頻域信號；其中，時域信號的采樣率為16khz、幀長為10ms，m為麥克風陣列的麥克風數(shù)量，取值為8，f為頻點總數(shù)；

11、所述步驟，基于所述頻域信號矩陣x，采用指數(shù)加權(quán)滑動平均機制更新各頻點的m×m維協(xié)方差矩陣rnow(f)；中包括

12、所述指數(shù)加權(quán)滑動平均機制通過遺忘因子α平衡歷史信號特征保留與環(huán)境變化響應速度，協(xié)方差矩陣rnow(f)的更新公式為：

13、，

14、其中，為上一幀對應頻點f的協(xié)方差矩陣，x(f)為當前幀頻點f的m×1維頻域信號向量，表示共軛轉(zhuǎn)置運算，α為遺忘因子，取值范圍為0.8~0.95。

15、其中，

16、所述步驟，采用sherman-morrison-woodbury矩陣求逆引理對所述協(xié)方差矩陣rnow(f)的逆矩陣rnow-1(f)進行遞歸更新；中包括

17、第一幀處理時，逆矩陣rnow-1(f)通過直接求逆得到，公式為：

18、rnow-1(f)=inv(rnow(f))

19、其中，表示矩陣求逆運算；

20、計算標量值k，公式為：

21、其中，為上一幀對應頻點f的協(xié)方差矩陣逆矩陣，α為上述步驟中定義的遺忘因子；

22、當前幀逆矩陣rnow-1(f)的計算公式為：

23、

24、該更新方法將矩陣求逆復雜度從o(m3)降低至o(m2)，滿足嵌入式設備實時處理需求。

25、其中，

26、所述步驟，并行計算各麥克風通道的snr，篩選最優(yōu)參考麥克風并提取對應的波束形成權(quán)重，對每一個頻點f，應用該權(quán)重對頻域信號x(f)進行波束形成處理，得到輸出頻譜y(f)；中包括，

27、所述snr的最優(yōu)波束形成器選擇的具體過程包括：

28、針對第m個麥克風，構(gòu)造指向該麥克風的m×1維導向矢量，其中第m個元素為1，其余元素為0，對應的波束形成器權(quán)重的計算公式為：

29、其中，m的取值范圍為1~m，為導向矢量的共軛轉(zhuǎn)置；

30、選取0~2000hz對應的頻點計算snr，計算公式為：

31、

32、其中，為頻點f的噪聲協(xié)方差矩陣，通過最小值跟蹤或語音靜止段統(tǒng)計方法估計，分子為波束形成后語音信號功率總和，分母為噪聲信號功率總和；

33、比較m路麥克風的snr計算結(jié)果，選取最大值對應的權(quán)向量作為當前幀的波束形成權(quán)重，應用該權(quán)重得到輸出頻譜。

34、其中，

35、所述步驟，基于最優(yōu)參考麥克風構(gòu)建增益補償機制，對輸出頻譜y(f)進行逐頻點增益補償后，執(zhí)行ifft變換還原為時域信號，輸出增強語音；中包括，

36、構(gòu)造參考麥克風選擇向量sref，該向量在最優(yōu)麥克風索引位置取值為1，其余位置取值為0；

37、計算頻域逐點增益因子g(f)，公式為：

38、其中，為最優(yōu)波束形成權(quán)重向量的共軛轉(zhuǎn)置，sref為參考麥克風選擇向量；

39、對輸出頻譜y(f)進行逐頻點修正，得到最終輸出頻譜，公式為：

40、=y(f)/max(g(f),ε)

41、其中，ε為極小值，取值為，用于避免分母為零的情況；

42、對執(zhí)行ifft變換，將頻域信號轉(zhuǎn)回時域，輸出1路高保真增強語音信號，該信號的幅值特性與最優(yōu)參考麥克風采集的原始信號保持一致，無幅度畸變。

43、根據(jù)本發(fā)明的另一方面，本發(fā)明還提供一種基于最大snr的實時自適應波束形成裝置，包括：

44、預處理單元，其配置為，對m路麥克風采集的時域音頻信號進行加窗預處理后，執(zhí)行fft變換，得到m×f維的頻域信號矩陣x；

45、滑動平均處理單元，其配置為，基于所述頻域信號矩陣x，采用指數(shù)加權(quán)滑動平均機制更新各頻點的m×m維協(xié)方差矩陣rnow(f)；

46、遞歸更新單元，其配置為，采用sherman-morrison-woodbury矩陣求逆引理對所述協(xié)方差矩陣rnow(f)的逆矩陣rnow-1(f)進行遞歸更新；

47、波束形成處理單元，其配置為，并行計算各麥克風通道的snr，篩選最優(yōu)參考麥克風并提取對應的波束形成權(quán)重，對每一個頻點f，應用該權(quán)重對頻域信號x(f)進行波束形成處理，得到輸出頻譜y(f)；

48、輸出單元，其配置為，基于最優(yōu)參考麥克風構(gòu)建增益補償機制，對輸出頻譜y(f)進行逐頻點增益補償后，執(zhí)行ifft變換還原為時域信號，輸出增強語音。

49、其中，

50、所述預處理單元包括

51、所述加窗預處理采用漢寧窗抑制頻譜泄漏，所述fft變換將每路時域信號轉(zhuǎn)換為f個頻點的頻域信號；其中，時域信號的采樣率為16khz、幀長為10ms，m為麥克風陣列的麥克風數(shù)量，取值為8，f為頻點總數(shù)；

52、所述滑動平均處理單元包括

53、所述指數(shù)加權(quán)滑動平均機制通過遺忘因子α平衡歷史信號特征保留與環(huán)境變化響應速度，協(xié)方差矩陣rnow(f)的更新公式為：

54、

55、其中，為上一幀對應頻點f的協(xié)方差矩陣，x(f)為當前幀頻點f的m×1維頻域信號向量，表示共軛轉(zhuǎn)置運算，α為遺忘因子，取值范圍為0.8~0.95。

56、其中，

57、所述遞歸更新單元包括

58、第一幀處理時，逆矩陣rnow-1(f)通過直接求逆得到，公式為：

59、rnow-1(f)=inv(rnow(f))

60、其中，表示矩陣求逆運算；

61、計算標量值k，公式為：

62、其中，為上一幀對應頻點f的協(xié)方差矩陣逆矩陣，α為上述步驟中定義的遺忘因子；

63、當前幀逆矩陣rnow-1(f)的計算公式為：

64、

65、該更新方法將矩陣求逆復雜度從o(m3)降低至o(m2)，滿足嵌入式設備實時處理需求。

66、其中，

67、所述波束形成處理單元包括，

68、所述snr的最優(yōu)波束形成器選擇的具體過程包括：

69、針對第m個麥克風，構(gòu)造指向該麥克風的m×1維導向矢量，其中第m個元素為1，其余元素為0，對應的波束形成器權(quán)重的計算公式為：

70、其中，m的取值范圍為1~m，為導向矢量的共軛轉(zhuǎn)置；

71、選取0~2000hz對應的頻點計算snr，計算公式為：

72、

73、其中，為頻點f的噪聲協(xié)方差矩陣，通過最小值跟蹤或語音靜止段統(tǒng)計方法估計，分子為波束形成后語音信號功率總和，分母為噪聲信號功率總和；

74、比較m路麥克風的snr計算結(jié)果，選取最大值對應的權(quán)向量作為當前幀的波束形成權(quán)重，應用該權(quán)重得到輸出頻譜。

75、其中，

76、所述輸出單元包括，

77、構(gòu)造參考麥克風選擇向量sref，該向量在最優(yōu)麥克風索引位置取值為1，其余位置取值為0；

78、計算頻域逐點增益因子g(f)，公式為：

79、其中，為最優(yōu)波束形成權(quán)重向量的共軛轉(zhuǎn)置，sref為參考麥克風選擇向量；

80、對輸出頻譜y(f)進行逐頻點修正，得到最終輸出頻譜，公式為：

81、=y(f)/max(g(f),ε)

82、其中，ε為極小值，取值為，用于避免分母為零的情況；

83、對執(zhí)行ifft變換，將頻域信號轉(zhuǎn)回時域，輸出1路高保真增強語音信號，該信號的幅值特性與最優(yōu)參考麥克風采集的原始信號保持一致，無幅度畸變。

84、本發(fā)明涉及一種基于最大snr的實時自適應波束形成方法，包括，對m路麥克風采集的時域音頻信號進行加窗預處理后，執(zhí)行fft變換，得到m×f維的頻域信號矩陣x；基于所述頻域信號矩陣x，采用指數(shù)加權(quán)滑動平均機制更新各頻點的m×m維協(xié)方差矩陣rnow(f)；采用sherman-morrison-woodbury矩陣求逆引理對所述協(xié)方差矩陣rnow(f)的逆矩陣rnow-1(f)進行遞歸更新；并行計算各麥克風通道的snr，篩選最優(yōu)參考麥克風并提取對應的波束形成權(quán)重，對每一個頻點f，應用該權(quán)重對頻域信號x(f)進行波束形成處理，得到輸出頻譜y(f)；基于最優(yōu)參考麥克風構(gòu)建增益補償機制，對輸出頻譜y(f)進行逐頻點增益補償后，執(zhí)行ifft變換還原為時域信號，輸出增強語音。

85、該方法能夠有效應對聲源位置的不確定性，從而提升語音增強的魯棒性。該技術(shù)通過麥克風陣列采集語音信號，將時域語音信號轉(zhuǎn)換到頻域進行處理，通過動態(tài)更新語音信號頻譜的協(xié)方差矩陣與逆矩陣來優(yōu)化波束形成器權(quán)重，無需先驗聲源doa信息，基于snr評估即可篩選出最優(yōu)麥克風通道，對應用最優(yōu)波束形成器的頻譜進行增益補償，最終將頻域語音轉(zhuǎn)換為時域語音，即可輸出高保真的增強語音。

86、上述說明僅是本方案的概述，為了能夠更清楚了解本發(fā)明的技術(shù)手段，而可依照說明書的內(nèi)容予以實施，并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂，以下特舉本發(fā)明的具體實施方式。

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張龍彬,秦兆銳,范國強,何佳文
技術(shù)所有人：北京麥哲科技有限公司
我是此專利的發(fā)明人

網(wǎng)友詢問留言留言:0條

還沒有人留言評論。精彩留言會獲得點贊！

文明留言，給您點贊！

同類技術(shù)