一種基于多尺度空間特征與坐標(biāo)注意力融合的聲事件檢測(cè)方法

文檔序號(hào)：45761709發(fā)布日期：2026-06-10 00:49閱讀：1來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明屬于聲事件檢測(cè)，具體涉及一種基于多尺度空間特征與坐標(biāo)注意力融合的聲事件檢測(cè)方法。

背景技術(shù)：

1、聲事件檢測(cè)(sound?event?detection，sed)是語(yǔ)音信號(hào)處理領(lǐng)域的重要研究方向，其目標(biāo)是在連續(xù)音頻流中識(shí)別目標(biāo)聲音事件的類別，并精確給出其發(fā)生時(shí)間和結(jié)束時(shí)間，從而精確的定位事件。隨著人工智能和物聯(lián)網(wǎng)技術(shù)的快速發(fā)展，智能家居、智慧安防、老年人看護(hù)、工業(yè)設(shè)備監(jiān)測(cè)等系統(tǒng)在運(yùn)行過(guò)程中需要實(shí)時(shí)識(shí)別關(guān)鍵聲音事件。

2、隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展，各種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)已被廣泛應(yīng)用于聲音特征處理領(lǐng)域并取得了顯著的效果，如crnn（卷積循環(huán)神經(jīng)網(wǎng)絡(luò)）和transformer等。然而，現(xiàn)實(shí)環(huán)境中的音頻數(shù)據(jù)往往存在復(fù)雜的背景噪聲、多聲源重疊發(fā)聲以及聲音持續(xù)時(shí)間跨度差異極大（例如短促的撞擊聲與長(zhǎng)時(shí)的警報(bào)聲）等現(xiàn)象。常見的神經(jīng)網(wǎng)絡(luò)模型在提取音頻時(shí)頻特征時(shí)，通常采用固定尺寸的卷積感受野，缺乏對(duì)多尺度時(shí)間跨度信息的捕獲能力，且無(wú)法在復(fù)雜的時(shí)頻空間中精準(zhǔn)聚焦具有判別性的目標(biāo)特征，容易受到環(huán)境噪聲的干擾而產(chǎn)生誤報(bào)。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于提出一種基于多尺度空間特征與坐標(biāo)注意力融合的聲事件檢測(cè)方法，以解決現(xiàn)有聲事件檢測(cè)方法中網(wǎng)絡(luò)感受野受限導(dǎo)致難以捕獲多尺度時(shí)間跨度特征，且無(wú)法在復(fù)雜時(shí)頻空間中精準(zhǔn)聚焦目標(biāo)聲音并抑制噪聲的問(wèn)題，從而提高聲事件檢測(cè)的準(zhǔn)確性和魯棒性。

2、為實(shí)現(xiàn)上述發(fā)明目的，本發(fā)明采用如下技術(shù)方案：

3、本發(fā)明提供一種基于多尺度空間特征與坐標(biāo)注意力融合的聲事件檢測(cè)方法，包括以下七個(gè)步驟：

4、步驟一：獲取待檢測(cè)的原始音頻信號(hào)；

5、步驟二：對(duì)所述待檢測(cè)的音頻信號(hào)進(jìn)行預(yù)處理得到音頻時(shí)頻特征；

6、步驟三：對(duì)數(shù)據(jù)預(yù)處理后的音頻時(shí)頻特征進(jìn)行數(shù)據(jù)增強(qiáng)；

7、步驟四：對(duì)數(shù)據(jù)增強(qiáng)后的音頻時(shí)頻特征進(jìn)行特征提取，包括初始空間特征提取與多尺度坐標(biāo)注意力深度特征提取，得到深度特征；

8、步驟五：對(duì)提取的深度特征進(jìn)行上下文信息提取與時(shí)序建模，得到時(shí)序特征；

9、步驟六：將所述時(shí)序特征輸入分類器，得到待檢測(cè)的音頻信號(hào)的幀級(jí)別與片段級(jí)別聲音事件檢測(cè)結(jié)果；

10、步驟七：對(duì)所述幀級(jí)別與片段級(jí)別聲音事件檢測(cè)結(jié)果進(jìn)行后處理與解碼，得到待檢測(cè)聲事件檢測(cè)結(jié)果。

11、所述對(duì)所述的待檢測(cè)的音頻信號(hào)進(jìn)行預(yù)處理得到音頻時(shí)頻特征，包括：

12、將所述待檢測(cè)的音頻信號(hào)進(jìn)行單聲道轉(zhuǎn)換與長(zhǎng)度對(duì)齊；

13、對(duì)長(zhǎng)度對(duì)齊后的信號(hào)進(jìn)行極值歸一化處理；

14、將歸一化處理后的信號(hào)進(jìn)行短時(shí)傅里葉變換與梅爾濾波器組映射，并取對(duì)數(shù)得到二維的對(duì)數(shù)梅爾頻譜圖作為音頻時(shí)頻特征。

15、所述對(duì)數(shù)據(jù)預(yù)處理后的音頻時(shí)頻特征進(jìn)行數(shù)據(jù)增強(qiáng)，包括：

16、將數(shù)據(jù)預(yù)處理后的音頻時(shí)頻特征沿著時(shí)間軸進(jìn)行服從高斯分布的隨機(jī)移動(dòng)時(shí)間幀，得到第一增強(qiáng)結(jié)果；

17、采用服從貝塔分布的混合參數(shù)對(duì)同批次預(yù)處理后的音頻時(shí)頻特征及其標(biāo)簽進(jìn)行隨機(jī)線性混合，得到第二增強(qiáng)結(jié)果；

18、在頻率維度上隨機(jī)劃分頻帶并應(yīng)用對(duì)數(shù)級(jí)隨機(jī)增益乘子構(gòu)成的動(dòng)態(tài)濾波器進(jìn)行頻響擾動(dòng)，得到第三增強(qiáng)結(jié)果；

19、根據(jù)掩碼選取需要掩蔽的時(shí)間或頻率窗口，對(duì)選定的窗口進(jìn)行連續(xù)特征幀的屏蔽，得到第四增強(qiáng)結(jié)果；

20、將第四增強(qiáng)結(jié)果作為音頻時(shí)頻特征的數(shù)據(jù)增強(qiáng)的結(jié)果。

21、所述對(duì)數(shù)據(jù)增強(qiáng)后的音頻時(shí)頻特征進(jìn)行特征提取，包括：

22、將數(shù)據(jù)增強(qiáng)后的音頻時(shí)頻特征輸入cnn模塊進(jìn)行初步特征提取，得到初始特征；

23、將初始特征輸入多尺度坐標(biāo)注意力模塊進(jìn)行深入特征提取，得到深入特征提取結(jié)果。

24、所述將數(shù)據(jù)增強(qiáng)后的音頻時(shí)頻特征輸入cnn模塊進(jìn)行初步特征提取，得到初始特征，包括：

25、將數(shù)據(jù)預(yù)處理后的音頻時(shí)頻特征輸入二維卷積層進(jìn)行特征提取；

26、將二維卷積層的輸出輸入到歸一化層進(jìn)行歸一化處理；

27、將歸一化處理后的結(jié)果輸入到glu門控線性單元進(jìn)行非線性激活處理；

28、將非線性激活處理后的結(jié)果輸入到平均池化層進(jìn)行池化下采樣處理，得到降維結(jié)果；

29、將上述步驟循環(huán)迭代多層，將最后一層平均池化層的輸出結(jié)果作為初始特征。

30、所述將初始特征輸入多尺度坐標(biāo)注意力模塊進(jìn)行深入特征提取，得到深入特征提取結(jié)果，包括以下十個(gè)步驟：

31、步驟一：將所述初始特征分別輸入多個(gè)并行的特征提取分支中，所述分支包括一個(gè)1×1卷積分支、多個(gè)僅在時(shí)間維度上設(shè)置空洞率的空洞卷積分支，以及一個(gè)全局平均池化分支，分別獲取不同感受野下的局部與全局特征；

32、步驟二：將所述全局平均池化分支的輸出進(jìn)行雙線性插值上采樣，隨后將所有分支的特征在通道維度上進(jìn)行拼接，得到拼接特征；

33、步驟三：將所述拼接特征輸入特征融合層進(jìn)行降維，得到多尺度融合特征；

34、步驟四：對(duì)所述多尺度融合特征分別沿頻率維度和時(shí)間維度進(jìn)行一維自適應(yīng)平均池化，得到水平聚合特征與垂直聚合特征；

35、步驟五：將所述水平聚合特征與垂直聚合特征在空間維度進(jìn)行拼接，得到中間特征；

36、步驟六：將所述中間特征輸入第一卷積層與非線性激活函數(shù)進(jìn)行特征聯(lián)合編碼；

37、步驟七：將編碼后的中間特征沿原拼接維度切分為水平張量與垂直張量；

38、步驟八：將所述水平張量與垂直張量分別輸入第二卷積層與第三卷積層；

39、步驟九：將第二卷積層與第三卷積層的輸出分別輸入到sigmoid激活函數(shù)中，得到時(shí)間維度注意力權(quán)重與頻率維度注意力權(quán)重；

40、步驟十：將所述多尺度融合特征與所述時(shí)間維度注意力權(quán)重、頻率維度注意力權(quán)重進(jìn)行逐元素相乘，得到最終的深入特征提取結(jié)果。

41、所述多尺度坐標(biāo)注意力模塊中坐標(biāo)注意力單元，用于對(duì)輸入的多尺度融合特征進(jìn)行雙軸時(shí)頻解耦與注意力重標(biāo)定，計(jì)算式如下：

42、

43、

44、

45、其中，為深入特征提取結(jié)果，c表示第c個(gè)特征通道，h為時(shí)間維度的高度，w為頻率維度的寬度，為沿頻率維度池化后得到的時(shí)間高度h上的水平聚合特征，為沿時(shí)間維度池化后得到的頻率寬度w上的垂直聚合特征，w為頻率維度的總寬度尺寸，h為時(shí)間維度的總高度尺寸，和為參與一維自適應(yīng)平均池化計(jì)算的特征元素值，為融合后的多尺度特征值，為對(duì)應(yīng)第c個(gè)通道的時(shí)間維度注意力權(quán)重，為對(duì)應(yīng)第c個(gè)通道的頻率維度注意力權(quán)重。

46、所述對(duì)提取的深度空間特征進(jìn)行上下文信息提取與時(shí)序建模，得到時(shí)序特征，以及將所述時(shí)序特征輸入分類器，包括：

47、將提取的深度空間特征的頻率維度進(jìn)行折疊壓縮，并輸入雙向門控循環(huán)單元bigru模塊進(jìn)行上下文時(shí)序建模，得到第一分支特征；

48、將所述bigru模塊的輸出分別輸入至強(qiáng)標(biāo)簽分類全連接層與注意力權(quán)重全連接層；

49、所述強(qiáng)標(biāo)簽分類全連接層輸出包含每一時(shí)間幀預(yù)測(cè)概率的強(qiáng)標(biāo)簽預(yù)測(cè)結(jié)果；

50、所述注意力權(quán)重全連接層經(jīng)過(guò)softmax激活后輸出每一時(shí)間幀的注意力權(quán)重，利用所述注意力權(quán)重對(duì)所述強(qiáng)標(biāo)簽預(yù)測(cè)結(jié)果進(jìn)行加權(quán)求和池化，得到包含整段音頻預(yù)測(cè)概率的弱標(biāo)簽預(yù)測(cè)結(jié)果。

51、本發(fā)明具有以下有益效果：

52、（1）.在模型中引入多尺度坐標(biāo)注意力模塊，一方面顯著增強(qiáng)了模型對(duì)多尺度聲音事件的捕獲能力，使得網(wǎng)絡(luò)能夠同時(shí)精準(zhǔn)捕獲短促瞬態(tài)聲音（如玻璃破碎聲）的微觀聲學(xué)紋理與長(zhǎng)時(shí)持續(xù)聲音（如引擎轟鳴聲、警報(bào)聲）的宏觀上下文信息，另一方面實(shí)現(xiàn)了時(shí)頻特征的精準(zhǔn)解耦與定向聚焦，從而在復(fù)雜的時(shí)頻特征圖中實(shí)現(xiàn)了目標(biāo)聲音的精準(zhǔn)定位。

53、（2）.在模型中引入多尺度坐標(biāo)注意力模塊，可以顯著提高聲事件檢測(cè)的準(zhǔn)確性和魯棒性。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：苗俊豪,鄭卓遠(yuǎn)
技術(shù)所有人：桂林電子科技大學(xué)
我是此專利的發(fā)明人

上一篇：提鋰渣的資源利用方法與流程
下一篇：模型推理方法、裝置及電子設(shè)備與流程

網(wǎng)友詢問(wèn)留言留言:0條

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

文明留言，給您點(diǎn)贊！

同類技術(shù)