本發(fā)明屬于聲事件檢測(cè),具體涉及一種基于多尺度空間特征與坐標(biāo)注意力融合的聲事件檢測(cè)方法。
背景技術(shù):
1、聲事件檢測(cè)(sound?event?detection,sed)是語(yǔ)音信號(hào)處理領(lǐng)域的重要研究方向,其目標(biāo)是在連續(xù)音頻流中識(shí)別目標(biāo)聲音事件的類別,并精確給出其發(fā)生時(shí)間和結(jié)束時(shí)間,從而精確的定位事件。隨著人工智能和物聯(lián)網(wǎng)技術(shù)的快速發(fā)展,智能家居、智慧安防、老年人看護(hù)、工業(yè)設(shè)備監(jiān)測(cè)等系統(tǒng)在運(yùn)行過(guò)程中需要實(shí)時(shí)識(shí)別關(guān)鍵聲音事件。
2、隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,各種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)已被廣泛應(yīng)用于聲音特征處理領(lǐng)域并取得了顯著的效果,如crnn(卷積循環(huán)神經(jīng)網(wǎng)絡(luò))和transformer等。然而,現(xiàn)實(shí)環(huán)境中的音頻數(shù)據(jù)往往存在復(fù)雜的背景噪聲、多聲源重疊發(fā)聲以及聲音持續(xù)時(shí)間跨度差異極大(例如短促的撞擊聲與長(zhǎng)時(shí)的警報(bào)聲)等現(xiàn)象。常見的神經(jīng)網(wǎng)絡(luò)模型在提取音頻時(shí)頻特征時(shí),通常采用固定尺寸的卷積感受野,缺乏對(duì)多尺度時(shí)間跨度信息的捕獲能力,且無(wú)法在復(fù)雜的時(shí)頻空間中精準(zhǔn)聚焦具有判別性的目標(biāo)特征,容易受到環(huán)境噪聲的干擾而產(chǎn)生誤報(bào)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提出一種基于多尺度空間特征與坐標(biāo)注意力融合的聲事件檢測(cè)方法,以解決現(xiàn)有聲事件檢測(cè)方法中網(wǎng)絡(luò)感受野受限導(dǎo)致難以捕獲多尺度時(shí)間跨度特征,且無(wú)法在復(fù)雜時(shí)頻空間中精準(zhǔn)聚焦目標(biāo)聲音并抑制噪聲的問(wèn)題,從而提高聲事件檢測(cè)的準(zhǔn)確性和魯棒性。
2、為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明采用如下技術(shù)方案:
3、本發(fā)明提供一種基于多尺度空間特征與坐標(biāo)注意力融合的聲事件檢測(cè)方法,包括以下七個(gè)步驟:
4、步驟一:獲取待檢測(cè)的原始音頻信號(hào);
5、步驟二:對(duì)所述待檢測(cè)的音頻信號(hào)進(jìn)行預(yù)處理得到音頻時(shí)頻特征;
6、步驟三:對(duì)數(shù)據(jù)預(yù)處理后的音頻時(shí)頻特征進(jìn)行數(shù)據(jù)增強(qiáng);
7、步驟四:對(duì)數(shù)據(jù)增強(qiáng)后的音頻時(shí)頻特征進(jìn)行特征提取,包括初始空間特征提取與多尺度坐標(biāo)注意力深度特征提取,得到深度特征;
8、步驟五:對(duì)提取的深度特征進(jìn)行上下文信息提取與時(shí)序建模,得到時(shí)序特征;
9、步驟六:將所述時(shí)序特征輸入分類器,得到待檢測(cè)的音頻信號(hào)的幀級(jí)別與片段級(jí)別聲音事件檢測(cè)結(jié)果;
10、步驟七:對(duì)所述幀級(jí)別與片段級(jí)別聲音事件檢測(cè)結(jié)果進(jìn)行后處理與解碼,得到待檢測(cè)聲事件檢測(cè)結(jié)果。
11、所述對(duì)所述的待檢測(cè)的音頻信號(hào)進(jìn)行預(yù)處理得到音頻時(shí)頻特征,包括:
12、將所述待檢測(cè)的音頻信號(hào)進(jìn)行單聲道轉(zhuǎn)換與長(zhǎng)度對(duì)齊;
13、對(duì)長(zhǎng)度對(duì)齊后的信號(hào)進(jìn)行極值歸一化處理;
14、將歸一化處理后的信號(hào)進(jìn)行短時(shí)傅里葉變換與梅爾濾波器組映射,并取對(duì)數(shù)得到二維的對(duì)數(shù)梅爾頻譜圖作為音頻時(shí)頻特征。
15、所述對(duì)數(shù)據(jù)預(yù)處理后的音頻時(shí)頻特征進(jìn)行數(shù)據(jù)增強(qiáng),包括:
16、將數(shù)據(jù)預(yù)處理后的音頻時(shí)頻特征沿著時(shí)間軸進(jìn)行服從高斯分布的隨機(jī)移動(dòng)時(shí)間幀,得到第一增強(qiáng)結(jié)果;
17、采用服從貝塔分布的混合參數(shù)對(duì)同批次預(yù)處理后的音頻時(shí)頻特征及其標(biāo)簽進(jìn)行隨機(jī)線性混合,得到第二增強(qiáng)結(jié)果;
18、在頻率維度上隨機(jī)劃分頻帶并應(yīng)用對(duì)數(shù)級(jí)隨機(jī)增益乘子構(gòu)成的動(dòng)態(tài)濾波器進(jìn)行頻響擾動(dòng),得到第三增強(qiáng)結(jié)果;
19、根據(jù)掩碼選取需要掩蔽的時(shí)間或頻率窗口,對(duì)選定的窗口進(jìn)行連續(xù)特征幀的屏蔽,得到第四增強(qiáng)結(jié)果;
20、將第四增強(qiáng)結(jié)果作為音頻時(shí)頻特征的數(shù)據(jù)增強(qiáng)的結(jié)果。
21、所述對(duì)數(shù)據(jù)增強(qiáng)后的音頻時(shí)頻特征進(jìn)行特征提取,包括:
22、將數(shù)據(jù)增強(qiáng)后的音頻時(shí)頻特征輸入cnn模塊進(jìn)行初步特征提取,得到初始特征;
23、將初始特征輸入多尺度坐標(biāo)注意力模塊進(jìn)行深入特征提取,得到深入特征提取結(jié)果。
24、所述將數(shù)據(jù)增強(qiáng)后的音頻時(shí)頻特征輸入cnn模塊進(jìn)行初步特征提取,得到初始特征,包括:
25、將數(shù)據(jù)預(yù)處理后的音頻時(shí)頻特征輸入二維卷積層進(jìn)行特征提取;
26、將二維卷積層的輸出輸入到歸一化層進(jìn)行歸一化處理;
27、將歸一化處理后的結(jié)果輸入到glu門控線性單元進(jìn)行非線性激活處理;
28、將非線性激活處理后的結(jié)果輸入到平均池化層進(jìn)行池化下采樣處理,得到降維結(jié)果;
29、將上述步驟循環(huán)迭代多層,將最后一層平均池化層的輸出結(jié)果作為初始特征。
30、所述將初始特征輸入多尺度坐標(biāo)注意力模塊進(jìn)行深入特征提取,得到深入特征提取結(jié)果,包括以下十個(gè)步驟:
31、步驟一:將所述初始特征分別輸入多個(gè)并行的特征提取分支中,所述分支包括一個(gè)1×1卷積分支、多個(gè)僅在時(shí)間維度上設(shè)置空洞率的空洞卷積分支,以及一個(gè)全局平均池化分支,分別獲取不同感受野下的局部與全局特征;
32、步驟二:將所述全局平均池化分支的輸出進(jìn)行雙線性插值上采樣,隨后將所有分支的特征在通道維度上進(jìn)行拼接,得到拼接特征;
33、步驟三:將所述拼接特征輸入特征融合層進(jìn)行降維,得到多尺度融合特征;
34、步驟四:對(duì)所述多尺度融合特征分別沿頻率維度和時(shí)間維度進(jìn)行一維自適應(yīng)平均池化,得到水平聚合特征與垂直聚合特征;
35、步驟五:將所述水平聚合特征與垂直聚合特征在空間維度進(jìn)行拼接,得到中間特征;
36、步驟六:將所述中間特征輸入第一卷積層與非線性激活函數(shù)進(jìn)行特征聯(lián)合編碼;
37、步驟七:將編碼后的中間特征沿原拼接維度切分為水平張量與垂直張量;
38、步驟八:將所述水平張量與垂直張量分別輸入第二卷積層與第三卷積層;
39、步驟九:將第二卷積層與第三卷積層的輸出分別輸入到sigmoid激活函數(shù)中,得到時(shí)間維度注意力權(quán)重與頻率維度注意力權(quán)重;
40、步驟十:將所述多尺度融合特征與所述時(shí)間維度注意力權(quán)重、頻率維度注意力權(quán)重進(jìn)行逐元素相乘,得到最終的深入特征提取結(jié)果。
41、所述多尺度坐標(biāo)注意力模塊中坐標(biāo)注意力單元,用于對(duì)輸入的多尺度融合特征進(jìn)行雙軸時(shí)頻解耦與注意力重標(biāo)定,計(jì)算式如下:
42、
43、
44、
45、其中,為深入特征提取結(jié)果,c表示第c個(gè)特征通道,h為時(shí)間維度的高度,w為頻率維度的寬度,為沿頻率維度池化后得到的時(shí)間高度h上的水平聚合特征,為沿時(shí)間維度池化后得到的頻率寬度w上的垂直聚合特征,w為頻率維度的總寬度尺寸,h為時(shí)間維度的總高度尺寸,和為參與一維自適應(yīng)平均池化計(jì)算的特征元素值,為融合后的多尺度特征值,為對(duì)應(yīng)第c個(gè)通道的時(shí)間維度注意力權(quán)重,為對(duì)應(yīng)第c個(gè)通道的頻率維度注意力權(quán)重。
46、所述對(duì)提取的深度空間特征進(jìn)行上下文信息提取與時(shí)序建模,得到時(shí)序特征,以及將所述時(shí)序特征輸入分類器,包括:
47、將提取的深度空間特征的頻率維度進(jìn)行折疊壓縮,并輸入雙向門控循環(huán)單元bigru模塊進(jìn)行上下文時(shí)序建模,得到第一分支特征;
48、將所述bigru模塊的輸出分別輸入至強(qiáng)標(biāo)簽分類全連接層與注意力權(quán)重全連接層;
49、所述強(qiáng)標(biāo)簽分類全連接層輸出包含每一時(shí)間幀預(yù)測(cè)概率的強(qiáng)標(biāo)簽預(yù)測(cè)結(jié)果;
50、所述注意力權(quán)重全連接層經(jīng)過(guò)softmax激活后輸出每一時(shí)間幀的注意力權(quán)重,利用所述注意力權(quán)重對(duì)所述強(qiáng)標(biāo)簽預(yù)測(cè)結(jié)果進(jìn)行加權(quán)求和池化,得到包含整段音頻預(yù)測(cè)概率的弱標(biāo)簽預(yù)測(cè)結(jié)果。
51、本發(fā)明具有以下有益效果:
52、(1).在模型中引入多尺度坐標(biāo)注意力模塊,一方面顯著增強(qiáng)了模型對(duì)多尺度聲音事件的捕獲能力,使得網(wǎng)絡(luò)能夠同時(shí)精準(zhǔn)捕獲短促瞬態(tài)聲音(如玻璃破碎聲)的微觀聲學(xué)紋理與長(zhǎng)時(shí)持續(xù)聲音(如引擎轟鳴聲、警報(bào)聲)的宏觀上下文信息,另一方面實(shí)現(xiàn)了時(shí)頻特征的精準(zhǔn)解耦與定向聚焦,從而在復(fù)雜的時(shí)頻特征圖中實(shí)現(xiàn)了目標(biāo)聲音的精準(zhǔn)定位。
53、(2).在模型中引入多尺度坐標(biāo)注意力模塊,可以顯著提高聲事件檢測(cè)的準(zhǔn)確性和魯棒性。