本申請涉及音頻檢測,尤其是基于異構(gòu)感受野與全局時序依賴的炸街車輛聲音檢測方法。
背景技術(shù):
1、在城市環(huán)境治理中,交通噪聲擾民問題日益突出。除常規(guī)的機動車鳴笛聲外,炸街車產(chǎn)生的發(fā)動機轟鳴聲和排氣爆破聲已成為居民投訴的熱點。炸街行為通常涉及對車輛排氣管的非法改造(如拆除消音器、改裝直排管),或在城市道路上通過急加速制造高分貝噪聲。這種噪聲具有極強的穿透力和突發(fā)性,嚴重干擾市民的正常工作與休息,且往往伴隨超速競駛,存在巨大的交通安全隱患。
2、現(xiàn)有炸街車非現(xiàn)場執(zhí)法監(jiān)管主要依賴聲級計的分貝閾值檢測或簡單頻譜模板匹配。這些方法未能充分考量炸街聲音在時頻域上的復(fù)雜特性,在應(yīng)對城市復(fù)雜聲景及動態(tài)交通流時,識別準確率與抗干擾能力面臨瓶頸。
技術(shù)實現(xiàn)思路
1、有鑒于此,本申請實施例提供了基于異構(gòu)感受野與全局時序依賴的炸街車輛聲音檢測方法及相關(guān)設(shè)備,以提高炸街檢測的準確性。
2、本申請實施例的一方面提供了基于異構(gòu)感受野與全局時序依賴的炸街車輛聲音檢測方法,所述方法包括以下步驟:
3、根據(jù)道路環(huán)境的音頻流構(gòu)建炸街聲紋的特征圖;
4、利用異構(gòu)感受野并行聚合網(wǎng)絡(luò)從所述特征圖中并行提取得到異構(gòu)炸街特征;
5、根據(jù)所述異構(gòu)炸街特征建立炸街聲音事件的全時域上下文特征;
6、根據(jù)事件查詢向量與所述全時域上下文特征進行交互檢索;
7、基于所述交互檢索的檢索結(jié)果利用并行的預(yù)測分支回歸輸出炸街事件的置信度、起始時間戳及結(jié)束時間戳。
8、在一些實施例中,所述根據(jù)道路環(huán)境的音頻流構(gòu)建炸街聲紋的特征圖,包括以下步驟:
9、采集道路環(huán)境的實時音頻流并進行短時時頻變換,生成二維聲譜圖;
10、對所述二維聲譜圖實施頻域截斷策略,丟棄高于預(yù)設(shè)閾值的高頻分量,保留炸街車排氣噪聲集中的目標頻段;
11、將所述目標頻段映射至梅爾頻域空間及進行對數(shù)幅值變換,生成對數(shù)梅爾聲譜圖作為炸街聲紋的所述特征圖。
12、在一些實施例中,所述利用異構(gòu)感受野并行聚合網(wǎng)絡(luò)從所述特征圖中并行提取得到異構(gòu)炸街特征,包括以下步驟:
13、將所述特征圖輸入至所述異構(gòu)感受野并行聚合網(wǎng)絡(luò),在特征提取階段利用所述異構(gòu)感受野分支結(jié)構(gòu),通過不同尺度感受野分別解析聲譜圖特征,得到所述異構(gòu)炸街特征;其中,大尺度感受野支路用于捕獲反映車輛加速行為的宏觀頻移軌跡特征,小尺度感受野支路用于捕獲反映排氣共振及回火行為的微觀高能級譜密度特征。
14、在一些實施例中,所述異構(gòu)感受野并行聚合網(wǎng)絡(luò)由若干級聯(lián)的特征提取單元組成,每個所述特征提取單元采用多尺度通道切分與級聯(lián)融合結(jié)構(gòu),所述特征提取單元用于將所述特征圖在通道維度上切分為多個特征子集,并通過級聯(lián)交互的方式進行處理;
15、其中,基礎(chǔ)特征子集經(jīng)由卷積處理或恒等映射,保持預(yù)設(shè)的等效感受野,用于提取二維聲譜圖中高能級譜密度的局部聲學紋理特征,以識別諧波條紋的能量構(gòu)造及回火產(chǎn)生的突發(fā)性脈沖;
16、級聯(lián)特征子集用于利用前序子集的輸出特征進行疊加卷積,通過累積的卷積效應(yīng)構(gòu)建大尺度等效感受野,用于提取所述二維聲譜圖中跨越長時段的宏觀頻移軌跡特征,以識別炸街車輛加速過程的整體演變趨勢;
17、將各個特征子集的輸出在通道維度上進行拼接復(fù)原,得到所述異構(gòu)炸街特征。
18、在一些實施例中,所述根據(jù)所述異構(gòu)炸街特征建立炸街聲音事件的全時域上下文特征,包括以下步驟:
19、對所述異構(gòu)炸街特征進行序列化展平及位置編碼嵌入,生成包含時序信息的特征序列;
20、將所述特征序列輸入至全局時序依賴建模模塊,利用全局自注意力機制計算特征幀之間的長程關(guān)聯(lián)權(quán)重;
21、根據(jù)所述長程關(guān)聯(lián)權(quán)重建立炸街聲音事件的所述全時域上下文特征,以表征炸街行為固有的時序連續(xù)性特征。
22、在一些實施例中,所述全局時序依賴建模模塊采用基于transformer編碼器架構(gòu),包括位置編碼單元和編碼器單元;
23、其中,所述位置編碼單元,用于將相對位置信息或絕對位置信息嵌入聚合后的所述特征序列,以補充時序位置特征;
24、所述編碼器單元,用于利用多頭自注意力機制計算所述特征序列內(nèi)部的所述長程關(guān)聯(lián)權(quán)重,進而根據(jù)所述長程關(guān)聯(lián)權(quán)重建立所述全時域上下文特征。
25、在一些實施例中,所述根據(jù)事件查詢向量與所述全時域上下文特征進行交互檢索,包括以下步驟:
26、利用所述transformer編碼器架構(gòu)中的解碼器單元引入可學習的所述事件查詢向量,通過多頭互注意力機制在所述全時域上下文特征中并行檢索炸街事件特征,進而生成包括事件類別與時域邊界信息的輸出序列作為所述檢索結(jié)果;
27、所述基于所述交互檢索的檢索結(jié)果利用并行的預(yù)測分支回歸輸出炸街事件的置信度、起始時間戳及結(jié)束時間戳,包括以下步驟:
28、基于所述輸出序列利用并行的預(yù)測分支回歸輸出多個無序的時域預(yù)測段;其中,每個所述時域預(yù)測段包括炸街事件的置信度及歸一化的起止時間坐標。
29、本申請實施例的另一方面還提供了基于異構(gòu)感受野與全局時序依賴的炸街車輛聲音檢測裝置,所述裝置包括:
30、特征圖構(gòu)建單元,用于根據(jù)道路環(huán)境的音頻流構(gòu)建炸街聲紋的特征圖;
31、特征提取單元,用于利用異構(gòu)感受野并行聚合網(wǎng)絡(luò)從所述特征圖中并行提取得到異構(gòu)炸街特征;
32、上下文建立單元,用于根據(jù)所述異構(gòu)炸街特征建立炸街聲音事件的全時域上下文特征;
33、交互檢索單元,用于根據(jù)事件查詢向量與所述全時域上下文特征進行交互檢索;
34、炸街檢測單元,用于基于所述交互檢索的檢索結(jié)果利用并行的預(yù)測分支回歸輸出炸街事件的置信度、起始時間戳及結(jié)束時間戳。
35、本申請實施例的另一方面還提供了一種電子設(shè)備,包括處理器以及存儲器;
36、所述存儲器用于存儲程序;
37、所述處理器執(zhí)行所述程序?qū)崿F(xiàn)上述任一項所述的方法。
38、本申請實施例的另一方面還提供了一種計算機可讀存儲介質(zhì),所述存儲介質(zhì)存儲有程序,所述程序被處理器執(zhí)行實現(xiàn)上述任一項所述的方法。
39、本申請至少包括以下有益效果:
40、本申請可以根據(jù)道路環(huán)境的音頻流構(gòu)建炸街聲紋的特征圖;利用異構(gòu)感受野并行聚合網(wǎng)絡(luò)從特征圖中并行提取得到異構(gòu)炸街特征;根據(jù)異構(gòu)炸街特征建立炸街聲音事件的全時域上下文特征;根據(jù)事件查詢向量與全時域上下文特征進行交互檢索;基于交互檢索的檢索結(jié)果利用并行的預(yù)測分支回歸輸出炸街事件的置信度、起始時間戳及結(jié)束時間戳。本申請利用全時域上下文特征修復(fù)被噪聲遮蔽的斷裂特征,通過時頻域的聯(lián)合優(yōu)化有效避免了復(fù)雜聲景下的誤報與漏報,顯著提升了炸街車輛音頻的識別精度。
1.基于異構(gòu)感受野與全局時序依賴的炸街車輛聲音檢測方法,其特征在于,所述方法包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于異構(gòu)感受野與全局時序依賴的炸街車輛聲音檢測方法,其特征在于,所述根據(jù)道路環(huán)境的音頻流構(gòu)建炸街聲紋的特征圖,包括以下步驟:
3.根據(jù)權(quán)利要求1所述的基于異構(gòu)感受野與全局時序依賴的炸街車輛聲音檢測方法,其特征在于,所述利用異構(gòu)感受野并行聚合網(wǎng)絡(luò)從所述特征圖中并行提取得到異構(gòu)炸街特征,包括以下步驟:
4.根據(jù)權(quán)利要求3所述的基于異構(gòu)感受野與全局時序依賴的炸街車輛聲音檢測方法,其特征在于,所述異構(gòu)感受野并行聚合網(wǎng)絡(luò)由若干級聯(lián)的特征提取單元組成,每個所述特征提取單元采用多尺度通道切分與級聯(lián)融合結(jié)構(gòu),所述特征提取單元用于將所述特征圖在通道維度上切分為多個特征子集,并通過級聯(lián)交互的方式進行處理;
5.根據(jù)權(quán)利要求1所述的基于異構(gòu)感受野與全局時序依賴的炸街車輛聲音檢測方法,其特征在于,所述根據(jù)所述異構(gòu)炸街特征建立炸街聲音事件的全時域上下文特征,包括以下步驟:
6.根據(jù)權(quán)利要求5所述的基于異構(gòu)感受野與全局時序依賴的炸街車輛聲音檢測方法,其特征在于,所述全局時序依賴建模模塊采用基于transformer編碼器架構(gòu),包括位置編碼單元和編碼器單元;
7.根據(jù)權(quán)利要求6所述的基于異構(gòu)感受野與全局時序依賴的炸街車輛聲音檢測方法,其特征在于,所述根據(jù)事件查詢向量與所述全時域上下文特征進行交互檢索,包括以下步驟:
8.基于異構(gòu)感受野與全局時序依賴的炸街車輛聲音檢測裝置,其特征在于,所述裝置包括:
9.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括處理器以及存儲器;
10.一種計算機可讀存儲介質(zhì),其特征在于,所述存儲介質(zhì)存儲有程序,所述程序被處理器執(zhí)行實現(xiàn)如權(quán)利要求1至7中任一項所述的方法。