1. <rt id="e600n"></rt>
      1. <pre id="e600n"><strong id="e600n"><pre id="e600n"></pre></strong></pre>
      2. 岛国免费AV,无码人妻精品一区二区三区夜夜嗨,又大又粗又硬又爽黄毛少妇,精品国产AV二区,91视频最新网址,久操无码,久久无码人妻一区二区三区午夜,国产精品视频中文字幕

        一種基于多尺度空間特征與坐標(biāo)注意力融合的聲事件檢測(cè)方法

        文檔序號(hào):45761709發(fā)布日期:2026-06-10 00:49閱讀:1來(lái)源:國(guó)知局

        本發(fā)明屬于聲事件檢測(cè),具體涉及一種基于多尺度空間特征與坐標(biāo)注意力融合的聲事件檢測(cè)方法。


        背景技術(shù):

        1、聲事件檢測(cè)(sound?event?detection,sed)是語(yǔ)音信號(hào)處理領(lǐng)域的重要研究方向,其目標(biāo)是在連續(xù)音頻流中識(shí)別目標(biāo)聲音事件的類別,并精確給出其發(fā)生時(shí)間和結(jié)束時(shí)間,從而精確的定位事件。隨著人工智能和物聯(lián)網(wǎng)技術(shù)的快速發(fā)展,智能家居、智慧安防、老年人看護(hù)、工業(yè)設(shè)備監(jiān)測(cè)等系統(tǒng)在運(yùn)行過(guò)程中需要實(shí)時(shí)識(shí)別關(guān)鍵聲音事件。

        2、隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,各種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)已被廣泛應(yīng)用于聲音特征處理領(lǐng)域并取得了顯著的效果,如crnn(卷積循環(huán)神經(jīng)網(wǎng)絡(luò))和transformer等。然而,現(xiàn)實(shí)環(huán)境中的音頻數(shù)據(jù)往往存在復(fù)雜的背景噪聲、多聲源重疊發(fā)聲以及聲音持續(xù)時(shí)間跨度差異極大(例如短促的撞擊聲與長(zhǎng)時(shí)的警報(bào)聲)等現(xiàn)象。常見的神經(jīng)網(wǎng)絡(luò)模型在提取音頻時(shí)頻特征時(shí),通常采用固定尺寸的卷積感受野,缺乏對(duì)多尺度時(shí)間跨度信息的捕獲能力,且無(wú)法在復(fù)雜的時(shí)頻空間中精準(zhǔn)聚焦具有判別性的目標(biāo)特征,容易受到環(huán)境噪聲的干擾而產(chǎn)生誤報(bào)。


        技術(shù)實(shí)現(xiàn)思路

        1、本發(fā)明的目的在于提出一種基于多尺度空間特征與坐標(biāo)注意力融合的聲事件檢測(cè)方法,以解決現(xiàn)有聲事件檢測(cè)方法中網(wǎng)絡(luò)感受野受限導(dǎo)致難以捕獲多尺度時(shí)間跨度特征,且無(wú)法在復(fù)雜時(shí)頻空間中精準(zhǔn)聚焦目標(biāo)聲音并抑制噪聲的問(wèn)題,從而提高聲事件檢測(cè)的準(zhǔn)確性和魯棒性。

        2、為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明采用如下技術(shù)方案:

        3、本發(fā)明提供一種基于多尺度空間特征與坐標(biāo)注意力融合的聲事件檢測(cè)方法,包括以下七個(gè)步驟:

        4、步驟一:獲取待檢測(cè)的原始音頻信號(hào);

        5、步驟二:對(duì)所述待檢測(cè)的音頻信號(hào)進(jìn)行預(yù)處理得到音頻時(shí)頻特征;

        6、步驟三:對(duì)數(shù)據(jù)預(yù)處理后的音頻時(shí)頻特征進(jìn)行數(shù)據(jù)增強(qiáng);

        7、步驟四:對(duì)數(shù)據(jù)增強(qiáng)后的音頻時(shí)頻特征進(jìn)行特征提取,包括初始空間特征提取與多尺度坐標(biāo)注意力深度特征提取,得到深度特征;

        8、步驟五:對(duì)提取的深度特征進(jìn)行上下文信息提取與時(shí)序建模,得到時(shí)序特征;

        9、步驟六:將所述時(shí)序特征輸入分類器,得到待檢測(cè)的音頻信號(hào)的幀級(jí)別與片段級(jí)別聲音事件檢測(cè)結(jié)果;

        10、步驟七:對(duì)所述幀級(jí)別與片段級(jí)別聲音事件檢測(cè)結(jié)果進(jìn)行后處理與解碼,得到待檢測(cè)聲事件檢測(cè)結(jié)果。

        11、所述對(duì)所述的待檢測(cè)的音頻信號(hào)進(jìn)行預(yù)處理得到音頻時(shí)頻特征,包括:

        12、將所述待檢測(cè)的音頻信號(hào)進(jìn)行單聲道轉(zhuǎn)換與長(zhǎng)度對(duì)齊;

        13、對(duì)長(zhǎng)度對(duì)齊后的信號(hào)進(jìn)行極值歸一化處理;

        14、將歸一化處理后的信號(hào)進(jìn)行短時(shí)傅里葉變換與梅爾濾波器組映射,并取對(duì)數(shù)得到二維的對(duì)數(shù)梅爾頻譜圖作為音頻時(shí)頻特征。

        15、所述對(duì)數(shù)據(jù)預(yù)處理后的音頻時(shí)頻特征進(jìn)行數(shù)據(jù)增強(qiáng),包括:

        16、將數(shù)據(jù)預(yù)處理后的音頻時(shí)頻特征沿著時(shí)間軸進(jìn)行服從高斯分布的隨機(jī)移動(dòng)時(shí)間幀,得到第一增強(qiáng)結(jié)果;

        17、采用服從貝塔分布的混合參數(shù)對(duì)同批次預(yù)處理后的音頻時(shí)頻特征及其標(biāo)簽進(jìn)行隨機(jī)線性混合,得到第二增強(qiáng)結(jié)果;

        18、在頻率維度上隨機(jī)劃分頻帶并應(yīng)用對(duì)數(shù)級(jí)隨機(jī)增益乘子構(gòu)成的動(dòng)態(tài)濾波器進(jìn)行頻響擾動(dòng),得到第三增強(qiáng)結(jié)果;

        19、根據(jù)掩碼選取需要掩蔽的時(shí)間或頻率窗口,對(duì)選定的窗口進(jìn)行連續(xù)特征幀的屏蔽,得到第四增強(qiáng)結(jié)果;

        20、將第四增強(qiáng)結(jié)果作為音頻時(shí)頻特征的數(shù)據(jù)增強(qiáng)的結(jié)果。

        21、所述對(duì)數(shù)據(jù)增強(qiáng)后的音頻時(shí)頻特征進(jìn)行特征提取,包括:

        22、將數(shù)據(jù)增強(qiáng)后的音頻時(shí)頻特征輸入cnn模塊進(jìn)行初步特征提取,得到初始特征;

        23、將初始特征輸入多尺度坐標(biāo)注意力模塊進(jìn)行深入特征提取,得到深入特征提取結(jié)果。

        24、所述將數(shù)據(jù)增強(qiáng)后的音頻時(shí)頻特征輸入cnn模塊進(jìn)行初步特征提取,得到初始特征,包括:

        25、將數(shù)據(jù)預(yù)處理后的音頻時(shí)頻特征輸入二維卷積層進(jìn)行特征提取;

        26、將二維卷積層的輸出輸入到歸一化層進(jìn)行歸一化處理;

        27、將歸一化處理后的結(jié)果輸入到glu門控線性單元進(jìn)行非線性激活處理;

        28、將非線性激活處理后的結(jié)果輸入到平均池化層進(jìn)行池化下采樣處理,得到降維結(jié)果;

        29、將上述步驟循環(huán)迭代多層,將最后一層平均池化層的輸出結(jié)果作為初始特征。

        30、所述將初始特征輸入多尺度坐標(biāo)注意力模塊進(jìn)行深入特征提取,得到深入特征提取結(jié)果,包括以下十個(gè)步驟:

        31、步驟一:將所述初始特征分別輸入多個(gè)并行的特征提取分支中,所述分支包括一個(gè)1×1卷積分支、多個(gè)僅在時(shí)間維度上設(shè)置空洞率的空洞卷積分支,以及一個(gè)全局平均池化分支,分別獲取不同感受野下的局部與全局特征;

        32、步驟二:將所述全局平均池化分支的輸出進(jìn)行雙線性插值上采樣,隨后將所有分支的特征在通道維度上進(jìn)行拼接,得到拼接特征;

        33、步驟三:將所述拼接特征輸入特征融合層進(jìn)行降維,得到多尺度融合特征;

        34、步驟四:對(duì)所述多尺度融合特征分別沿頻率維度和時(shí)間維度進(jìn)行一維自適應(yīng)平均池化,得到水平聚合特征與垂直聚合特征;

        35、步驟五:將所述水平聚合特征與垂直聚合特征在空間維度進(jìn)行拼接,得到中間特征;

        36、步驟六:將所述中間特征輸入第一卷積層與非線性激活函數(shù)進(jìn)行特征聯(lián)合編碼;

        37、步驟七:將編碼后的中間特征沿原拼接維度切分為水平張量與垂直張量;

        38、步驟八:將所述水平張量與垂直張量分別輸入第二卷積層與第三卷積層;

        39、步驟九:將第二卷積層與第三卷積層的輸出分別輸入到sigmoid激活函數(shù)中,得到時(shí)間維度注意力權(quán)重與頻率維度注意力權(quán)重;

        40、步驟十:將所述多尺度融合特征與所述時(shí)間維度注意力權(quán)重、頻率維度注意力權(quán)重進(jìn)行逐元素相乘,得到最終的深入特征提取結(jié)果。

        41、所述多尺度坐標(biāo)注意力模塊中坐標(biāo)注意力單元,用于對(duì)輸入的多尺度融合特征進(jìn)行雙軸時(shí)頻解耦與注意力重標(biāo)定,計(jì)算式如下:

        42、

        43、

        44、

        45、其中,為深入特征提取結(jié)果,c表示第c個(gè)特征通道,h為時(shí)間維度的高度,w為頻率維度的寬度,為沿頻率維度池化后得到的時(shí)間高度h上的水平聚合特征,為沿時(shí)間維度池化后得到的頻率寬度w上的垂直聚合特征,w為頻率維度的總寬度尺寸,h為時(shí)間維度的總高度尺寸,和為參與一維自適應(yīng)平均池化計(jì)算的特征元素值,為融合后的多尺度特征值,為對(duì)應(yīng)第c個(gè)通道的時(shí)間維度注意力權(quán)重,為對(duì)應(yīng)第c個(gè)通道的頻率維度注意力權(quán)重。

        46、所述對(duì)提取的深度空間特征進(jìn)行上下文信息提取與時(shí)序建模,得到時(shí)序特征,以及將所述時(shí)序特征輸入分類器,包括:

        47、將提取的深度空間特征的頻率維度進(jìn)行折疊壓縮,并輸入雙向門控循環(huán)單元bigru模塊進(jìn)行上下文時(shí)序建模,得到第一分支特征;

        48、將所述bigru模塊的輸出分別輸入至強(qiáng)標(biāo)簽分類全連接層與注意力權(quán)重全連接層;

        49、所述強(qiáng)標(biāo)簽分類全連接層輸出包含每一時(shí)間幀預(yù)測(cè)概率的強(qiáng)標(biāo)簽預(yù)測(cè)結(jié)果;

        50、所述注意力權(quán)重全連接層經(jīng)過(guò)softmax激活后輸出每一時(shí)間幀的注意力權(quán)重,利用所述注意力權(quán)重對(duì)所述強(qiáng)標(biāo)簽預(yù)測(cè)結(jié)果進(jìn)行加權(quán)求和池化,得到包含整段音頻預(yù)測(cè)概率的弱標(biāo)簽預(yù)測(cè)結(jié)果。

        51、本發(fā)明具有以下有益效果:

        52、(1).在模型中引入多尺度坐標(biāo)注意力模塊,一方面顯著增強(qiáng)了模型對(duì)多尺度聲音事件的捕獲能力,使得網(wǎng)絡(luò)能夠同時(shí)精準(zhǔn)捕獲短促瞬態(tài)聲音(如玻璃破碎聲)的微觀聲學(xué)紋理與長(zhǎng)時(shí)持續(xù)聲音(如引擎轟鳴聲、警報(bào)聲)的宏觀上下文信息,另一方面實(shí)現(xiàn)了時(shí)頻特征的精準(zhǔn)解耦與定向聚焦,從而在復(fù)雜的時(shí)頻特征圖中實(shí)現(xiàn)了目標(biāo)聲音的精準(zhǔn)定位。

        53、(2).在模型中引入多尺度坐標(biāo)注意力模塊,可以顯著提高聲事件檢測(cè)的準(zhǔn)確性和魯棒性。

        當(dāng)前第1頁(yè)1 2 
        網(wǎng)友詢問(wèn)留言 留言:0條
        • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
        主站蜘蛛池模板: 激情五月天自拍偷拍视频| 国产精品1区2区| 日韩精品永久免费播放平台| 色综合国产一区二区三区| 综合福利导航| 久品精品一区二区| 无码人妻久久一区二区三区 | 汝城县| 精品人妻无码专区在线无广告视频视频在线 | av高清无码在线观看| 国产一区二区三区在线观看免费| 天堂AⅤ大芭蕉伊人AV| yjizz视频网站在线观看| 精品乱码一区二区三四五区| 麻豆国产| 甈吧v| 色库视频| 国产a网站| 四虎永久精品免费视频| 日本最大色倩网站www| 非洲黑人最猛性xxxx交| 日本一二三区视频在线| 精品粉嫩国产一区二区三区| 亚洲自偷自拍熟女另类| 黑人大战日本人妻嗷嗷叫| 你懂的国产在线| 黑人巨大粗物挺进了少妇| 熟女丝袜勾引一区| 国产午夜福利片1000无码| 1000部夫妻午夜免费| 亚洲午夜理论无码电影| 熟妇自搞| 【_undefined?-?P站免费版?-?永久免费的福利视频平台】https://17630364268551281430832.nx37lbnqvd.com/column/all/show?t=&tags=%E5%90%8E%E5%85%A5%E9%AA%91%E9%A9%AC&page=2&orderBy=createTime&expanded=1 | 亚洲成年人免费网站| 国产精品无码专区| 亚洲色成人777777无码| 国产精品嫩草影院av| 欧美三级中文字幕在线观看| 中文字幕久久精品波多野结| 在线观看的网站| 国产超碰AV人人做人人爽|