1. <rt id="e600n"></rt>
      1. <pre id="e600n"><strong id="e600n"><pre id="e600n"></pre></strong></pre>
      2. 岛国免费AV,无码人妻精品一区二区三区夜夜嗨,又大又粗又硬又爽黄毛少妇,精品国产AV二区,91视频最新网址,久操无码,久久无码人妻一区二区三区午夜,国产精品视频中文字幕

        基于多尺度跨分支特征交互的偽造語音檢測(cè)方法及裝置

        文檔序號(hào):45267031發(fā)布日期:2026-04-17 19:56閱讀:7來源:國知局

        本發(fā)明屬于偽造語音檢測(cè),具體涉及基于多尺度跨分支特征交互的偽造語音檢測(cè)方法及裝置。


        背景技術(shù):

        1、隨著語音合成、轉(zhuǎn)換技術(shù)與深度學(xué)習(xí)的深度融合,偽造語音的自然度與擬人度持續(xù)提升,極易欺騙自動(dòng)說話人驗(yàn)證(automatic?speaker?verification,asv)系統(tǒng),引發(fā)身份偽造、欺詐交易等安全隱患,因此偽造語音檢測(cè)已成為語音安全領(lǐng)域的研究重點(diǎn)。

        2、偽造語音檢測(cè)技術(shù)的發(fā)展歷經(jīng)多階段演進(jìn):早期依賴手工設(shè)計(jì)聲學(xué)特征與傳統(tǒng)分類器,但手工特征受先驗(yàn)知識(shí)的限制,易丟失細(xì)粒度欺騙線索,對(duì)未知攻擊魯棒性差;隨著asvspoof系列任務(wù)推動(dòng),模型逐步轉(zhuǎn)向端到端架構(gòu),殘差網(wǎng)絡(luò)(residual?network,resnet)、擠壓與激勵(lì)網(wǎng)絡(luò)(squeeze?and?excitation?network,senet)注意力機(jī)制等被廣泛應(yīng)用,強(qiáng)化了局部特征提取能力與通道選擇能力;近年來,wav2vec?2.0及其變體xlsr-300m等預(yù)訓(xùn)練模型成為前端特征提取主流,顯著提升了模型泛化性。

        3、然而現(xiàn)有技術(shù)仍存在一些缺陷:一是全局與長(zhǎng)程依賴建模不足,卷積神經(jīng)網(wǎng)絡(luò)(convolutional?neural?networks,cnn)受卷積感受野限制難以捕獲語音時(shí)序兩端關(guān)聯(lián),雖然已有基于transformer的相關(guān)探索,但是未能充分結(jié)合多尺度特征協(xié)同;二是多尺度特征利用不充分,單一尺度特征或簡(jiǎn)單通道融合易受冗余信息干擾,無法兼顧細(xì)粒度時(shí)序-頻率細(xì)節(jié)與粗粒度全局語義;三是跨分支信息交互缺失,不同尺度特征的互補(bǔ)信息未有效挖掘,導(dǎo)致復(fù)雜場(chǎng)景下檢測(cè)精度與泛化性受限。


        技術(shù)實(shí)現(xiàn)思路

        1、針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明的目的在于提供基于多尺度跨分支特征交互的偽造語音檢測(cè)方法及裝置,解決了現(xiàn)有技術(shù)中的問題。

        2、本發(fā)明的目的可以通過以下技術(shù)方案實(shí)現(xiàn):

        3、基于多尺度跨分支特征交互的偽造語音檢測(cè)方法,包括:

        4、獲取訓(xùn)練語料,包括真實(shí)語音和偽造語音;

        5、將獲取的訓(xùn)練語料進(jìn)行預(yù)處理,得到固定時(shí)長(zhǎng)的語音片段;

        6、構(gòu)建檢測(cè)模型,將預(yù)處理后的語音片段輸入檢測(cè)模型中進(jìn)行訓(xùn)練,通過調(diào)整超參數(shù)以最小化目標(biāo)損失函數(shù),直到設(shè)置的迭代輪數(shù),得到訓(xùn)練好的檢測(cè)模型;所述檢測(cè)模型包括:前端特征提取模塊、多尺度跨分支特征交互模塊和分類模塊;前端特征提取模塊采用預(yù)訓(xùn)練模型xlsr-300m提取語音片段中的高維時(shí)序特征;多尺度跨分支特征交互模塊對(duì)高維時(shí)序特征進(jìn)行多尺度劃分與并行特征提取,并通過交叉注意力機(jī)制實(shí)現(xiàn)不同分支間的特征交互與信息互補(bǔ);分類模塊用于整合交互后的多尺度特征,輸出語音真?zhèn)蔚姆诸惤Y(jié)果;

        7、獲取測(cè)試語料,包括真實(shí)語音和偽造語音,將測(cè)試語料經(jīng)預(yù)處理得到固定時(shí)長(zhǎng)的語音片段,并輸入訓(xùn)練好的檢測(cè)模型,輸出偽造語音檢測(cè)結(jié)果。

        8、進(jìn)一步地,所述訓(xùn)練語料和測(cè)試語料的預(yù)處理過程相同,均為:根據(jù)樣本點(diǎn)數(shù)對(duì)語料中的每條語音進(jìn)行裁剪或拼接,得到固定時(shí)長(zhǎng)的語音片段。

        9、進(jìn)一步地,在所述前端特征提取模塊中,預(yù)處理后的語音片段依次經(jīng)過1個(gè)xlsr-300m預(yù)訓(xùn)練模型、1個(gè)二維卷積層、1次維度擴(kuò)充操作和1次維度轉(zhuǎn)置操作。

        10、進(jìn)一步地,所述預(yù)訓(xùn)練模型xlsr-300m包括:1個(gè)特征輸入層、24層transformer編碼器和1個(gè)特征輸出層;特征輸入層將輸入的語音時(shí)序信號(hào)轉(zhuǎn)換為模型可處理的線性特征序列;每層transformer編碼器均包含1個(gè)多頭自注意力子層和1個(gè)前饋神經(jīng)網(wǎng)絡(luò)子層,且兩個(gè)子層均采用殘差連接與層歸一化機(jī)制,多頭自注意力子層通過并行計(jì)算多個(gè)注意力頭,對(duì)語音特征序列中不同位置的信息進(jìn)行關(guān)聯(lián)建模,前饋神經(jīng)網(wǎng)絡(luò)子層采用兩層全連接網(wǎng)絡(luò)結(jié)構(gòu),通過非線性激活函數(shù)增強(qiáng)模型特征表達(dá)能力。

        11、進(jìn)一步地,所述多尺度跨分支特征交互模塊,采用雙分支并行架構(gòu),包括:雙分支特征嵌入子模塊、雙分支編碼子模塊、雙向交叉注意力子模塊和特征整合子模塊;

        12、高維時(shí)序特征首先輸入雙分支特征嵌入子模塊,經(jīng)多尺度劃分生成聚焦細(xì)粒度偽跡的分支特征,以及側(cè)重全局建模的分支特征;接著將兩類分支特征輸入雙分支編碼子模塊,通過自注意力層與mlp前饋層完成分支內(nèi)深度語義編碼;編碼后的雙分支特征進(jìn)入雙向交叉注意力子模塊,以雙向交叉注意力機(jī)制實(shí)現(xiàn)跨分支特征的互補(bǔ)更新,融合局部細(xì)粒度信息與全局上下文信息;最后由特征整合子模塊對(duì)更新后的雙分支特征進(jìn)行時(shí)序長(zhǎng)度對(duì)齊與拼接,輸出統(tǒng)一維度的時(shí)序特征和全局融合特征。

        13、進(jìn)一步地,所述雙分支特征嵌入子模塊包括:2個(gè)二維卷積層、2個(gè)可學(xué)習(xí)位置嵌入層和1個(gè)dropout層:其中,前端特征提取模塊輸出的高維時(shí)序特征分別輸入雙分支特征嵌入子模塊的兩個(gè)分支,通過不同尺度的二維卷積層進(jìn)行特征塊劃分與嵌入,得到兩個(gè)尺度的初始嵌入特征和;對(duì)初始嵌入特征和分別進(jìn)行展平與轉(zhuǎn)置操作,得到序列格式的嵌入特征和,再分別添加可學(xué)習(xí)位置嵌入向量和,得到帶位置編碼的序列特征和,對(duì)序列特征和分別進(jìn)行dropout隨機(jī)失活處理,最后得到分支內(nèi)編碼輸入特征和;

        14、所述雙分支編碼子模塊包括:1個(gè)單層transformer塊和1個(gè)雙層transformer塊,每個(gè)transformer塊均由1個(gè)多頭自注意力層、2個(gè)層歸一化層、1個(gè)mlp前饋層和2個(gè)殘差連接構(gòu)成:將分支內(nèi)編碼輸入特征和分別輸入雙分支transformer編碼子模塊的單層transformer塊和雙層transformer塊進(jìn)行深度編碼;編碼過程中,多頭自注意力子層對(duì)序列特征的不同位置信息進(jìn)行關(guān)聯(lián)建模,mlp前饋?zhàn)訉訉?duì)特征進(jìn)行非線性變換,殘差連接與層歸一化層用于訓(xùn)練并保留原始特征信息,得到包含全局特征與局部特征的編碼特征和;

        15、所述雙向交叉注意力子模塊包括:2個(gè)交叉注意力塊,每個(gè)交叉注意力塊由2個(gè)層歸一化層、4個(gè)線性層、1個(gè)多頭交叉注意力層和1個(gè)softmax激活函數(shù)構(gòu)成:從編碼特征和中分離出全局特征、和局部特征、,通過雙向交叉注意力交互子模塊實(shí)現(xiàn)跨分支信息互補(bǔ),以為查詢、為鍵和值計(jì)算交叉注意力更新得到,以為查詢、為鍵和值計(jì)算交叉注意力更新得到;

        16、所述特征整合子模塊包括2次拼接操作和1次線性插值操作:將與、與分別拼接得到完整的交互特征和,對(duì)和中的、特征進(jìn)行線性插值對(duì)齊得到統(tǒng)一長(zhǎng)度的時(shí)序特征和,同時(shí)拼接與得到全局融合特征。

        17、進(jìn)一步地,所述分類模塊包括:1個(gè)特征拼接層、1個(gè)線性層、1個(gè)雙向gru層、1個(gè)全局平均池化層、2個(gè)全連接層、2個(gè)dropout層和1個(gè)relu激活函數(shù);分類模塊的分類過程包括:

        18、對(duì)和特征進(jìn)行拼接操作,得到拼接時(shí)序特征,并將輸入線性投影層進(jìn)行維度映射,得到映射時(shí)序特征;

        19、將輸入雙向gru層進(jìn)行時(shí)序特征編碼并執(zhí)行全局平均池化操作,得到全局時(shí)序統(tǒng)計(jì)特征,將其與全局融合特征進(jìn)行拼接操作得到最終的融合特征;

        20、將融合特征輸入dropout層進(jìn)行正則化處理,再輸入第一層全連接層,融合特征維度從3072維映射至512維,再經(jīng)過relu激活函數(shù)處理后,輸入第二層dropout層進(jìn)行二次正則化;

        21、最后輸入第二層全連接層,映射為預(yù)測(cè)對(duì)數(shù)概率特征,,表示批次大小,中第()個(gè)樣本的預(yù)測(cè)對(duì)數(shù)概率為:

        22、

        23、其中,對(duì)應(yīng)真實(shí)語音的預(yù)測(cè)對(duì)數(shù)概率,對(duì)應(yīng)偽造語音的預(yù)測(cè)對(duì)數(shù)概率,該預(yù)測(cè)對(duì)數(shù)概率直接用于加權(quán)交叉熵?fù)p失函數(shù)的計(jì)算,以完成模型的訓(xùn)練過程。

        24、進(jìn)一步地,所述目標(biāo)損失函數(shù)使用加權(quán)交叉熵?fù)p失函數(shù):

        25、

        26、其中,表示批次大小,,表示第個(gè)樣本真實(shí)類別對(duì)應(yīng)的損失權(quán)重,表示第個(gè)樣本對(duì)應(yīng)的真實(shí)標(biāo)簽,對(duì)應(yīng)真實(shí)語音類別,對(duì)應(yīng)偽造語音類別;表示自然對(duì)數(shù)運(yùn)算,表示指數(shù)運(yùn)算,、分別為第個(gè)樣本對(duì)應(yīng)真實(shí)語音、偽造語音的預(yù)測(cè)對(duì)數(shù)概率,且、,表示第個(gè)樣本真實(shí)標(biāo)簽所對(duì)應(yīng)類別的預(yù)測(cè)對(duì)數(shù)概率,若樣本為真實(shí)語音,則,若樣本為偽造語音,則。

        27、基于多尺度跨分支特征交互的偽造語音檢測(cè)裝置,執(zhí)行上述的方法,包括:

        28、訓(xùn)練語料獲取模塊:獲取訓(xùn)練語料,包括真實(shí)語音和偽造語音;

        29、訓(xùn)練語料處理模塊:將獲取的訓(xùn)練語料進(jìn)行預(yù)處理,得到固定時(shí)長(zhǎng)的語音片段;

        30、檢測(cè)模型構(gòu)建訓(xùn)練模塊:構(gòu)建檢測(cè)模型,將預(yù)處理后的語音片段輸入檢測(cè)模型中進(jìn)行訓(xùn)練,通過調(diào)整超參數(shù)以最小化目標(biāo)損失函數(shù),直到設(shè)置的迭代輪數(shù),得到訓(xùn)練好的檢測(cè)模型;所述檢測(cè)模型包括:前端特征提取模塊、多尺度跨分支特征交互模塊和分類模塊;前端特征提取模塊采用預(yù)訓(xùn)練模型xlsr-300m提取語音片段中的高維時(shí)序特征;多尺度跨分支特征交互模塊對(duì)高維時(shí)序特征進(jìn)行多尺度劃分與并行特征提取,并通過交叉注意力機(jī)制實(shí)現(xiàn)不同分支間的特征交互與信息互補(bǔ);分類模塊用于整合交互后的多尺度特征,輸出語音真?zhèn)蔚姆诸惤Y(jié)果;

        31、以及,檢測(cè)模塊:獲取測(cè)試語料,測(cè)試語料包括真實(shí)語音和偽造語音,將測(cè)試語料經(jīng)預(yù)處理得到固定時(shí)長(zhǎng)的語音片段,并輸入訓(xùn)練好的檢測(cè)模型,輸出偽造語音檢測(cè)結(jié)果。

        32、一種計(jì)算機(jī)存儲(chǔ)介質(zhì),存儲(chǔ)有可讀程序,當(dāng)程序運(yùn)行時(shí),所述程序能夠指示計(jì)算設(shè)備執(zhí)行如上述的基于多尺度跨分支特征交互的偽造語音檢測(cè)方法。

        33、本發(fā)明的有益效果:

        34、1、本發(fā)明的多尺度跨分支特征交互模塊將前端特征提取模塊輸出的高維時(shí)序特征進(jìn)行不同尺度的劃分,構(gòu)建小尺度分支與大尺度分支并行建模,小尺度分支更有利于捕捉如局部不連續(xù)、細(xì)微頻帶異常等短時(shí)細(xì)粒度偽造偽跡,大尺度分支更有利于建模長(zhǎng)程上下文與全局結(jié)構(gòu)一致性,通過并行多尺度特征提取,本發(fā)明在同一模型中同時(shí)強(qiáng)化了對(duì)局部異常和全局一致性破壞的感知能力,降低僅單一尺度建模導(dǎo)致的錯(cuò)誤檢測(cè)風(fēng)險(xiǎn)。

        35、2、本發(fā)明區(qū)別于簡(jiǎn)單拼接或加權(quán)求和的多尺度融合方式,在兩尺度分支之間引入雙向交叉注意力機(jī)制,使一個(gè)分支的全局匯聚標(biāo)記能夠?qū)α硪环种У木植刻卣餍蛄羞M(jìn)行選擇性關(guān)注,從而實(shí)現(xiàn)跨尺度的信息交互與互補(bǔ),小尺度分支可從大尺度分支引入更穩(wěn)定的全局上下文約束,大尺度分支可從小尺度分支獲取更敏感的局部偽跡線索;該交互機(jī)制能夠有效緩解多尺度特征語義不一致與冗余問題,使融合后的特征更集中、更具判別力,從而提升模型對(duì)多類型偽造攻擊的適應(yīng)性與魯棒性。

        36、3、本發(fā)明的分類模塊對(duì)交互后的雙尺度時(shí)間序列特征進(jìn)行對(duì)齊與融合,并利用雙向gru對(duì)時(shí)序動(dòng)態(tài)進(jìn)行建模,通過對(duì)序列信息的有效聚合以增強(qiáng)對(duì)跨時(shí)間偽造模式的識(shí)別能力;同時(shí),將各分支全局特征所攜帶的全局摘要信息與雙向gru聚合結(jié)果進(jìn)行聯(lián)合建模,使分類器同時(shí)利用全局語義摘要和時(shí)序動(dòng)態(tài)證據(jù),從而在短時(shí)噪聲擾動(dòng)、局部偽跡弱化或偽造痕跡分布不均等情況下,仍能保持較低的誤判風(fēng)險(xiǎn)與更穩(wěn)定的輸出表現(xiàn),提升檢測(cè)準(zhǔn)確性與工程可用性。

        當(dāng)前第1頁1 2 
        網(wǎng)友詢問留言 留言:0條
        • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
        主站蜘蛛池模板: 熟妇人妻av中文字幕老熟妇 | 人妻人操| 色色图区| 97青草最新免费精品视频| 天堂在线中文| 国产欧美精品一区二区三区-老狼| 国产99视频在线观看| 亚洲成av人在线观看网站| 呦视频在线一区二区三区| 日韩综合精品一区二区三区 | wwwjizzjizzcom| 五十老熟妇乱子伦免费观看| jizzjizz在线观看| 免费午夜无码片在线观看影院| 成年女人片免费视频播放A| 欧美性xxxxx极品少妇| 亚洲天堂av无码| 欧美性猛交久久久乱大交小说 | 美女胸18下看禁止免费视频| 日本在线 | 中文| 超声波硬度| 少妇人妻88久久中文字幕| 99精品国产高清一区二区麻豆| 在线精品视频一区二区| 久久午夜夜伦鲁鲁一区二区| 亚洲第一在线综合网站| 蜜桃AV抽搐高潮一区二区| 亚洲成AV人片在线播放无码| 欧美亚洲一区二区三区在线| 中文字幕乱偷无码av先锋蜜桃| 国产99reb| 久久无码人妻热线精品| 99久久99久久加热有精品| 91福利影院| 亚洲人成人网| 国产成人亚洲精品自产在线| 肥臀浪妇太爽了快点再快点| 亚洲中文字幕人妻系列| 国产色网站| 国内精品人妻无码久久久影院蜜桃| 国产精品制服丝袜白丝|