基于多尺度跨分支特征交互的偽造語音檢測(cè)方法及裝置

文檔序號(hào)：45267031發(fā)布日期：2026-04-17 19:56閱讀：7來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明屬于偽造語音檢測(cè)，具體涉及基于多尺度跨分支特征交互的偽造語音檢測(cè)方法及裝置。

背景技術(shù)：

1、隨著語音合成、轉(zhuǎn)換技術(shù)與深度學(xué)習(xí)的深度融合，偽造語音的自然度與擬人度持續(xù)提升，極易欺騙自動(dòng)說話人驗(yàn)證（automatic?speaker?verification，asv）系統(tǒng)，引發(fā)身份偽造、欺詐交易等安全隱患，因此偽造語音檢測(cè)已成為語音安全領(lǐng)域的研究重點(diǎn)。

2、偽造語音檢測(cè)技術(shù)的發(fā)展歷經(jīng)多階段演進(jìn)：早期依賴手工設(shè)計(jì)聲學(xué)特征與傳統(tǒng)分類器，但手工特征受先驗(yàn)知識(shí)的限制，易丟失細(xì)粒度欺騙線索，對(duì)未知攻擊魯棒性差；隨著asvspoof系列任務(wù)推動(dòng)，模型逐步轉(zhuǎn)向端到端架構(gòu)，殘差網(wǎng)絡(luò)（residual?network，resnet）、擠壓與激勵(lì)網(wǎng)絡(luò)（squeeze?and?excitation?network，senet）注意力機(jī)制等被廣泛應(yīng)用，強(qiáng)化了局部特征提取能力與通道選擇能力；近年來，wav2vec?2.0及其變體xlsr-300m等預(yù)訓(xùn)練模型成為前端特征提取主流，顯著提升了模型泛化性。

3、然而現(xiàn)有技術(shù)仍存在一些缺陷：一是全局與長(zhǎng)程依賴建模不足，卷積神經(jīng)網(wǎng)絡(luò)（convolutional?neural?networks，cnn）受卷積感受野限制難以捕獲語音時(shí)序兩端關(guān)聯(lián)，雖然已有基于transformer的相關(guān)探索，但是未能充分結(jié)合多尺度特征協(xié)同；二是多尺度特征利用不充分，單一尺度特征或簡(jiǎn)單通道融合易受冗余信息干擾，無法兼顧細(xì)粒度時(shí)序-頻率細(xì)節(jié)與粗粒度全局語義；三是跨分支信息交互缺失，不同尺度特征的互補(bǔ)信息未有效挖掘，導(dǎo)致復(fù)雜場(chǎng)景下檢測(cè)精度與泛化性受限。

技術(shù)實(shí)現(xiàn)思路

1、針對(duì)現(xiàn)有技術(shù)的不足，本發(fā)明的目的在于提供基于多尺度跨分支特征交互的偽造語音檢測(cè)方法及裝置，解決了現(xiàn)有技術(shù)中的問題。

2、本發(fā)明的目的可以通過以下技術(shù)方案實(shí)現(xiàn)：

3、基于多尺度跨分支特征交互的偽造語音檢測(cè)方法，包括：

4、獲取訓(xùn)練語料，包括真實(shí)語音和偽造語音；

5、將獲取的訓(xùn)練語料進(jìn)行預(yù)處理，得到固定時(shí)長(zhǎng)的語音片段；

6、構(gòu)建檢測(cè)模型，將預(yù)處理后的語音片段輸入檢測(cè)模型中進(jìn)行訓(xùn)練，通過調(diào)整超參數(shù)以最小化目標(biāo)損失函數(shù)，直到設(shè)置的迭代輪數(shù)，得到訓(xùn)練好的檢測(cè)模型；所述檢測(cè)模型包括：前端特征提取模塊、多尺度跨分支特征交互模塊和分類模塊；前端特征提取模塊采用預(yù)訓(xùn)練模型xlsr-300m提取語音片段中的高維時(shí)序特征；多尺度跨分支特征交互模塊對(duì)高維時(shí)序特征進(jìn)行多尺度劃分與并行特征提取，并通過交叉注意力機(jī)制實(shí)現(xiàn)不同分支間的特征交互與信息互補(bǔ)；分類模塊用于整合交互后的多尺度特征，輸出語音真?zhèn)蔚姆诸惤Y(jié)果；

7、獲取測(cè)試語料，包括真實(shí)語音和偽造語音，將測(cè)試語料經(jīng)預(yù)處理得到固定時(shí)長(zhǎng)的語音片段，并輸入訓(xùn)練好的檢測(cè)模型，輸出偽造語音檢測(cè)結(jié)果。

8、進(jìn)一步地，所述訓(xùn)練語料和測(cè)試語料的預(yù)處理過程相同，均為：根據(jù)樣本點(diǎn)數(shù)對(duì)語料中的每條語音進(jìn)行裁剪或拼接，得到固定時(shí)長(zhǎng)的語音片段。

9、進(jìn)一步地，在所述前端特征提取模塊中，預(yù)處理后的語音片段依次經(jīng)過1個(gè)xlsr-300m預(yù)訓(xùn)練模型、1個(gè)二維卷積層、1次維度擴(kuò)充操作和1次維度轉(zhuǎn)置操作。

10、進(jìn)一步地，所述預(yù)訓(xùn)練模型xlsr-300m包括：1個(gè)特征輸入層、24層transformer編碼器和1個(gè)特征輸出層；特征輸入層將輸入的語音時(shí)序信號(hào)轉(zhuǎn)換為模型可處理的線性特征序列；每層transformer編碼器均包含1個(gè)多頭自注意力子層和1個(gè)前饋神經(jīng)網(wǎng)絡(luò)子層，且兩個(gè)子層均采用殘差連接與層歸一化機(jī)制，多頭自注意力子層通過并行計(jì)算多個(gè)注意力頭，對(duì)語音特征序列中不同位置的信息進(jìn)行關(guān)聯(lián)建模，前饋神經(jīng)網(wǎng)絡(luò)子層采用兩層全連接網(wǎng)絡(luò)結(jié)構(gòu)，通過非線性激活函數(shù)增強(qiáng)模型特征表達(dá)能力。

11、進(jìn)一步地，所述多尺度跨分支特征交互模塊，采用雙分支并行架構(gòu)，包括：雙分支特征嵌入子模塊、雙分支編碼子模塊、雙向交叉注意力子模塊和特征整合子模塊；

12、高維時(shí)序特征首先輸入雙分支特征嵌入子模塊，經(jīng)多尺度劃分生成聚焦細(xì)粒度偽跡的分支特征，以及側(cè)重全局建模的分支特征；接著將兩類分支特征輸入雙分支編碼子模塊，通過自注意力層與mlp前饋層完成分支內(nèi)深度語義編碼；編碼后的雙分支特征進(jìn)入雙向交叉注意力子模塊，以雙向交叉注意力機(jī)制實(shí)現(xiàn)跨分支特征的互補(bǔ)更新，融合局部細(xì)粒度信息與全局上下文信息；最后由特征整合子模塊對(duì)更新后的雙分支特征進(jìn)行時(shí)序長(zhǎng)度對(duì)齊與拼接，輸出統(tǒng)一維度的時(shí)序特征和全局融合特征。

13、進(jìn)一步地，所述雙分支特征嵌入子模塊包括：2個(gè)二維卷積層、2個(gè)可學(xué)習(xí)位置嵌入層和1個(gè)dropout層：其中，前端特征提取模塊輸出的高維時(shí)序特征分別輸入雙分支特征嵌入子模塊的兩個(gè)分支，通過不同尺度的二維卷積層進(jìn)行特征塊劃分與嵌入，得到兩個(gè)尺度的初始嵌入特征和；對(duì)初始嵌入特征和分別進(jìn)行展平與轉(zhuǎn)置操作，得到序列格式的嵌入特征和，再分別添加可學(xué)習(xí)位置嵌入向量和，得到帶位置編碼的序列特征和，對(duì)序列特征和分別進(jìn)行dropout隨機(jī)失活處理，最后得到分支內(nèi)編碼輸入特征和；

14、所述雙分支編碼子模塊包括：1個(gè)單層transformer塊和1個(gè)雙層transformer塊，每個(gè)transformer塊均由1個(gè)多頭自注意力層、2個(gè)層歸一化層、1個(gè)mlp前饋層和2個(gè)殘差連接構(gòu)成：將分支內(nèi)編碼輸入特征和分別輸入雙分支transformer編碼子模塊的單層transformer塊和雙層transformer塊進(jìn)行深度編碼；編碼過程中，多頭自注意力子層對(duì)序列特征的不同位置信息進(jìn)行關(guān)聯(lián)建模，mlp前饋?zhàn)訉訉?duì)特征進(jìn)行非線性變換，殘差連接與層歸一化層用于訓(xùn)練并保留原始特征信息，得到包含全局特征與局部特征的編碼特征和；

15、所述雙向交叉注意力子模塊包括：2個(gè)交叉注意力塊，每個(gè)交叉注意力塊由2個(gè)層歸一化層、4個(gè)線性層、1個(gè)多頭交叉注意力層和1個(gè)softmax激活函數(shù)構(gòu)成：從編碼特征和中分離出全局特征、和局部特征、，通過雙向交叉注意力交互子模塊實(shí)現(xiàn)跨分支信息互補(bǔ)，以為查詢、為鍵和值計(jì)算交叉注意力更新得到，以為查詢、為鍵和值計(jì)算交叉注意力更新得到；

16、所述特征整合子模塊包括2次拼接操作和1次線性插值操作：將與、與分別拼接得到完整的交互特征和，對(duì)和中的、特征進(jìn)行線性插值對(duì)齊得到統(tǒng)一長(zhǎng)度的時(shí)序特征和，同時(shí)拼接與得到全局融合特征。

17、進(jìn)一步地，所述分類模塊包括：1個(gè)特征拼接層、1個(gè)線性層、1個(gè)雙向gru層、1個(gè)全局平均池化層、2個(gè)全連接層、2個(gè)dropout層和1個(gè)relu激活函數(shù)；分類模塊的分類過程包括：

18、對(duì)和特征進(jìn)行拼接操作，得到拼接時(shí)序特征，并將輸入線性投影層進(jìn)行維度映射，得到映射時(shí)序特征；

19、將輸入雙向gru層進(jìn)行時(shí)序特征編碼并執(zhí)行全局平均池化操作，得到全局時(shí)序統(tǒng)計(jì)特征，將其與全局融合特征進(jìn)行拼接操作得到最終的融合特征；

20、將融合特征輸入dropout層進(jìn)行正則化處理，再輸入第一層全連接層，融合特征維度從3072維映射至512維，再經(jīng)過relu激活函數(shù)處理后，輸入第二層dropout層進(jìn)行二次正則化；

21、最后輸入第二層全連接層，映射為預(yù)測(cè)對(duì)數(shù)概率特征，，表示批次大小，中第（）個(gè)樣本的預(yù)測(cè)對(duì)數(shù)概率為：

22、

23、其中，對(duì)應(yīng)真實(shí)語音的預(yù)測(cè)對(duì)數(shù)概率，對(duì)應(yīng)偽造語音的預(yù)測(cè)對(duì)數(shù)概率，該預(yù)測(cè)對(duì)數(shù)概率直接用于加權(quán)交叉熵?fù)p失函數(shù)的計(jì)算，以完成模型的訓(xùn)練過程。

24、進(jìn)一步地，所述目標(biāo)損失函數(shù)使用加權(quán)交叉熵?fù)p失函數(shù)：

25、

26、其中，表示批次大小，，表示第個(gè)樣本真實(shí)類別對(duì)應(yīng)的損失權(quán)重，表示第個(gè)樣本對(duì)應(yīng)的真實(shí)標(biāo)簽，對(duì)應(yīng)真實(shí)語音類別，對(duì)應(yīng)偽造語音類別；表示自然對(duì)數(shù)運(yùn)算，表示指數(shù)運(yùn)算，、分別為第個(gè)樣本對(duì)應(yīng)真實(shí)語音、偽造語音的預(yù)測(cè)對(duì)數(shù)概率，且、，表示第個(gè)樣本真實(shí)標(biāo)簽所對(duì)應(yīng)類別的預(yù)測(cè)對(duì)數(shù)概率，若樣本為真實(shí)語音，則，若樣本為偽造語音，則。

27、基于多尺度跨分支特征交互的偽造語音檢測(cè)裝置，執(zhí)行上述的方法，包括：

28、訓(xùn)練語料獲取模塊：獲取訓(xùn)練語料，包括真實(shí)語音和偽造語音；

29、訓(xùn)練語料處理模塊：將獲取的訓(xùn)練語料進(jìn)行預(yù)處理，得到固定時(shí)長(zhǎng)的語音片段；

30、檢測(cè)模型構(gòu)建訓(xùn)練模塊：構(gòu)建檢測(cè)模型，將預(yù)處理后的語音片段輸入檢測(cè)模型中進(jìn)行訓(xùn)練，通過調(diào)整超參數(shù)以最小化目標(biāo)損失函數(shù)，直到設(shè)置的迭代輪數(shù)，得到訓(xùn)練好的檢測(cè)模型；所述檢測(cè)模型包括：前端特征提取模塊、多尺度跨分支特征交互模塊和分類模塊；前端特征提取模塊采用預(yù)訓(xùn)練模型xlsr-300m提取語音片段中的高維時(shí)序特征；多尺度跨分支特征交互模塊對(duì)高維時(shí)序特征進(jìn)行多尺度劃分與并行特征提取，并通過交叉注意力機(jī)制實(shí)現(xiàn)不同分支間的特征交互與信息互補(bǔ)；分類模塊用于整合交互后的多尺度特征，輸出語音真?zhèn)蔚姆诸惤Y(jié)果；

31、以及，檢測(cè)模塊：獲取測(cè)試語料，測(cè)試語料包括真實(shí)語音和偽造語音，將測(cè)試語料經(jīng)預(yù)處理得到固定時(shí)長(zhǎng)的語音片段，并輸入訓(xùn)練好的檢測(cè)模型，輸出偽造語音檢測(cè)結(jié)果。

32、一種計(jì)算機(jī)存儲(chǔ)介質(zhì)，存儲(chǔ)有可讀程序，當(dāng)程序運(yùn)行時(shí)，所述程序能夠指示計(jì)算設(shè)備執(zhí)行如上述的基于多尺度跨分支特征交互的偽造語音檢測(cè)方法。

33、本發(fā)明的有益效果：

34、1、本發(fā)明的多尺度跨分支特征交互模塊將前端特征提取模塊輸出的高維時(shí)序特征進(jìn)行不同尺度的劃分，構(gòu)建小尺度分支與大尺度分支并行建模，小尺度分支更有利于捕捉如局部不連續(xù)、細(xì)微頻帶異常等短時(shí)細(xì)粒度偽造偽跡，大尺度分支更有利于建模長(zhǎng)程上下文與全局結(jié)構(gòu)一致性，通過并行多尺度特征提取，本發(fā)明在同一模型中同時(shí)強(qiáng)化了對(duì)局部異常和全局一致性破壞的感知能力，降低僅單一尺度建模導(dǎo)致的錯(cuò)誤檢測(cè)風(fēng)險(xiǎn)。

35、2、本發(fā)明區(qū)別于簡(jiǎn)單拼接或加權(quán)求和的多尺度融合方式，在兩尺度分支之間引入雙向交叉注意力機(jī)制，使一個(gè)分支的全局匯聚標(biāo)記能夠?qū)α硪环种У木植刻卣餍蛄羞M(jìn)行選擇性關(guān)注，從而實(shí)現(xiàn)跨尺度的信息交互與互補(bǔ)，小尺度分支可從大尺度分支引入更穩(wěn)定的全局上下文約束，大尺度分支可從小尺度分支獲取更敏感的局部偽跡線索；該交互機(jī)制能夠有效緩解多尺度特征語義不一致與冗余問題，使融合后的特征更集中、更具判別力，從而提升模型對(duì)多類型偽造攻擊的適應(yīng)性與魯棒性。

36、3、本發(fā)明的分類模塊對(duì)交互后的雙尺度時(shí)間序列特征進(jìn)行對(duì)齊與融合，并利用雙向gru對(duì)時(shí)序動(dòng)態(tài)進(jìn)行建模，通過對(duì)序列信息的有效聚合以增強(qiáng)對(duì)跨時(shí)間偽造模式的識(shí)別能力；同時(shí)，將各分支全局特征所攜帶的全局摘要信息與雙向gru聚合結(jié)果進(jìn)行聯(lián)合建模，使分類器同時(shí)利用全局語義摘要和時(shí)序動(dòng)態(tài)證據(jù)，從而在短時(shí)噪聲擾動(dòng)、局部偽跡弱化或偽造痕跡分布不均等情況下，仍能保持較低的誤判風(fēng)險(xiǎn)與更穩(wěn)定的輸出表現(xiàn)，提升檢測(cè)準(zhǔn)確性與工程可用性。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李燕萍,王秀婷,邵曦,丁卓
技術(shù)所有人：南京郵電大學(xué)
我是此專利的發(fā)明人

網(wǎng)友詢問留言留言:0條

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

文明留言，給您點(diǎn)贊！

同類技術(shù)