一種基于物理引導(dǎo)網(wǎng)絡(luò)的毫米波雷達(dá)語(yǔ)音重建與識(shí)別方法

文檔序號(hào)：45273023發(fā)布日期：2026-04-17 20:15閱讀：14來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及毫米波雷達(dá)信號(hào)處理與語(yǔ)音重建，尤其涉及一種基于物理引導(dǎo)網(wǎng)絡(luò)的毫米波雷達(dá)語(yǔ)音重建與識(shí)別方法。

背景技術(shù)：

1、語(yǔ)音信號(hào)是人機(jī)交互、語(yǔ)音識(shí)別與通信系統(tǒng)中的核心信息載體。傳統(tǒng)語(yǔ)音采集通常依賴(lài)麥克風(fēng)陣列，通過(guò)空氣介質(zhì)接收聲壓波來(lái)捕獲語(yǔ)音。然而，在高噪聲、強(qiáng)回聲或聲源被遮擋的環(huán)境下，聲學(xué)信號(hào)易受干擾，信噪比顯著降低，甚至無(wú)法獲得有效語(yǔ)音信息。此外，麥克風(fēng)方法依賴(lài)聲波傳播路徑，受距離衰減影響明顯，難以滿足遠(yuǎn)距離、非接觸式語(yǔ)音采集的需求。

2、毫米波雷達(dá)作為一種主動(dòng)式電磁傳感器，具有非接觸、抗遮擋和抗噪性能強(qiáng)等優(yōu)勢(shì)。毫米波波長(zhǎng)短，可探測(cè)亞毫米級(jí)位移，因此能夠捕獲人體喉嚨部位的由聲帶振動(dòng)及口腔氣流變化引起的微小振動(dòng)信號(hào)。通過(guò)雷達(dá)回波相位變化可間接表征發(fā)聲活動(dòng)的物理特征，為語(yǔ)音信號(hào)的非接觸式采集提供了新的途徑。這一特性在隱私保護(hù)、醫(yī)療監(jiān)測(cè)以及嘈雜環(huán)境下的語(yǔ)音通信等場(chǎng)景中具有顯著應(yīng)用潛力。

3、然而，毫米波雷達(dá)信號(hào)中包含大量靜態(tài)背景雜波與系統(tǒng)性相位噪聲，語(yǔ)音相關(guān)振動(dòng)信號(hào)幅值遠(yuǎn)低于噪聲背景，直接提取語(yǔ)音特征具有較大難度。發(fā)聲過(guò)程的微位移信號(hào)在時(shí)頻域上呈現(xiàn)多尺度、非平穩(wěn)特征，既包含聲帶基頻振動(dòng)，又疊加身體和口腔共振等低頻成分，使得傳統(tǒng)濾波與分量分解方法難以準(zhǔn)確分離有效語(yǔ)音信息。現(xiàn)有研究多集中于毫米波雷達(dá)的呼吸、心跳監(jiān)測(cè)等低頻生理信號(hào)檢測(cè)，這類(lèi)信號(hào)模式簡(jiǎn)單、頻率低，無(wú)法形成具有復(fù)雜結(jié)構(gòu)的語(yǔ)音時(shí)頻模式，也無(wú)法重建高保真語(yǔ)音。因此，亟需一種能夠?qū)撩撞ɡ走_(dá)信號(hào)進(jìn)行有效預(yù)處理、雜波抑制與語(yǔ)音特征重建的算法體系，實(shí)現(xiàn)雷達(dá)信號(hào)向音頻信號(hào)的精確映射與語(yǔ)音還原。

技術(shù)實(shí)現(xiàn)思路

1、鑒于現(xiàn)有技術(shù)的上述缺陷，本發(fā)明提供一種基于物理引導(dǎo)網(wǎng)絡(luò)的毫米波雷達(dá)語(yǔ)音重建與識(shí)別方法。該方法通過(guò)分析人體喉嚨部位的微振動(dòng)信號(hào)，實(shí)現(xiàn)非接觸式語(yǔ)音恢復(fù)與重建，具有高精度、強(qiáng)魯棒性及隱私保護(hù)等優(yōu)勢(shì)。

2、為達(dá)到上述目的，本發(fā)明所采用的技術(shù)方案是：

3、一種基于物理引導(dǎo)網(wǎng)絡(luò)的毫米波雷達(dá)語(yǔ)音重建與識(shí)別方法，包括以下步驟：

4、s1、使用毫米波雷達(dá)對(duì)待測(cè)目標(biāo)發(fā)射射頻信號(hào)并接收回波信號(hào)，同時(shí)采集參考音頻信號(hào)；s2、根據(jù)回波信號(hào)提取穩(wěn)相信號(hào)梅爾譜；

5、s3、通過(guò)對(duì)參考音頻信號(hào)和公共語(yǔ)音數(shù)據(jù)集進(jìn)行音頻信號(hào)模擬生成模擬雷達(dá)梅爾譜；對(duì)穩(wěn)相信號(hào)梅爾譜和模擬雷達(dá)梅爾譜進(jìn)行同步與標(biāo)準(zhǔn)化，構(gòu)建語(yǔ)音信號(hào)數(shù)據(jù)集；s4、構(gòu)建多模態(tài)語(yǔ)音重建網(wǎng)絡(luò)模型；根據(jù)語(yǔ)音信號(hào)數(shù)據(jù)集訓(xùn)練多模態(tài)語(yǔ)音重建網(wǎng)絡(luò)模型；將新采集的真實(shí)毫米波雷達(dá)信號(hào)輸入訓(xùn)練后的多模態(tài)語(yǔ)音重建網(wǎng)絡(luò)模型進(jìn)行語(yǔ)音重建，輸出非接觸式的語(yǔ)音梅爾頻譜圖；

6、s5、將語(yǔ)音梅爾頻譜圖輸入構(gòu)建的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)分類(lèi)器，輸出說(shuō)話人的身份類(lèi)別標(biāo)簽。

7、作為優(yōu)選，s2包括：

8、s21、對(duì)回波信號(hào)進(jìn)行預(yù)處理后，在距離維執(zhí)行快速傅里葉變換并進(jìn)行背景扣除；

9、s22、對(duì)背景扣除后的回波信號(hào)進(jìn)行慢時(shí)間背景建模和去除；

10、s23、基于慢時(shí)間背景去除后的多通道接收信號(hào)構(gòu)造空間協(xié)方差矩陣，并采用波束形成算法進(jìn)行空間濾波，生成波束形成輸出信號(hào)；

11、s24、對(duì)波束形成輸出信號(hào)進(jìn)行相位解調(diào)去除系統(tǒng)漂移，得到穩(wěn)相信號(hào)。

12、作為優(yōu)選，s2還包括基于穩(wěn)相信號(hào)的周期性變化檢測(cè)語(yǔ)音節(jié)段邊界，通過(guò)自適應(yīng)閾值法或能量包絡(luò)分析進(jìn)行音節(jié)分割，并對(duì)每段信號(hào)進(jìn)行周期增強(qiáng)擬合，獲得音節(jié)結(jié)構(gòu)與時(shí)間邊界。

13、作為優(yōu)選，s3包括：

14、s31、獲取公共語(yǔ)音數(shù)據(jù)集；對(duì)參考音頻信號(hào)和公共語(yǔ)音數(shù)據(jù)集進(jìn)行重采樣與分幀處理，生成重采樣信號(hào)；

15、s32、對(duì)重采樣信號(hào)進(jìn)行包絡(luò)提取與帶通濾波處理，生成模擬振動(dòng)信號(hào)；

16、s33、對(duì)模擬振動(dòng)信號(hào)疊加高斯白噪聲，生成加噪后模擬雷達(dá)振動(dòng)信號(hào)；

17、s34、對(duì)加噪后模擬雷達(dá)振動(dòng)信號(hào)執(zhí)行短時(shí)傅里葉變換與梅爾濾波器組映射，生成模擬雷達(dá)梅爾譜。

18、作為優(yōu)選，s3還包括：

19、s35、對(duì)參考音頻信號(hào)執(zhí)行線性預(yù)測(cè)分析，通過(guò)逆濾波獲得聲門(mén)殘差信號(hào)；基于聲門(mén)殘差信號(hào)的頻譜分析，提取包括基頻、第一諧波幅度、第二諧波幅度、聲門(mén)參數(shù)和氣流參數(shù)的聲門(mén)物理參數(shù)。

20、作為優(yōu)選，s3還包括：

21、s36、對(duì)穩(wěn)相信號(hào)梅爾譜和模擬雷達(dá)梅爾譜計(jì)算能量包絡(luò)并進(jìn)行相關(guān)匹配，計(jì)算最優(yōu)時(shí)間平移量；根據(jù)最優(yōu)時(shí)間平移量對(duì)穩(wěn)相信號(hào)梅爾譜和模擬雷達(dá)梅爾譜進(jìn)行時(shí)間對(duì)齊，以實(shí)現(xiàn)參考音頻信號(hào)與回波信號(hào)的時(shí)間同步；

22、s37、根據(jù)時(shí)間對(duì)齊后的穩(wěn)相信號(hào)梅爾譜和模擬雷達(dá)梅爾譜，構(gòu)建包含雷達(dá)模態(tài)和音頻模態(tài)的語(yǔ)音信號(hào)數(shù)據(jù)集。

23、作為優(yōu)選，s36包括：對(duì)穩(wěn)相信號(hào)梅爾譜和模擬雷達(dá)梅爾譜沿頻率維進(jìn)行能量匯聚，分別得到對(duì)應(yīng)的時(shí)間能量序列；計(jì)算兩端時(shí)間能量序列在時(shí)間平移下的歸一化相關(guān)系數(shù)；根據(jù)歸一化相關(guān)系數(shù)構(gòu)建代價(jià)函數(shù)；通過(guò)最小化代價(jià)函數(shù)，得到音頻信號(hào)與雷達(dá)信號(hào)之間的最優(yōu)時(shí)間平移量。

24、作為優(yōu)選，s4包括

25、s41、構(gòu)建包括編碼器、跨模態(tài)注意力模塊、解碼器和判別器的物理引導(dǎo)的多模態(tài)重建網(wǎng)絡(luò)模型；

26、將穩(wěn)相信號(hào)梅爾譜輸入編碼器，提取毫米波雷達(dá)信號(hào)的多尺度時(shí)頻特征；以聲門(mén)物理參數(shù)作為條件輸入，對(duì)語(yǔ)音生成過(guò)程進(jìn)行物理引導(dǎo)；使用跨模態(tài)注意力模塊融合穩(wěn)相信號(hào)梅爾譜和聲門(mén)物理參數(shù)，生成條件特征；解碼器將條件特征還原為語(yǔ)音梅爾頻譜圖；判別器采用卷積堆疊結(jié)構(gòu)對(duì)穩(wěn)相信號(hào)梅爾譜與條件特征進(jìn)行聯(lián)合判別。

27、作為優(yōu)選，s4還包括：

28、s42、通過(guò)最小化語(yǔ)音梅爾頻譜圖與參考音頻信號(hào)的真實(shí)語(yǔ)音譜之間的差異，構(gòu)建聯(lián)合損失函數(shù)為：

29、

30、其中，為對(duì)抗損失項(xiàng)，為特征匹配損失項(xiàng)，為總變分正則項(xiàng)，、和分別表示對(duì)應(yīng)損失項(xiàng)的權(quán)重系數(shù)；在每個(gè)訓(xùn)練批次中引入r1梯度懲罰項(xiàng)約束判別器的梯度幅度。

31、作為優(yōu)選，s4還包括：語(yǔ)音梅爾頻譜圖經(jīng)逆梅爾變換和逆短時(shí)傅里葉變換重建生成最終語(yǔ)音波形；s5中，分別將參考音頻信號(hào)下的真實(shí)語(yǔ)音波形與最終語(yǔ)音波形輸入輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)分類(lèi)器，通過(guò)比較兩者的識(shí)別結(jié)果評(píng)估多模態(tài)重建網(wǎng)絡(luò)模型的身份保持能力。

32、與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果體現(xiàn)在：

33、（1）區(qū)別于傳統(tǒng)依賴(lài)深度模型的方案，本發(fā)明引入穩(wěn)相處理、去漂移、音節(jié)結(jié)構(gòu)及聲門(mén)參數(shù)等物理建模作為網(wǎng)絡(luò)條件，引導(dǎo)生成模型穩(wěn)定學(xué)習(xí)發(fā)聲機(jī)理，使雷達(dá)弱回波下的語(yǔ)音重建具備更強(qiáng)魯棒性、可解釋性與泛化能力。

34、（2）區(qū)別于傳統(tǒng)技術(shù)中直接以深度網(wǎng)絡(luò)映射雷達(dá)信號(hào)、難以保證時(shí)頻一致性的方案，本發(fā)明采用穩(wěn)相處理、去漂移與音節(jié)分割相結(jié)合，并引入跨模態(tài)注意力融合的技術(shù)方案，使得雷達(dá)到語(yǔ)音頻譜的映射更準(zhǔn)確，重建語(yǔ)音清晰度與可懂度顯著提升。

35、（3）區(qū)別于僅依賴(lài)有限真實(shí)毫米波數(shù)據(jù)的訓(xùn)練方式，本發(fā)明基于聲學(xué)模型與雷達(dá)傳播特性構(gòu)建模擬樣本，形成與真實(shí)數(shù)據(jù)一致的振動(dòng)特征，顯著擴(kuò)充訓(xùn)練集多樣性，提高模型在不同環(huán)境和語(yǔ)者條件下的泛化能力與穩(wěn)定性。

36、（4）區(qū)別于僅進(jìn)行譜圖重建的方案，本發(fā)明引入多任務(wù)輕量級(jí)分類(lèi)網(wǎng)絡(luò)，同時(shí)執(zhí)行語(yǔ)音語(yǔ)義與說(shuō)話人身份識(shí)別，對(duì)生成器施加語(yǔ)義一致性約束，使重建語(yǔ)音在內(nèi)容可辨識(shí)度、個(gè)體一致性與應(yīng)用可靠性方面顯著提高。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳迎笑,范龍威,韓建平,胡廣
技術(shù)所有人：杭州電子科技大學(xué)
我是此專(zhuān)利的發(fā)明人

網(wǎng)友詢(xún)問(wèn)留言留言:0條

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

文明留言，給您點(diǎn)贊！

同類(lèi)技術(shù)