本發(fā)明涉及毫米波雷達(dá)信號(hào)處理與語(yǔ)音重建,尤其涉及一種基于物理引導(dǎo)網(wǎng)絡(luò)的毫米波雷達(dá)語(yǔ)音重建與識(shí)別方法。
背景技術(shù):
1、語(yǔ)音信號(hào)是人機(jī)交互、語(yǔ)音識(shí)別與通信系統(tǒng)中的核心信息載體。傳統(tǒng)語(yǔ)音采集通常依賴(lài)麥克風(fēng)陣列,通過(guò)空氣介質(zhì)接收聲壓波來(lái)捕獲語(yǔ)音。然而,在高噪聲、強(qiáng)回聲或聲源被遮擋的環(huán)境下,聲學(xué)信號(hào)易受干擾,信噪比顯著降低,甚至無(wú)法獲得有效語(yǔ)音信息。此外,麥克風(fēng)方法依賴(lài)聲波傳播路徑,受距離衰減影響明顯,難以滿足遠(yuǎn)距離、非接觸式語(yǔ)音采集的需求。
2、毫米波雷達(dá)作為一種主動(dòng)式電磁傳感器,具有非接觸、抗遮擋和抗噪性能強(qiáng)等優(yōu)勢(shì)。毫米波波長(zhǎng)短,可探測(cè)亞毫米級(jí)位移,因此能夠捕獲人體喉嚨部位的由聲帶振動(dòng)及口腔氣流變化引起的微小振動(dòng)信號(hào)。通過(guò)雷達(dá)回波相位變化可間接表征發(fā)聲活動(dòng)的物理特征,為語(yǔ)音信號(hào)的非接觸式采集提供了新的途徑。這一特性在隱私保護(hù)、醫(yī)療監(jiān)測(cè)以及嘈雜環(huán)境下的語(yǔ)音通信等場(chǎng)景中具有顯著應(yīng)用潛力。
3、然而,毫米波雷達(dá)信號(hào)中包含大量靜態(tài)背景雜波與系統(tǒng)性相位噪聲,語(yǔ)音相關(guān)振動(dòng)信號(hào)幅值遠(yuǎn)低于噪聲背景,直接提取語(yǔ)音特征具有較大難度。發(fā)聲過(guò)程的微位移信號(hào)在時(shí)頻域上呈現(xiàn)多尺度、非平穩(wěn)特征,既包含聲帶基頻振動(dòng),又疊加身體和口腔共振等低頻成分,使得傳統(tǒng)濾波與分量分解方法難以準(zhǔn)確分離有效語(yǔ)音信息。現(xiàn)有研究多集中于毫米波雷達(dá)的呼吸、心跳監(jiān)測(cè)等低頻生理信號(hào)檢測(cè),這類(lèi)信號(hào)模式簡(jiǎn)單、頻率低,無(wú)法形成具有復(fù)雜結(jié)構(gòu)的語(yǔ)音時(shí)頻模式,也無(wú)法重建高保真語(yǔ)音。因此,亟需一種能夠?qū)撩撞ɡ走_(dá)信號(hào)進(jìn)行有效預(yù)處理、雜波抑制與語(yǔ)音特征重建的算法體系,實(shí)現(xiàn)雷達(dá)信號(hào)向音頻信號(hào)的精確映射與語(yǔ)音還原。
技術(shù)實(shí)現(xiàn)思路
1、鑒于現(xiàn)有技術(shù)的上述缺陷,本發(fā)明提供一種基于物理引導(dǎo)網(wǎng)絡(luò)的毫米波雷達(dá)語(yǔ)音重建與識(shí)別方法。該方法通過(guò)分析人體喉嚨部位的微振動(dòng)信號(hào),實(shí)現(xiàn)非接觸式語(yǔ)音恢復(fù)與重建,具有高精度、強(qiáng)魯棒性及隱私保護(hù)等優(yōu)勢(shì)。
2、為達(dá)到上述目的,本發(fā)明所采用的技術(shù)方案是:
3、一種基于物理引導(dǎo)網(wǎng)絡(luò)的毫米波雷達(dá)語(yǔ)音重建與識(shí)別方法,包括以下步驟:
4、s1、使用毫米波雷達(dá)對(duì)待測(cè)目標(biāo)發(fā)射射頻信號(hào)并接收回波信號(hào),同時(shí)采集參考音頻信號(hào);s2、根據(jù)回波信號(hào)提取穩(wěn)相信號(hào)梅爾譜;
5、s3、通過(guò)對(duì)參考音頻信號(hào)和公共語(yǔ)音數(shù)據(jù)集進(jìn)行音頻信號(hào)模擬生成模擬雷達(dá)梅爾譜;對(duì)穩(wěn)相信號(hào)梅爾譜和模擬雷達(dá)梅爾譜進(jìn)行同步與標(biāo)準(zhǔn)化,構(gòu)建語(yǔ)音信號(hào)數(shù)據(jù)集;s4、構(gòu)建多模態(tài)語(yǔ)音重建網(wǎng)絡(luò)模型;根據(jù)語(yǔ)音信號(hào)數(shù)據(jù)集訓(xùn)練多模態(tài)語(yǔ)音重建網(wǎng)絡(luò)模型;將新采集的真實(shí)毫米波雷達(dá)信號(hào)輸入訓(xùn)練后的多模態(tài)語(yǔ)音重建網(wǎng)絡(luò)模型進(jìn)行語(yǔ)音重建,輸出非接觸式的語(yǔ)音梅爾頻譜圖;
6、s5、將語(yǔ)音梅爾頻譜圖輸入構(gòu)建的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)分類(lèi)器,輸出說(shuō)話人的身份類(lèi)別標(biāo)簽。
7、作為優(yōu)選,s2包括:
8、s21、對(duì)回波信號(hào)進(jìn)行預(yù)處理后,在距離維執(zhí)行快速傅里葉變換并進(jìn)行背景扣除;
9、s22、對(duì)背景扣除后的回波信號(hào)進(jìn)行慢時(shí)間背景建模和去除;
10、s23、基于慢時(shí)間背景去除后的多通道接收信號(hào)構(gòu)造空間協(xié)方差矩陣,并采用波束形成算法進(jìn)行空間濾波,生成波束形成輸出信號(hào);
11、s24、對(duì)波束形成輸出信號(hào)進(jìn)行相位解調(diào)去除系統(tǒng)漂移,得到穩(wěn)相信號(hào)。
12、作為優(yōu)選,s2還包括基于穩(wěn)相信號(hào)的周期性變化檢測(cè)語(yǔ)音節(jié)段邊界,通過(guò)自適應(yīng)閾值法或能量包絡(luò)分析進(jìn)行音節(jié)分割,并對(duì)每段信號(hào)進(jìn)行周期增強(qiáng)擬合,獲得音節(jié)結(jié)構(gòu)與時(shí)間邊界。
13、作為優(yōu)選,s3包括:
14、s31、獲取公共語(yǔ)音數(shù)據(jù)集;對(duì)參考音頻信號(hào)和公共語(yǔ)音數(shù)據(jù)集進(jìn)行重采樣與分幀處理,生成重采樣信號(hào);
15、s32、對(duì)重采樣信號(hào)進(jìn)行包絡(luò)提取與帶通濾波處理,生成模擬振動(dòng)信號(hào);
16、s33、對(duì)模擬振動(dòng)信號(hào)疊加高斯白噪聲,生成加噪后模擬雷達(dá)振動(dòng)信號(hào);
17、s34、對(duì)加噪后模擬雷達(dá)振動(dòng)信號(hào)執(zhí)行短時(shí)傅里葉變換與梅爾濾波器組映射,生成模擬雷達(dá)梅爾譜。
18、作為優(yōu)選,s3還包括:
19、s35、對(duì)參考音頻信號(hào)執(zhí)行線性預(yù)測(cè)分析,通過(guò)逆濾波獲得聲門(mén)殘差信號(hào);基于聲門(mén)殘差信號(hào)的頻譜分析,提取包括基頻、第一諧波幅度、第二諧波幅度、聲門(mén)參數(shù)和氣流參數(shù)的聲門(mén)物理參數(shù)。
20、作為優(yōu)選,s3還包括:
21、s36、對(duì)穩(wěn)相信號(hào)梅爾譜和模擬雷達(dá)梅爾譜計(jì)算能量包絡(luò)并進(jìn)行相關(guān)匹配,計(jì)算最優(yōu)時(shí)間平移量;根據(jù)最優(yōu)時(shí)間平移量對(duì)穩(wěn)相信號(hào)梅爾譜和模擬雷達(dá)梅爾譜進(jìn)行時(shí)間對(duì)齊,以實(shí)現(xiàn)參考音頻信號(hào)與回波信號(hào)的時(shí)間同步;
22、s37、根據(jù)時(shí)間對(duì)齊后的穩(wěn)相信號(hào)梅爾譜和模擬雷達(dá)梅爾譜,構(gòu)建包含雷達(dá)模態(tài)和音頻模態(tài)的語(yǔ)音信號(hào)數(shù)據(jù)集。
23、作為優(yōu)選,s36包括:對(duì)穩(wěn)相信號(hào)梅爾譜和模擬雷達(dá)梅爾譜沿頻率維進(jìn)行能量匯聚,分別得到對(duì)應(yīng)的時(shí)間能量序列;計(jì)算兩端時(shí)間能量序列在時(shí)間平移下的歸一化相關(guān)系數(shù);根據(jù)歸一化相關(guān)系數(shù)構(gòu)建代價(jià)函數(shù);通過(guò)最小化代價(jià)函數(shù),得到音頻信號(hào)與雷達(dá)信號(hào)之間的最優(yōu)時(shí)間平移量。
24、作為優(yōu)選,s4包括
25、s41、構(gòu)建包括編碼器、跨模態(tài)注意力模塊、解碼器和判別器的物理引導(dǎo)的多模態(tài)重建網(wǎng)絡(luò)模型;
26、將穩(wěn)相信號(hào)梅爾譜輸入編碼器,提取毫米波雷達(dá)信號(hào)的多尺度時(shí)頻特征;以聲門(mén)物理參數(shù)作為條件輸入,對(duì)語(yǔ)音生成過(guò)程進(jìn)行物理引導(dǎo);使用跨模態(tài)注意力模塊融合穩(wěn)相信號(hào)梅爾譜和聲門(mén)物理參數(shù),生成條件特征;解碼器將條件特征還原為語(yǔ)音梅爾頻譜圖;判別器采用卷積堆疊結(jié)構(gòu)對(duì)穩(wěn)相信號(hào)梅爾譜與條件特征進(jìn)行聯(lián)合判別。
27、作為優(yōu)選,s4還包括:
28、s42、通過(guò)最小化語(yǔ)音梅爾頻譜圖與參考音頻信號(hào)的真實(shí)語(yǔ)音譜之間的差異,構(gòu)建聯(lián)合損失函數(shù)為:
29、
30、其中,為對(duì)抗損失項(xiàng),為特征匹配損失項(xiàng),為總變分正則項(xiàng),、和分別表示對(duì)應(yīng)損失項(xiàng)的權(quán)重系數(shù);在每個(gè)訓(xùn)練批次中引入r1梯度懲罰項(xiàng)約束判別器的梯度幅度。
31、作為優(yōu)選,s4還包括:語(yǔ)音梅爾頻譜圖經(jīng)逆梅爾變換和逆短時(shí)傅里葉變換重建生成最終語(yǔ)音波形;s5中,分別將參考音頻信號(hào)下的真實(shí)語(yǔ)音波形與最終語(yǔ)音波形輸入輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)分類(lèi)器,通過(guò)比較兩者的識(shí)別結(jié)果評(píng)估多模態(tài)重建網(wǎng)絡(luò)模型的身份保持能力。
32、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果體現(xiàn)在:
33、(1)區(qū)別于傳統(tǒng)依賴(lài)深度模型的方案,本發(fā)明引入穩(wěn)相處理、去漂移、音節(jié)結(jié)構(gòu)及聲門(mén)參數(shù)等物理建模作為網(wǎng)絡(luò)條件,引導(dǎo)生成模型穩(wěn)定學(xué)習(xí)發(fā)聲機(jī)理,使雷達(dá)弱回波下的語(yǔ)音重建具備更強(qiáng)魯棒性、可解釋性與泛化能力。
34、(2)區(qū)別于傳統(tǒng)技術(shù)中直接以深度網(wǎng)絡(luò)映射雷達(dá)信號(hào)、難以保證時(shí)頻一致性的方案,本發(fā)明采用穩(wěn)相處理、去漂移與音節(jié)分割相結(jié)合,并引入跨模態(tài)注意力融合的技術(shù)方案,使得雷達(dá)到語(yǔ)音頻譜的映射更準(zhǔn)確,重建語(yǔ)音清晰度與可懂度顯著提升。
35、(3)區(qū)別于僅依賴(lài)有限真實(shí)毫米波數(shù)據(jù)的訓(xùn)練方式,本發(fā)明基于聲學(xué)模型與雷達(dá)傳播特性構(gòu)建模擬樣本,形成與真實(shí)數(shù)據(jù)一致的振動(dòng)特征,顯著擴(kuò)充訓(xùn)練集多樣性,提高模型在不同環(huán)境和語(yǔ)者條件下的泛化能力與穩(wěn)定性。
36、(4)區(qū)別于僅進(jìn)行譜圖重建的方案,本發(fā)明引入多任務(wù)輕量級(jí)分類(lèi)網(wǎng)絡(luò),同時(shí)執(zhí)行語(yǔ)音語(yǔ)義與說(shuō)話人身份識(shí)別,對(duì)生成器施加語(yǔ)義一致性約束,使重建語(yǔ)音在內(nèi)容可辨識(shí)度、個(gè)體一致性與應(yīng)用可靠性方面顯著提高。