本發明屬于語音識別知識問答,具體涉及基于骨傳導交互的語音識別知識問答方法及系統。
背景技術:
1、在基于骨傳導交互的語音識別知識問答過程中,系統需要在嘈雜環境和長時多輪對話中穩定采集用戶語音,并將語音準確轉換為問題文本,再基于知識庫,完成術語解讀和條目匹配,生成回復語音,而由于骨傳導拾音和空氣聲麥克風的采集鏈路不同,且用戶在佩戴松緊變化、頭部姿態變化與插話打斷等交互過程中會引起語音片段形態波動,使得雙通道語音數據難以長期保持同步一致,語音識別條件也難以穩定設定。
2、現有技術中,基于骨傳導交互的語音識別知識問答方法通常是同時采集骨傳導音頻和空氣聲音頻,并通過短時相關對齊或固定時延補償進行融合增強,再對增強語音進行語音識別,并輸出問答回復。但骨傳導音頻和空氣聲音頻通常由不同采集前端產生,采樣時鐘不一致在長時對話中會逐步累積為錯位,使得短時對齊容易被錯位放大,并發生誤判,導致融合增強和語音識別逐步失效,出現越聊越不準、誤觸發和重復追問增加的情況,使得語音識別知識問答交互的準確性差、穩定性差。
技術實現思路
1、本發明的目的是提供基于骨傳導交互的語音識別知識問答方法及系統。
2、為解決上述技術問題,本發明提供如下技術方案:
3、一方面,本發明提供基于骨傳導交互的語音識別知識問答方法,包括:
4、采集骨傳導交互語音信號和空氣聲輔助語音信號,構建非交叉對齊錨點鏈,并進行分段時軸重參數化對齊,得到最終雙通道對齊語音流和最終時軸偏離殘差序列;
5、基于最終雙通道對齊語音流和最終時軸偏離殘差序列,生成融合抑制掩膜,并進行門控融合增強,得到語音識別增強語音信號和語音段邊界信息;
6、基于語音識別增強語音信號和語音段邊界信息,進行術語解讀和知識條目匹配,生成骨傳導交互回復語音信號。
7、具體的,采集骨傳導交互語音信號和空氣聲輔助語音信號,構建非交叉對齊錨點鏈,并進行分段時軸重參數化對齊,得到最終雙通道對齊語音流和最終時軸偏離殘差序列,包括:
8、采集骨傳導交互語音信號和空氣聲輔助語音信號,生成穩定問答語音潛狀態軌跡,并定位局部形態,得到問答交互錨點幀集合;
9、基于問答交互錨點幀集合,構造骨傳導錨點描述子集和空氣聲錨點描述子集,生成有效錨點對集合,并進行二階動態規劃求解,得到非交叉對齊錨點鏈;
10、基于非交叉對齊錨點鏈,確定相鄰錨點對,按相鄰錨點對劃分分段區間,并在各分段區間內進行線性插值,得到分段時軸重參數化映射;
11、基于分段時軸重參數化映射,對骨傳導交互語音信號和空氣聲輔助語音信號進行重采樣對齊,得到雙通道對齊語音流;
12、基于雙通道對齊語音流,定位最差對齊區間,并進行補點試插,更新非交叉對齊錨點鏈,得到最終雙通道對齊語音流和最終時軸偏離殘差序列。
13、具體的,采集骨傳導交互語音信號和空氣聲輔助語音信號,生成穩定問答語音潛狀態軌跡,并定位局部形態,得到問答交互錨點幀集合,包括:
14、采集骨傳導交互語音信號和空氣聲輔助語音信號,對骨傳導交互語音信號和空氣聲輔助語音信號進行滑動分幀,并進行語音識別幀編碼,得到兩路語音識別幀嵌入序列;
15、基于兩路語音識別幀嵌入序列,構建骨傳導空氣聲互證耦合重建模型,并進行問答語音潛狀態更新,得到兩路問答語音隱語音狀態軌跡和對應的不確定性序列;
16、基于不確定性序列,選取可信保留維度集合,對兩路問答語音隱語音狀態軌跡進行低可信維度抑制,得到穩定問答語音潛狀態軌跡;
17、基于穩定問答語音潛狀態軌跡,計算一階差分向量序列,并將一階差分向量序列轉換為語音狀態符號編碼序列;
18、基于語音狀態符號編碼序列,確定符號翻轉和回穩判據,并通過符號翻轉和回穩判據定位局部形態,提取問答交互錨點幀集合。
19、具體的,基于兩路語音識別幀嵌入序列,構建骨傳導空氣聲互證耦合重建模型,并進行問答語音潛狀態更新,得到兩路問答語音隱語音狀態軌跡和對應的不確定性序列,包括:
20、基于兩路語音識別幀嵌入序列,構建共享潛空間的問答語音潛狀態表示和問答語音潛狀態轉移模塊,并構建骨傳導觀測編碼分支和空氣聲觀測編碼分支,生成骨傳導觀測更新量和空氣聲觀測更新量,得到雙通道問答語音潛狀態推斷結構;
21、基于雙通道問答語音潛狀態推斷結構,構建同通道重建分支和跨通道互證重建分支,得到骨傳導空氣聲互證耦合重建模型;
22、基于骨傳導空氣聲互證耦合重建模型,計算各時間步的同通道重建殘差、跨通道互證重建殘差和對應的不確定性,得到同通道殘差序列、互證殘差序列和不確定性序列;
23、基于同通道殘差序列、互證殘差序列和不確定性序列,計算跨通道互證一致性量,并生成互證可信門控量;
24、基于互證可信門控量,對骨傳導觀測更新量和空氣聲觀測更新量進行篩選融合,并進行問答語音潛狀態更新,得到兩路問答語音隱語音狀態軌跡。
25、具體的,基于問答交互錨點幀集合,構造骨傳導錨點描述子集和空氣聲錨點描述子集,生成有效錨點對集合,并進行二階動態規劃求解,得到非交叉對齊錨點鏈,包括:
26、基于問答交互錨點幀集合,對語音狀態符號編碼序列進行切片,并對穩定問答語音潛狀態軌跡和不確定性序列進行局部匯聚,構造骨傳導錨點描述子集和空氣聲錨點描述子集;
27、基于穩定問答語音潛狀態軌跡,提取各幀的標量投影序列,并進行互相關粗對齊,構建時軸漂移初始線性映射,對骨傳導錨點幀索引進行正向投影,對空氣聲錨點幀索引進行逆向投影,得到正向錨點落點范圍和反向錨點落點范圍;
28、對正向錨點落點范圍和反向錨點落點范圍取交集,確定雙向一致錨點落點范圍表,對骨傳導錨點描述子集和空氣聲錨點描述子集進行配對,生成候選錨點對集合;
29、基于骨傳導錨點前后符號片段和空氣聲錨點前后符號片段,計算符號片段一致率,對候選錨點對集合進行篩選,得到有效錨點對集合;
30、基于有效錨點對集合,建立錨點對時序有向圖,構造三元組轉移代價,并進行二階動態規劃求解,得到非交叉對齊錨點鏈。
31、具體的,基于有效錨點對集合,建立錨點對時序有向圖,構造三元組轉移代價,并進行二階動態規劃求解,得到非交叉對齊錨點鏈,包括:
32、基于有效錨點對集合,計算錨點對匹配差異值,并將每個有效錨點對作為節點,并在錨點幀索引遞增的節點對之間建立有向邊,構建錨點對時序有向圖;
33、基于錨點對時序有向圖,提取滿足前一節點指向中間節點,且中間節點指向后續節點的兩跳路徑,構建三點預測三元組,得到三元組集合;
34、基于三元組集合,分別確定每個三點預測三元組的前一節點和中間節點的骨傳導錨點幀索引增量和空氣聲錨點幀索引增量,并計算與該三點預測三元組對應的局部時軸伸縮率;
35、基于局部時軸伸縮率,計算每個三點預測三元組的后續節點的預測落點,并計算預測偏差,得到與該三點預測三元組對應的三點時軸預測代價;
36、基于三點時軸預測代價和后續節點的錨點對匹配差異值,生成三元組轉移代價,將由前一節點和中間節點構成的有序組合作為二階狀態單元,并將三元組轉移代價作為二階狀態單元的轉移代價,進行二階動態規劃求解,得到非交叉對齊錨點鏈。
37、具體的,基于雙通道對齊語音流,定位最差對齊區間,并進行補點試插,更新非交叉對齊錨點鏈,得到最終雙通道對齊語音流和最終時軸偏離殘差序列,包括:
38、基于雙通道對齊語音流,提取對齊語音在各幀的分帶譜特征,并進行分帶歸一化,計算語音譜一致性量,生成時軸偏離殘差序列;
39、基于時軸偏離殘差序列,在各分段區間內進行區間匯聚,得到分段偏離殘差分數,并定位分段偏離殘差分數最大的最差對齊區間;
40、在與最差對齊區間對應的錨點幀索引范圍內生成新增候選錨點對,并將新增候選錨點對逐一試插入非交叉對齊錨點鏈,得到試插后的分段時軸重參數化映射;
41、基于試插后的分段時軸重參數化映射,重新計算最差對齊區間的分段偏離殘差分數和殘差下降幅度,對非交叉對齊錨點鏈進行更新;
42、基于更新后的非交叉對齊錨點鏈,重建分段時軸重參數化映射,生成最終雙通道對齊語音流,并計算最終時軸偏離殘差序列。
43、具體的,基于最終雙通道對齊語音流和最終時軸偏離殘差序列,生成融合抑制掩膜,并進行門控融合增強,得到語音識別增強語音信號和語音段邊界信息,包括:
44、基于最終雙通道對齊語音流,提取各幀的短時譜特征,并計算對齊后短時對數譜相關度和互譜相干度,確定各時頻單元,得到雙通道語音一致性特征圖;
45、基于最終時軸偏離殘差序列,生成殘差門控序列,并將殘差門控序列映射到雙通道語音一致性特征圖的幀維度,得到殘差調制一致性圖;
46、基于殘差調制一致性圖,生成殘差驅動融合掩膜先驗,建立時頻單元的相鄰連邊關系,并計算連邊權重,得到時頻連通圖;
47、基于時頻連通圖,構建融合掩膜能量函數,將融合掩膜能量函數展開為可微投影求解層并進行求解,得到融合抑制掩膜;
48、基于融合抑制掩膜,對最終雙通道對齊語音流進行門控融合增強,并進行噪聲譜抵消增強處理,得到語音識別增強語音信號和語音段邊界信息。
49、具體的,基于語音識別增強語音信號和語音段邊界信息,進行術語解讀和知識條目匹配,生成骨傳導交互回復語音信號,包括:
50、基于語音識別增強語音信號和語音段邊界信息,進行語音識別轉寫,得到用戶問答問題文本;
51、基于用戶問答問題文本,進行術語解讀和知識條目匹配,得到知識問答回復文本;
52、基于知識問答回復文本,進行語音合成播報,生成骨傳導交互回復語音信號。
53、另一方面,本發明提供基于骨傳導交互的語音識別知識問答系統,包括:
54、信號采集模塊,用于采集骨傳導交互語音信號和空氣聲輔助語音信號,構建非交叉對齊錨點鏈,并進行分段時軸重參數化對齊,得到最終雙通道對齊語音流和最終時軸偏離殘差序列;
55、語音識別模塊,基于最終雙通道對齊語音流和最終時軸偏離殘差序列,生成融合抑制掩膜,并進行門控融合增強,得到語音識別增強語音信號和語音段邊界信息;
56、交互回復模塊,基于語音識別增強語音信號和語音段邊界信息,進行術語解讀和知識條目匹配,生成骨傳導交互回復語音信號。
57、與現有技術相比,本發明的有益效果包括:通過對骨傳導交互語音信號和空氣聲輔助語音信號進行滑動分幀,生成兩路語音識別幀嵌入序列,根據互證耦合重建模型,生成問答語音隱語音狀態軌跡和不確定性序列,進行低可信維度抑制,通過符號翻轉和回穩判據,定位局部形態,并提取問答交互錨點幀集合,降低了錨點定位對噪聲和插話打斷的敏感度,從而降低長時對話中錯位對齊的誤判概率。通過對錨點描述子集施加雙向一致錨點落點范圍約束,并結合符號片段一致率篩選,得到有效錨點對集合,基于有效錨點對集合,構建錨點對時序有向圖,并結合三點預測三元組進行二階動態規劃求解,得到非交叉對齊錨點鏈,按相鄰錨點對形成分段時軸重參數化映射,并重采樣對齊,結合最差對齊區間的補點試插更新錨點鏈,使采樣時鐘差異造成的時軸漂移被分段映射吸收并被局部修正,從而提升雙通道同步一致性和交互穩定性。通過在最終雙通道對齊語音流上計算短時對數譜相關度和互譜相干度,得到雙通道語音一致性特征圖,并引入殘差門控序列,形成殘差調制一致性圖,基于殘差驅動融合掩膜先驗,構建時頻連通圖,求解融合抑制掩膜,并進行門控融合增強和噪聲譜抵消增強處理,使融合增強在對齊誤差增大時具備自抑制能力,從而提高語音識別準確性,并降低了誤觸發率和重復追問率。