本發明涉及智能語音交互,尤其涉及一種用于軟件的集成語音識別技術的智能交互系統。
背景技術:
1、當前主流的語音交互系統,其語音識別部分通常采用端到端模型或基于深度神經網絡的聲學模型與語言模型相結合的架構。這些系統在處理音頻后,解碼器通常直接輸出一個概率得分最高的文本序列作為識別結果,或者提供一個包含若干競爭候選的短列表,但最終輸出往往依賴于解碼過程中的內部評分機制,缺乏一個獨立、專項的后期評估與篩選環節。這種流程使得識別過程中的不確定性或細微錯誤可能被直接傳遞至下游模塊,在語音質量不佳或存在復雜語境干擾時,系統輸出的文本可能并非所有候選中的最優解,影響了后續處理的輸入質量。
2、在獲得識別文本后,現有技術方案常采用基于規則模板匹配或簡單關鍵詞抽取的方式進行語義理解。這類方法傾向于從文本表層直接提取零散的信息點,或者進行固定的模式比對,所得到的語義信息往往是扁平化、非結構化的。這導致系統對用戶指令意圖的捕捉停留在較淺層次,難以精確區分類似但目標不同的請求,也無法為后續的指令執行和數據查詢提供一個清晰、規范的參數框架。
技術實現思路
1、本發明的目的是解決現有技術中存在的缺點,而提出的一種用于軟件的集成語音識別技術的智能交互系統。
2、為了實現上述目的,本發明采用了如下技術方案:一種用于軟件的集成語音識別技術的智能交互系統,包括:
3、語音處理模塊,接收原始語音信號輸入,并對所述原始語音信號輸入進行預處理以生成數字音頻數據;
4、特征提取模塊,通過信號特征提取器對所述數字音頻數據進行分幀處理并提取每一幀的聲學特征參數,形成聲學特征序列;
5、語音識別模塊,將所述聲學特征序列輸入至已訓練的聲學模型進行概率計算,獲得包含多個候選音素的音素概率向量,根據語言模型對所述音素概率向量進行解碼搜索,生成由詞語組成的多個候選文本句子;
6、結果優化模塊,通過置信度評估器計算所述多個候選文本句子中每個候選文本句子的置信度分數,選取置信度分數最高的候選文本句子作為最終識別的文本結果;
7、語義解析模塊,將所述最終識別的文本結果轉換為結構化的語義表示,所述語義表示包含意圖類別和關鍵參數;
8、交互執行模塊,根據所述語義表示中的意圖類別匹配預置的交互指令集,基于所述關鍵參數查詢相應的數據資源,執行與所述交互指令集和查詢到的數據資源對應的交互操作,并生成系統響應。
9、作為本發明的進一步方案,通過信號特征提取器對所述數字音頻數據進行分幀處理并提取每一幀的聲學特征參數,形成聲學特征序列的步驟,包括:
10、對所述數字音頻數據進行加窗分幀處理,生成一系列長度相等的音頻幀;
11、對每個音頻幀進行預加重處理,補償高頻信號;
12、對經過預加重的音頻幀應用漢明窗函數以減少頻譜泄漏;
13、對加窗后的音頻幀執行快速傅里葉變換,將其從時域轉換到頻域,得到頻譜圖;
14、將所述頻譜圖通過梅爾濾波器組進行濾波,得到梅爾頻譜;
15、對所述梅爾頻譜取對數后進行離散余弦變換,得到梅爾頻率倒譜系數;
16、提取每幀音頻的所述梅爾頻率倒譜系數作為基礎聲學特征參數;
17、在所述梅爾頻率倒譜系數的基礎上補充計算一階差分系數和二階差分系數,形成擴展聲學特征參數;
18、將每幀音頻的所述基礎聲學特征參數和擴展聲學特征參數按順序組合為完整聲學特征參數;
19、將處理得到的每一幀的完整聲學特征參數按時間順序排列,形成所述聲學特征序列。
20、作為本發明的進一步方案,根據語言模型對所述音素概率向量進行解碼搜索,生成由詞語組成的多個候選文本句子的步驟,包括:
21、構建一個以音素為節點、詞語為路徑的搜索網絡;
22、將所述音素概率向量中的概率值映射到所述搜索網絡的對應節點上;
23、使用維特比算法在所述搜索網絡中進行路徑搜索,計算從起始節點到終止節點的最優路徑概率;
24、同時保留除最優路徑外的若干條次優路徑;
25、對于搜索到的每條路徑,根據路徑上節點的音素序列進行詞語邊界檢測,將連續音素序列切分為的詞語序列;
26、對于每個的詞語序列,使用所述語言模型計算其作為連續詞語出現的概率,即語言模型概率;
27、結合所述最優路徑概率和所述語言模型概率,計算每條路徑的綜合得分;
28、根據所述綜合得分對路徑進行排序,選取綜合得分最高的預設數量的路徑;
29、將選取的每條路徑對應的詞語序列作為候選文本句子。
30、作為本發明的進一步方案,通過置信度評估器計算所述多個候選文本句子中每個候選文本句子的置信度分數的步驟,包括:
31、獲取每個候選文本句子對應的聲學模型分數和語言模型分數;
32、計算所述候選文本句子的聲學模型分數與聲學模型基準分數之間的聲學分數差異;
33、計算所述候選文本句子的語言模型分數與語言模型基準分數之間的語言分數差異;
34、獲取所述候選文本句子在解碼過程中的路徑競爭信息,所述路徑競爭信息包含與其分數接近的競爭路徑數量;
35、統計所述候選文本句子中每個詞語的詞頻,并計算詞語平均詞頻;
36、將所述聲學分數差異、語言分數差異、路徑競爭信息和詞語平均詞頻作為輸入特征;
37、將輸入特征輸入至已訓練的置信度評估模型,所述置信度評估模型輸出一個介于零到一之間的數值;
38、將所述置信度評估模型輸出的數值作為所述候選文本句子的置信度分數。
39、作為本發明的進一步方案,將所述最終識別的文本結果轉換為結構化的語義表示,所述語義表示包含意圖類別和關鍵參數的步驟,包括:
40、對所述最終識別的文本結果進行分詞和詞性標注,生成詞語序列和對應的詞性標簽序列;
41、基于所述詞語序列和詞性標簽序列,應用命名實體識別技術識別出文本中的實體名稱;
42、對識別出的實體名稱進行分類,得到實體類別;
43、應用依存句法分析技術分析所述詞語序列中詞語之間的語法依存關系;
44、基于所述語法依存關系,構建所述最終識別的文本結果的句法依存樹;
45、遍歷所述句法依存樹,提取作為句子核心的謂語動詞;
46、根據預設的意圖分類規則庫,將所述謂語動詞映射為對應的意圖類別;
47、從所述句法依存樹中提取與所述謂語動詞存在直接語法關系的詞語,作為待選關鍵參數;
48、結合所述實體類別對所述待選關鍵參數進行篩選和賦值,形成關鍵參數集合;
49、將所述意圖類別和關鍵參數集合組合為結構化的語義表示。
50、作為本發明的進一步方案,根據所述語義表示中的意圖類別匹配預置的交互指令集的步驟,包括:
51、維護一個意圖指令映射數據庫,所述意圖指令映射數據庫記錄每個意圖類別與一組交互指令的對應關系;
52、從所述語義表示中解析出所述意圖類別;
53、以所述意圖類別作為查詢鍵,在所述意圖指令映射數據庫中進行匹配查找;
54、若在所述意圖指令映射數據庫中查找到完全匹配的記錄,則將所述記錄對應的一組交互指令作為預匹配指令集;
55、若未查找到完全匹配的記錄,則計算所述意圖類別與數據庫中存儲的各意圖類別之間的語義相似度;
56、選取語義相似度超過預設相似度閾值的意圖類別對應的交互指令,作為補充匹配指令集;
57、將所述預匹配指令集或補充匹配指令集合并為最終的交互指令集。
58、作為本發明的進一步方案,基于所述關鍵參數查詢相應的數據資源的步驟,包括:
59、分析所述關鍵參數的數據類型和格式要求;
60、根據所述數據類型和格式要求,選擇適配的數據源接口;
61、根據所述關鍵參數的具體數值構造符合所述數據源接口要求的查詢請求;
62、通過所述數據源接口向目標數據資源發送所述查詢請求;
63、接收來自目標數據資源的數據查詢結果;
64、對所述數據查詢結果進行格式轉換和冗余信息過濾,得到標準化查詢結果;
65、將所述標準化查詢結果與所述關鍵參數進行關聯存儲。
66、作為本發明的進一步方案,分析所述關鍵參數的數據類型和格式要求的步驟,包括:
67、檢查所述關鍵參數中是否包含特定格式的標識符,所述特定格式包含日期格式、時間格式、數字格式、貨幣格式、百分比格式;
68、若包含所述特定格式的標識符,則根據標識符的類型確定所述關鍵參數的數據類型;
69、若不包含明顯標識符,則對所述關鍵參數進行文本分析,統計其字符組成和結構模式;
70、根據統計的字符組成和結構模式,與預定義的數據類型模式庫進行匹配;
71、從所述數據類型模式庫中匹配出最相符的數據類型;
72、根據確定的數據類型,從系統配置中讀取所述數據類型對應的標準格式要求,所述標準格式要求包含數據長度范圍、精度要求和單位信息。
73、作為本發明的進一步方案,執行與所述交互指令集和查詢到的數據資源對應的交互操作,并生成系統響應的步驟,包括:
74、解析所述交互指令集中的每條指令,所述每條指令包含操作類型和操作參數;
75、根據所述操作類型調用系統中對應的功能執行器;
76、將所述操作參數和所述標準化查詢結果作為輸入,提供給所述功能執行器;
77、所述功能執行器執行具體操作,產生操作結果;
78、獲取所述操作結果的屬性,所述屬性包含數據內容、成功或失敗狀態;
79、根據所述屬性生成對應的響應模板;
80、將所述操作結果的具體內容填充到所述響應模板中,形成原始響應文本;
81、根據用戶歷史交互偏好對所述原始響應文本進行語言風格調整,生成最終的系統響應文本;
82、將所述最終的系統響應文本緩存至響應隊列中。
83、作為本發明的進一步方案,根據用戶歷史交互偏好對所述原始響應文本進行語言風格調整,生成最終的系統響應文本的步驟,包括:
84、從用戶歷史交互記錄中提取用戶使用過的句式結構和詞匯選擇;
85、統計所述句式結構和詞匯選擇的出現頻率,形成用戶語言特征模型;
86、將所述原始響應文本進行句子結構分析,得到句子成分和連接方式;
87、使用所述用戶語言特征模型對所述原始響應文本的句子成分和連接方式進行調整,使調整后的句子結構與用戶常用句式結構相符;
88、識別所述原始響應文本中的核心詞匯,在所述用戶語言特征模型中找到用戶更常使用的同義或近義詞匯進行替換;
89、檢查調整和替換后的文本是否符合語法規范;
90、若符合語法規范,則將文本作為最終的系統響應文本;
91、若不符合語法規范,則回退到調整前的原始響應文本作為最終的系統響應文本。
92、與現有技術相比,本發明的優點和積極效果在于:
93、通過引入一個獨立的置信度評估器,對語音識別模塊產生的多個候選文本句子進行專項的置信度分數計算,并依據此分數進行重排序與選擇。該評估過程可以綜合考量聲學模型得分、語言模型得分、詞圖穩定性等多種特征,形成對候選句子可信度的多維量化判斷。這改變了過去依賴單一解碼路徑或內部分數的決策方式,構建了一個專用于結果優選的后處理環節。這樣降低了因識別階段不確定而導致錯誤文本向下游傳遞的風險,從多個可能答案中系統地篩選出最可信的一個,為后續所有處理步驟提供了一個更為堅實、可靠的文本輸入基礎,提升了整個交互鏈路的初始準確性。
94、將最終識別文本轉換為一種結構化的語義表示,該表示明確區分并包含了“意圖類別”和“關鍵參數”兩個核心要素。這一轉換過程超越了簡單的關鍵詞匹配或模板填充,它需要對句子進行深層的句法與語義分析,將用戶自由表達的語句歸一化到預先定義的意圖分類體系中,并從中精準抽取出執行該意圖所必需的變量信息。這種結構化的輸出形式,使得語義信息從非結構化的自然語言文本轉變為機器可直接、無歧義解讀與操作的數據對象。后續的交互執行模塊能夠依據標準化的意圖類別進行快速、精準的指令匹配,并利用規范化的關鍵參數進行高效的數據資源查詢與填充,簡化了交互邏輯的復雜性,提高了系統響應的準確性和執行效率,實現了從“聽懂文字”到“理解意圖并準備好執行要素”的關鍵提升。