一種智能語音交互識別的檢測方法與流程

文檔序號：45270599發布日期：2026-04-17 20:08閱讀：7來源：國知局

本發明涉及語音設備測試，尤其涉及一種智能語音交互識別的檢測方法。

背景技術：

1、在智能家居、智能座艙、手機、電腦等現代化電子產品中，語音喚醒、交互控制是構成產品良好人機體驗中不可缺少的一環。

2、語音交互智能測試，是在噪聲回放的基礎上，控制待測產品處的信噪比，播放語料信號，并抓取待測產品的結果返回。一般情況下，還需要在不同的位置不同角度發聲，以全面模擬產品實際使用的情況。智能語音交互識別測試，包含智能化測試和音質測試。智能化測試包含喚醒率、誤喚醒率、語音識別能力、聲紋識別能力、語音打斷、響應時間等項目；音質測試包含聲壓級、頻響、空閑噪聲、失真等項目。

3、現有技術中，智能語音交互測試時，多采用直線電機+升降桌+轉臺搭建一個四軸（xyz+水平旋轉）運行平臺，在平臺上放置發聲源來測試。該方式需要再實驗室內鋪設多條移動軌道，會導致實驗室內設備雜亂，聲環境差的問題。

4、另外，現有技術中，通過進入產品開發者模式，抓取log的方式，來解析產品的響應情況，這個對產品要求很高，一般得是開發階段或者是工廠固件的產品才能做到，實際上大部分測試產品，都是市購的成品，出廠固件早就封堵了log抓取渠道，現存的測試方式不足以覆蓋所有的待測產品，會導致測試前需要向多個零部件的廠家溝通提供測試過程中的后臺數據，無法自己直接獲取，費時費力。

5、上述問題亟待解決。

技術實現思路

1、本發明公開了一種智能語音交互識別的檢測方法，旨在解決現有技術中存在的技術問題。

2、本發明采用下述技術方案，其包括：基于檢測環境內的傳聲器，校準所述檢測環境中的背景噪聲均衡性；設定機器人按照預定坐標位置移動，并在預定坐標位置中的任意一個位置點處播放語料，其中，所述預定坐標位置中包括多個位置點；基于所述機器人內置的收音器以及攝像頭，收集智能語音交互設備傳出的應答內容；將所述應答內容傳至大模型，基于所述大模型識別所述應答內容中的關鍵詞，并對所述應答內容以及所述關鍵詞進行記錄；判斷預定坐標位置中是否存在未到達的位置點，在所述預定坐標位置中存在未到達的位置點的情況下，機器人移動至未達到的位置點處播放語料，在所述預定坐標位置中不存在未到達的位置點的情況下，將所有位置點處收集到的應答內容以及關鍵詞輸出形成檢測報告。

3、可選的，方法還包括：所述機器人移動到預定坐標位置中的位置點播放語料后，當所述智能語音交互設備的工廠固件接口未封閉的情況下，連接工廠固件接口與終端，獲取所述智能語音交互設備的日志，并記錄所述日志，其中，所述日志包括所述智能語音交互設備的應答內容。

4、可選的，所述檢測環境中的傳聲器包括四臺有源全頻音響和一臺有源低音炮，所述四臺有源全頻音響放置于所述檢測環境的四個空間角落中，所述有源低音炮放置于所述檢測環境中任意兩個相鄰的有源全頻音響之間。

5、可選的，所述基于檢測環境內的傳聲器，校準所述檢測環境中的背景噪聲均衡性，包括：校準所述傳聲器的靈敏度；單校準所述有源低音炮，保持所述有源低音炮的頻寬在50hz至125hz之間；依次校準四臺所述有源全頻音響，保持所述有源全頻音響的頻寬在125hz至10khz之間；選擇任意一個寬頻噪聲驗證校準結果，在所述校準結果達到預設標準的情況下，結束校準，在所述校準結果未達到預設標準的情況下，重新校準。

6、可選的，所述依次校準四臺所述有源全頻音響，保持所述有源全頻音響的頻寬在125hz至10khz之間，包括：對四個所述有源全頻音響依次進行單校準，保持頻寬在125hz至10khz之間；對四個所述有源全頻音響中任意兩個相鄰的有源全頻音響進行雙校準，再對剩余兩個有源全頻音響進行雙校準，保持頻寬在125hz至10khz之間；對四個所述有源全頻音響同時進行四校準，保持頻寬在125hz至10khz之間。

7、可選的，設定機器人按照預定坐標位置移動之后，且在預定坐標位置中的任意一個位置點處播放語料之前，方法還包括：測量所述背景噪聲在所述智能語音交互設備處第一聲壓；停止所述背景噪聲，機器人播放語料，測量所述智能語音交互設備處第二聲壓；基于所述第一聲壓以及所述第二聲壓，計算實際信噪比；確定所述實際信噪比與目標信噪比范圍的差距，基于所述差距，調節所述機器人播放語料的通道音量。

8、可選的，確定所述實際信噪比與目標信噪比范圍的差距，基于所述差距，調節所述機器人播放語料的通道音量，包括：在所述實際信噪比在所述目標信噪比范圍內的情況下，不需要調節所述機器人播放語料的通道音量；在所述實際信噪比小于所述目標信噪比范圍的情況下，調低所述機器人播放語料的通道音量；在所述實際信噪比大于所述目標信噪比范圍的情況下，調高所述機器人播放語料的通道音量。

9、可選的，設定機器人按照預定坐標位置移動之前，方法還包括：對所述機器人內置的攝像頭完成內參數標定，基于所述攝像頭與所述機器人內置的慣性測量單元，對所述檢測環境進行記錄，完成外參數標定；控制所述機器人在檢測環境內自主移動，攝像頭持續采集檢測環境內的圖像，所述慣性測量單元記錄機器人姿態變化；采用slam?算法對采集的圖像特征點進行提取與匹配，結合所述機器人姿態變化計算機器人自身位姿，以初始位置點為原點，構建檢測環境的初始二維柵格地圖；通過回環檢測算法消除地圖的累積誤差，修正初始二維柵格地圖中的坐標偏差，生成二維柵格地圖。

10、可選的，基于所述機器人內置的收音器以及攝像頭，收集智能語音交互設備傳出的應答內容，包括：所述機器人內置的收音器以48khz采樣率，24bit精度采集所述智能語音交互設備發出的應答音頻，實時進行降噪、回聲消除處理，過濾所述背景噪聲；根據語音停頓將連續應答音頻分割為多個獨立音頻片段，存儲為應答內容，其中，所述語音停頓用于指示靜音時長≥200ms的音頻片段；預制錄入所述智能語音交互設備的行為特征，同時通過所述攝像頭采集智能語音交互設備的坐標位置；所述機器人內置的攝像頭實時采集所述智能語音交互設備中屏幕顯示的圖像以及所述智能語音交互設備的行為動作；通過ocr文字識別技術提取所述智能語音交互設備中屏幕顯示圖像上的文本文字，通過動態識別技術對所述智能語音交互設備的行為動作與行為特征進行匹配，存儲為應答內容。

11、可選的，將所述應答內容傳至大模型，基于所述大模型識別所述應答內容中的關鍵詞，并對所述應答內容以及所述關鍵詞進行記錄，包括：建立機器人采集模塊與大模型的通信鏈路，其中，所述機器人采集模塊包括所述機器人內置的收音器以及攝像頭；將采集的應答內容封裝為標準json格式，傳輸至大模型中；所述大模型對應答內容中的冗余字符進行去除，修正應答內容中識別產生的錯別字；對所述大模型內置提示詞，所述大模型基于所述提示詞提取應答內容中的初始關鍵詞；對所述初始關鍵詞進行置信度篩選，保留大模型輸出的置信度大于0.8的關鍵詞；對所述應答內容以及所述關鍵詞進行存儲記錄。

12、本發明采用的技術方案能夠達到以下有益效果中的至少一個：

13、在本發明實施例中，通過設置收音器以及攝像頭，自動識別智能語音交互設備中的應答內容，同時將應答內容輸入大模型進行處理，可以在測試結束后直接獲取測試數據，無需聯系多個廠家，節省測試時間以及測試流程，另外，設置移動機器人在檢測環境中行走，無需鋪設軌道，有效降低了測試環境的復雜度，提高聲環境的質量。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：付正,劉宇杰,公為濤
技術所有人：東莞瑞森新譜聲學科技有限公司
我是此專利的發明人

網友詢問留言留言:0條

還沒有人留言評論。精彩留言會獲得點贊！

文明留言，給您點贊！

同類技術