本公開涉及智能車輛,尤其涉及一種語音交互系統喚醒方法、裝置、設備、存儲介質及車輛。
背景技術:
1、隨著智能技術的發展,智能語音交互技術已廣泛應用于各個領域,尤其是汽車領域。當用戶使用車載語音交互系統時,需要先喚醒車載語音交互系統。
2、相關技術中,用戶通過輸入語音喚醒詞喚醒車載語音交互系統,并通過語音控制指令控制車載語音交互系統執行相應操作。
3、但是,當用戶與其他用戶交談過程中談及到喚醒詞時,車載語音交互系統也會基于喚醒詞被喚醒,并與用戶進行交互,導致車載語音交互系統具有較高的誤喚醒率,影響用戶體驗。
技術實現思路
1、為了解決上述技術問題,本公開提供了一種語音交互系統喚醒方法、裝置、設備、存儲介質及車輛。
2、第一方面,本公開實施例提供一種語音交互系統喚醒方法,所述方法包括:
3、采集當前語音信號以及車內用戶的圖像信息;
4、對所述車內用戶的圖像信息進行特征提取,得到目標用戶的特征信息,所述特征信息包括臉部特征信息、頭部特征信息;
5、基于所述目標用戶的特征信息判斷會話對象是否為車載終端;
6、若所述會話對象是車載終端,則判斷所述當前語音信號是否為喚醒信號;
7、若所述當前語音信號是喚醒信號,則對所述車載終端的語音交互系統進行喚醒。
8、在一些實施例中,所述對所述車內用戶的圖像信息進行特征提取,得到車內用戶的特征信息,包括:
9、基于視覺檢測技術從所述車內用戶的圖像信息檢測出車內用戶的數量;
10、對所述車內用戶的圖像信息進行特征提取,得到所述車內用戶的紋理特征以及關鍵點特征;
11、利用所述車內用戶的紋理特征以及關鍵點特征計算出所述車內用戶中的每個用戶的會話概率,將所述每個用戶的會話概率進行比較,將會話概率最高的用戶確定為目標用戶;
12、對所述目標用戶的紋理特征以及關鍵點特征進行聚合處理,得到所述目標用戶的特征信息。
13、在一些實施例中,所述基于所述目標用戶的特征信息判斷會話對象是否為車載終端,包括:
14、根據所述目標用戶的特征信息計算所述目標用戶的頭部姿態、視線信息、唇動信息;
15、基于所述目標用戶的頭部姿態、視線信息、唇動信息,判斷所述目標用戶的會話對象是否為車載終端。
16、在一些實施例中,所述基于所述目標用戶的頭部姿態、視線信息、唇動信息,判斷所述目標用戶的會話對象是否為車載終端,包括:
17、基于所述目標用戶的頭部姿態、視線信息、唇動信息,計算所述目標用戶的對話朝向以及視線區域;
18、根據所述目標用戶的對話朝向以及視線區域,判斷所述目標用戶的會話對象是否為車載終端。
19、在一些實施例中,所述根據所述目標用戶的對話朝向以及視線區域,判斷所述目標用戶的會話對象是否為車載終端,包括:
20、若所述目標用戶的對話朝向為所述車載終端的方向、且所述目標用戶的視線區域覆蓋所述車載終端,則所述目標用戶的會話對象為車載終端;
21、若所述目標用戶的對話朝向為車內其他用戶、且所述目標用戶的視線區域覆蓋所述車內其他用戶,則所述目標用戶的會話對象不為車載終端。
22、在一些實施例中,所述判斷所述當前語音信號是否為喚醒信號,包括:
23、判斷所述當前語音信號是否為人聲信號;
24、若所述當前語音信號為人聲信號,則判斷所述當前語音信號中是否包含喚醒詞;
25、若所述當前語音信號中包含喚醒詞,則確定所述當前語音信號為喚醒信號。
26、在一些實施例中,所述對所述車載終端的語音交互系統進行喚醒之后,所述方法還包括:
27、基于所述目標用戶的特征信息計算所述目標用戶的面部表情及唇動信息;
28、基于所述目標用戶的面部表情及唇動信息判斷所述目標用戶是否已完成當前語音輸入;
29、若所述目標用戶已完成當前語音輸入,則控制語音交互系統執行與所述當前語音輸入對應的操作;
30、若所述目標用戶未完成當前語音輸入,則等待所述目標用戶繼續進行當前語音輸入。
31、在一些實施例中,所述基于所述目標用戶的面部表情及唇動信息判斷所述目標用戶是否已完成當前語音輸入,包括:
32、確定與所述目標用戶的面部表情及唇動信息對應的所述目標用戶的狀態;
33、若所述目標用戶的狀態為目標狀態,則確定所述目標用戶未完成當前語音輸入,所述目標狀態為用于表征所述目標用戶未完成當前會話的狀態;
34、若所述目標用戶的狀態不為目標狀態,則確定所述目標用戶已完成當前語音輸入。
35、第二方面,本公開實施例提供一種語音交互系統喚醒裝置,所述裝置包括:
36、采集模塊,用于采集當前語音信號以及車內用戶的圖像信息;
37、得到模塊,用于對所述車內用戶的圖像信息進行特征提取,得到目標用戶的特征信息,所述特征信息包括臉部特征信息、頭部特征信息;
38、第一判斷模塊,用于基于所述目標用戶的特征信息判斷會話對象是否為車載終端;
39、第二判斷模塊,用于當會話對象為車載終端時,判斷所述當前語音信號是否為喚醒信號;
40、喚醒模塊,用于當所述當前語音信號是否為喚醒信號時,對所述車載終端的語音交互系統進行喚醒。
41、第三方面,本公開實施例提供一種電子設備,包括:
42、存儲器;
43、處理器;以及
44、計算機程序;
45、其中,所述計算機程序存儲在所述存儲器中,并被配置為由所述處理器執行以實現如第一方面所述的方法。
46、第四方面,本公開實施例提供一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行以實現第一方面所述的方法。
47、第五方面,本公開實施例還提供了一種計算機程序產品,該計算機程序產品包括計算機程序或指令,該計算機程序或指令被處理器執行時實現如上所述的語音交互系統喚醒方法。
48、第六方面,本公開實施例還提供了一種車輛,包括:
49、存儲器;
50、處理器;以及
51、計算機程序;
52、其中,所述計算機程序存儲在所述存儲器中,并被配置為由所述處理器執行以實現如上所述的語音交互系統喚醒方法。
53、本公開實施例提供的語音交互系統喚醒方法、裝置、設備、存儲介質及車輛,通過采集當前語音信號以及車內用戶的圖像信息,對所述車內用戶的圖像信息進行特征提取,得到目標用戶的特征信息,所述特征信息包括臉部特征信息、頭部特征信息,基于所述目標用戶的特征信息判斷會話對象是否為車載終端,若所述會話對象是車載終端,則判斷所述當前語音信號是否為喚醒信號。若所述當前語音信號是喚醒信號,則對所述車載終端的語音交互系統進行喚醒。由于根據目標用戶的特征信息判斷會話對象是否為車載終端,當會話對象為車載終端時,進一步判斷當前語音信號是否為喚醒信號,若是,則根據語音信號中的喚醒詞喚醒車載語音系統;當會話對象不為車載終端時,不進行喚醒,從而降低車載語音系統的誤喚醒率,提高車載語音系統的喚醒準確性,提高用戶體驗。