本技術實施例涉及智能交互技術。更具體地講,涉及一種語音交互設備及設備喚醒方法。
背景技術:
1、隨著人工智能技術的不斷發展,語音交互設備日益普及,例如,具有語音交互功能的智能空調、智能音箱、智能電視等。目前,用戶通常可以通過語音交互設備的喚醒詞,將該語音交互功能喚醒之后,再進行下一步的語音指令輸出。因此,語音交互設備準確的識別出喚醒詞是至關重要的。
2、然而,在實際使用過程中,現有的語音交互設備存在用戶喚醒無響應、錯誤把環境噪音識別成喚醒詞而誤喚醒誤響應等問題,導致用戶體驗較差。
技術實現思路
1、本技術實施例提供一種語音交互設備及設備喚醒方法,可提高語音交互設備喚醒的準確性。
2、第一方面,一些實施例中,提供一種語音交互設備,包括:
3、語音采集裝置,用于采集用戶的語音;
4、處理裝置,與所述語音采集裝置連接,被配置為:
5、通過所述語音采集裝置,獲取目標語音;
6、在基于所述目標語音,確定所述目標語音中包括喚醒詞時,獲取所述喚醒詞的第一置信度;所述喚醒詞用于喚醒所述語音交互設備進入工作狀態;
7、至少基于所述喚醒詞的所述第一置信度,以及,第二置信度,確定目標決策值;所述第二置信度為,基于歷史語音確定所述歷史語音中包括所述喚醒詞時,所述喚醒詞的置信度;
8、在所述目標決策值大于或等于預設決策值時,控制所述語音交互設備進入工作狀態。
9、在上述技術方案中,該語音交互設備在接收到目標語音之后,可以基于該目標語音中包括喚醒詞的第一置信度,以及,歷史語音中包括喚醒詞的第二置信度,確定用于決策是否喚醒該語音交互設備的目標決策值。然后,語音交互設備可以在該目標決策值大于或等于預設決策值時進入工作狀態,即喚醒了該語音交互設備。通過上述方法,考慮了歷史語音包括喚醒詞的第二置信度對判斷該目標語音是否能夠喚醒該語音交互設備的影響,減少了語音交互設備被誤喚醒及誤響應的情況,且使得語音交互設備能夠及時被喚醒,減少了語音交互設備無響應的情況,因此提高了語音交互設備喚醒的準確性,改善了用戶體驗。
10、在一些實施例中,所述至少基于所述喚醒詞的所述第一置信度,以及,第二置信度,確定目標決策值,包括:
11、基于所述第二置信度、采集到所述目標語音的第一時刻,以及,采集到所述歷史語音的第二時刻,確定從所述第二時刻到所述第一時刻,所述第二置信度衰減后的置信度;所述第二置信度衰減后的置信度,與所述第二時刻到所述第一時刻的時長負相關;
12、基于所述第二置信度衰減后的置信度,以及,所述第一置信度,確定所述目標決策值。
13、在上述技術方案中,基于采集到目標語音的第一時刻和采集到歷史語音的第二時刻,可以確定第二置信度衰減后的置信度,且該第二時刻到第一時間的時長越長,說明用戶想要喚醒該語音交互設備的可能性越低,因此該第二置信度衰減后的置信度可以越小。該第二時刻到第一時間的時長越短,說明用戶多次快速重復該喚醒詞,也就是用戶想要喚醒該語音交互設備的可能性越高,因此該第二置信度衰減后的置信度可以越大。通過上述方法,使得該第二置信度對目標決策值的影響與該歷史語音與目標語音之間間隔的時長相關,即使得該目標決策值的確定更符合實際用戶實際是否喚醒語音交互設備的行為,因此提高了該目標決策值的準確性,進而進一步提高了基于該目標決策值確定是否喚醒該語音交互設備的準確性,進一步改善了用戶體驗。
14、在一些實施例中,在所述至少基于所述喚醒詞的所述第一置信度,以及,第二置信度,確定目標決策值之前,所述處理裝置還被配置為:
15、基于所述第一時刻所在的目標時間段,確定所述目標時間段對應的目標喚醒系數;所述目標喚醒系數用于表征所述語音交互設備在所述目標時間段內被喚醒的難易程度;
16、所述基于所述第二置信度衰減后的置信度,以及,所述第一置信度,確定所述目標決策值,包括:
17、基于所述第二置信度衰減后的置信度、所述第一置信度,以及,所述目標喚醒系數,確定所述目標決策值。
18、在上述技術方案中,基于第一時刻所在的目標時間段,可以確定用于表征該語音交互設備在該目標時間段內被喚醒的難易程度的目標喚醒系數,進而通過基于該目標喚醒系數,以及上述第二置信度衰減后的置信度和第一置信度,確定目標決策值,實現了基于語音交互設備在該目標時間段內被喚醒的難易程度來確定目標決策值,因此進一步提高了該目標決策值的準確性。
19、在一些實施例中,所述基于所述第一時刻所在的目標時間段,確定所述目標時間段對應的目標喚醒系數,包括:
20、基于所述第一時刻所在的目標時間段,以及,時間段與喚醒系數的映射關系,確定所述目標時間段對應的初始喚醒系數;
21、基于所述目標時間段內所述語音交互設備歷史被喚醒的次數,和/或,所述目標時間段內所述語音交互設備預計被喚醒的概率,確定系數補償值;
22、基于所述初始喚醒系數,以及,所述系數補償值,確定所述目標時間段對應的目標喚醒系數。
23、在上述技術方案中,基于目標時間段內語音交互設備歷史被喚醒的次數,和/或,目標時間段內該語音交互設備預計被喚醒的概率,確定系數補償值,并基于該系數補償值,對初始喚醒系數進行補償,實現了基于用戶對該語音交互設備的歷史使用習慣,對初始喚醒次數進行進一步的準確性的提升,得到目標喚醒系數,因此提高了后續基于該目標喚醒系數確定目標決策值的準確性。
24、在一些實施例中,所述基于所述第二置信度衰減后的置信度、所述第一置信度,以及,所述目標喚醒系數,確定所述目標決策值,包括:
25、獲取所述第二置信度衰減后的置信度與所述第一置信度的和;
26、將所述第二置信度衰減后的置信度與所述第一置信度的和,與所述目標喚醒系數的乘積,作為所述目標決策值。
27、在上述技術方案中,該目標喚醒系數不僅影響了第二置信度衰減后的置信度對目標決策值的確定,還影響了第一置信度對目標決策值的確定,為基于該第二置信度衰減后的置信度、第一置信度,以及,該目標喚醒系數,確定目標決策值奠定了基礎。
28、在一些實施例中,所述基于所述第二置信度衰減后的置信度、所述第一置信度,以及,所述目標喚醒系數,確定所述目標決策值,包括:
29、獲取所述第一置信度與所述目標喚醒系數的乘積;
30、將所述第二置信度衰減后的置信度與所述乘積的和,作為所述目標決策值。
31、在上述技術方案中,該目標喚醒系數可以通過影響第一置信度,實現對目標決策值的影響,然后,第二置信度衰減后的置信度與該“第一置信度與目標喚醒系數的乘積”的和,為基于該第二置信度衰減后的置信度、第一置信度,以及,該目標喚醒系數,確定目標決策值奠定了基礎。
32、在一些實施例中,所述語音交互設備還包括:圖像采集裝置,用于進行圖像采集;
33、與所述圖像采集裝置連接的處理裝置,還被配置為:
34、通過所述圖像采集裝置,采集目標圖像;
35、所述基于所述第二置信度衰減后的置信度,以及,所述第一置信度,確定所述目標決策值,包括:
36、基于所述第二置信度衰減后的置信度、所述第一置信度,以及,所述從所述第二時刻到所述第一時刻之間所述目標圖像中是否包括所述用戶的判斷結果,確定所述目標決策值。
37、在上述技術方案中,結合了從第二時刻到第一時刻之間該目標圖像中是否包括用戶的判斷結果,來確定目標決策值,實現了從圖像、語音多個維度,確定該語音交互設備是否能夠被喚醒,為提高該語音交互設備是否被喚醒的準確性奠定了基礎。
38、在一些實施例中,所述處理裝置還被配置為:
39、對所述目標語音進行預處理操作,得到預處理后的語音;所述預處理操作包括:降噪、增益控制、回聲消除中的至少一項;
40、基于所述預處理后的語音,確定所述目標語音中是否包括所述喚醒詞。
41、在上述技術方案中,在確定該目標語音中是否包括喚醒詞之前,通過降噪、增益控制、回聲消除等至少一項預處理操作,對該目標語音進行預處理,提高了對該目標語音中是否包括喚醒詞的識別的準確性,進而提高了基于該喚醒詞識別的第一置信度確定用于判斷是否將該語音交互設備喚醒的目標決策值的準確性,因此進一步改善了用戶體驗。
42、在一些實施例中,所述處理裝置還被配置為:
43、在基于所述目標語音,確定所述目標語音中包括喚醒詞時,存儲所述喚醒詞的所述第一置信度與采集到所述目標語音的第一時刻的映射關系。
44、在上述技術方案中,通過存儲該第一置信度與采集到該目標語音的第一時刻的映射關系,使得語音交互設備在后續的喚醒決策中,基于將該目標語音作為前述歷史語音,并將該第一置信度作為歷史語音的第二置信度,以及將采集到該目標語音的第一時刻作為采集到該歷史語音的第二時刻,因此可以提高后續喚醒決策的準確性。
45、第二方面,一些實施例中,提供一種設備喚醒方法,語音交互設備,包括:
46、語音采集裝置,用于采集用戶的語音;
47、處理裝置,與所述語音采集裝置連接;
48、所述方法應用于所述處理裝置,所述方法包括:
49、通過所述語音采集裝置,獲取目標語音;
50、在基于所述目標語音,確定所述目標語音中包括喚醒詞時,獲取所述喚醒詞的第一置信度;所述喚醒詞用于喚醒所述語音交互設備進入工作狀態;
51、至少基于所述喚醒詞的所述第一置信度,以及,第二置信度,確定目標決策值;所述第二置信度為,基于歷史語音確定所述歷史語音中包括所述喚醒詞時,所述喚醒詞的置信度;
52、在所述目標決策值大于或等于預設決策值時,控制所述語音交互設備進入工作狀態。
53、本技術提供的語音交互設備及設備喚醒方法,該語音交互設備在接收到目標語音之后,可以基于該目標語音中包括喚醒詞的第一置信度,以及,歷史語音中包括喚醒詞的第二置信度,確定用于決策是否喚醒該語音交互設備的目標決策值。然后,語音交互設備可以在該目標決策值大于或等于預設決策值時進入工作狀態,即喚醒了該語音交互設備。通過上述方法,考慮了歷史語音包括喚醒詞的第二置信度對判斷該目標語音是否能夠喚醒該語音交互設備的影響,減少了語音交互設備被誤喚醒及誤響應的情況,且使得語音交互設備能夠及時被喚醒,減少了語音交互設備無響應的情況,因此提高了語音交互設備喚醒的準確性,改善了用戶體驗。