一種語(yǔ)音喚醒方法、裝置、存儲(chǔ)介質(zhì)及設(shè)備與流程

文檔序號(hào)：29364340發(fā)布日期：2022-03-23 03:25閱讀：278來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

1.本技術(shù)涉及人工智能(artificial intelligence，ai)技術(shù)領(lǐng)域，尤其涉及一種語(yǔ)音喚醒方法、裝置、存儲(chǔ)介質(zhì)及設(shè)備。

背景技術(shù)：

2.隨著人工智能的飛速發(fā)展，人機(jī)交互方式趨于多元化和智能化。一種比較典型的人機(jī)交互方式為語(yǔ)音交互。語(yǔ)音交互作為人們最常用的交互方式之一，也越來(lái)越多地應(yīng)用于家居，車載，機(jī)器人等各個(gè)領(lǐng)域，從而進(jìn)一步改變著人們的生活方式。
3.語(yǔ)音交互是指基于語(yǔ)音識(shí)別、自然語(yǔ)言處理和語(yǔ)音合成等技術(shù)實(shí)現(xiàn)通過語(yǔ)音進(jìn)行人機(jī)交互。然而，語(yǔ)音交互并不是長(zhǎng)時(shí)間持續(xù)發(fā)生的狀態(tài)。在大部分時(shí)間段，電子設(shè)備處于待機(jī)或不工作狀態(tài)。如果因?yàn)榇嬖谡Z(yǔ)音交互這一功能而讓電子設(shè)備長(zhǎng)期處于工作狀態(tài)，則會(huì)降低電子設(shè)備的續(xù)航能力，影響用戶體驗(yàn)，因此需要增加語(yǔ)音喚醒(keyword spotting，kws)功能。
4.語(yǔ)音喚醒是指在連續(xù)的語(yǔ)音數(shù)據(jù)流中實(shí)時(shí)檢測(cè)出包括特定關(guān)鍵詞(也即喚醒詞)的片段，使電子設(shè)備由待機(jī)狀態(tài)轉(zhuǎn)為工作狀態(tài)。相關(guān)技術(shù)通常是采用聲學(xué)模型例如是混合高斯模型(gaussian mixed model，gmm)，或者是神經(jīng)網(wǎng)絡(luò)模型對(duì)語(yǔ)音數(shù)據(jù)流進(jìn)行編碼，然后通過(hidden markov model，hmm)對(duì)編碼的特征向量進(jìn)行解碼，從而檢測(cè)語(yǔ)音數(shù)據(jù)流是否包括喚醒詞，進(jìn)而確定是否喚醒電子設(shè)備。
5.很多電子設(shè)備通常是采用電池供電并使用低端芯片，這就要求用于喚醒電子設(shè)備的模型的參數(shù)量和計(jì)算量盡可能小。然而，模型的參數(shù)量減小很大程度上會(huì)造成喚醒率的下降，難以滿足業(yè)務(wù)需求，影響用戶體驗(yàn)。

技術(shù)實(shí)現(xiàn)要素：

6.本技術(shù)實(shí)施例的主要目的在于提供一種語(yǔ)音喚醒方法、裝置、存儲(chǔ)介質(zhì)及設(shè)備，能夠降低模型的參數(shù)量并具有較高的準(zhǔn)確度。
7.本技術(shù)實(shí)施例提供了一種語(yǔ)音喚醒方法，包括：
8.接收語(yǔ)音數(shù)據(jù)流；
9.將所述語(yǔ)音數(shù)據(jù)流輸入第一喚醒模型，獲得第一識(shí)別結(jié)果；
10.當(dāng)所述第一識(shí)別結(jié)果表征所述語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí)，將所述語(yǔ)音數(shù)據(jù)流輸入第二喚醒模型，獲得第二識(shí)別結(jié)果，所述第一喚醒模型的功耗低于所述第二喚醒模型的功耗；
11.當(dāng)所述第二識(shí)別結(jié)果表征所述語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí)，將電子設(shè)備切換為工作狀態(tài)，以喚醒所述電子設(shè)備。
12.一種可能的實(shí)現(xiàn)方式中，所述語(yǔ)音數(shù)據(jù)流包括多個(gè)音頻幀，所述第二喚醒模型包括第一預(yù)測(cè)網(wǎng)絡(luò)，所述將所述語(yǔ)音數(shù)據(jù)流輸入第二喚醒模型，獲得第二識(shí)別結(jié)果，包括：
13.根據(jù)目標(biāo)音頻幀以及所述目標(biāo)音頻幀之前的音頻幀，通過所述第一預(yù)測(cè)網(wǎng)絡(luò)確定
所述目標(biāo)音頻幀的狀態(tài)得分，所述目標(biāo)音頻幀為所述多個(gè)音頻幀中的任意一個(gè)或多個(gè)；
14.根據(jù)所述目標(biāo)音頻幀的狀態(tài)得分，獲得所述目標(biāo)音頻幀的識(shí)別結(jié)果；
15.根據(jù)所述目標(biāo)音頻幀的識(shí)別結(jié)果，獲得第二識(shí)別結(jié)果。
16.一種可能的實(shí)現(xiàn)方式中，所述第二喚醒模型還包括第二預(yù)測(cè)網(wǎng)絡(luò)，所述方法還包括：
17.將所述語(yǔ)音數(shù)據(jù)流輸入所述第二預(yù)測(cè)網(wǎng)絡(luò)，獲得所述語(yǔ)音數(shù)據(jù)流中所述目標(biāo)音頻幀的狀態(tài)得分；
18.根據(jù)所述狀態(tài)得分進(jìn)行解碼，獲得解碼得分；
19.當(dāng)所述解碼得分超過預(yù)喚醒門限時(shí)，將所述語(yǔ)音數(shù)據(jù)流輸入所述第一預(yù)測(cè)網(wǎng)絡(luò)。
20.一種可能的實(shí)現(xiàn)方式中，所述第一喚醒模型包括編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)，所述將所述語(yǔ)音數(shù)據(jù)流輸入第一喚醒模型，獲得第一識(shí)別結(jié)果，包括：
21.通過所述編碼網(wǎng)絡(luò)對(duì)所述語(yǔ)音數(shù)據(jù)流中多個(gè)音頻幀分別進(jìn)行編碼，得到所述多個(gè)音頻幀的狀態(tài)得分；
22.根據(jù)所述多個(gè)音頻幀的狀態(tài)得分，從所述多個(gè)音頻幀中確定候選音頻幀；
23.通過所述解碼網(wǎng)絡(luò)對(duì)所述候選音頻幀進(jìn)行解碼，獲得第一識(shí)別結(jié)果。
24.一種可能的實(shí)現(xiàn)方式中，所述第一喚醒模型通過包括所述喚醒詞的樣本數(shù)據(jù)訓(xùn)練得到。
25.一種可能的實(shí)現(xiàn)方式中，所述語(yǔ)音數(shù)據(jù)流來(lái)自于用戶，所述方法還包括：
26.根據(jù)所述語(yǔ)音數(shù)據(jù)流對(duì)所述用戶進(jìn)行身份識(shí)別，獲得身份識(shí)別結(jié)果；
27.所述將電子設(shè)備切換為工作狀態(tài)，包括：
28.當(dāng)所述身份識(shí)別結(jié)果表征所述用戶為許可用戶，且所述第二識(shí)別結(jié)果表征所述語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí)，將電子設(shè)備切換為工作狀態(tài)。
29.一種可能的實(shí)現(xiàn)方式中，所述根據(jù)所述語(yǔ)音數(shù)據(jù)流對(duì)所述用戶進(jìn)行身份識(shí)別，獲得身份識(shí)別結(jié)果，包括：
30.從所述語(yǔ)音數(shù)據(jù)流中提取所述用戶的聲紋特征；
31.將所述用戶的聲紋特征和特征模板進(jìn)行匹配，獲得身份識(shí)別結(jié)果，其中，所述特征模板為所述許可用戶預(yù)先錄制的音頻中提取的聲紋特征。
32.本技術(shù)實(shí)施例還提供了一種語(yǔ)音喚醒裝置，包括：
33.通信單元，用于接收語(yǔ)音數(shù)據(jù)流；
34.第一識(shí)別單元，用于將所述語(yǔ)音數(shù)據(jù)流輸入第一喚醒模型，獲得第一識(shí)別結(jié)果；
35.第二識(shí)別單元，用于當(dāng)所述第一識(shí)別結(jié)果表征所述語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí)，將所述語(yǔ)音數(shù)據(jù)流輸入第二喚醒模型，獲得第二識(shí)別結(jié)果，所述第一喚醒模型的功耗低于所述第二喚醒模型的功耗；
36.喚醒單元，用于當(dāng)所述第二識(shí)別結(jié)果表征所述語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí)，將電子設(shè)備切換為工作狀態(tài)，以喚醒所述電子設(shè)備。
37.一種可能的實(shí)現(xiàn)方式中，所述語(yǔ)音數(shù)據(jù)流包括多個(gè)音頻幀，所述第二喚醒模型包括第一預(yù)測(cè)網(wǎng)絡(luò)，所述第二識(shí)別單元可以用于：
38.根據(jù)目標(biāo)音頻幀以及所述目標(biāo)音頻幀之前的音頻幀，通過所述第一預(yù)測(cè)網(wǎng)絡(luò)確定所述目標(biāo)音頻幀的狀態(tài)得分，所述目標(biāo)音頻幀為所述多個(gè)音頻幀中的任意一個(gè)或多個(gè)；
39.根據(jù)所述目標(biāo)音頻幀的狀態(tài)得分，獲得所述目標(biāo)音頻幀的識(shí)別結(jié)果；
40.根據(jù)所述目標(biāo)音頻幀的識(shí)別結(jié)果，獲得第二識(shí)別結(jié)果。
41.一種可能的實(shí)現(xiàn)方式中，所述第二喚醒模型還包括第二預(yù)測(cè)網(wǎng)絡(luò)，第二識(shí)別單元還用于：
42.將所述語(yǔ)音數(shù)據(jù)流輸入所述第二預(yù)測(cè)網(wǎng)絡(luò)，獲得所述語(yǔ)音數(shù)據(jù)流中所述目標(biāo)音頻幀的狀態(tài)得分；
43.根據(jù)所述狀態(tài)得分進(jìn)行解碼，獲得解碼得分；
44.當(dāng)所述解碼得分超過預(yù)喚醒門限時(shí)，將所述語(yǔ)音數(shù)據(jù)流輸入所述第一預(yù)測(cè)網(wǎng)絡(luò)。
45.一種可能的實(shí)現(xiàn)方式中，所述第一識(shí)別單元用于：
46.通過所述編碼網(wǎng)絡(luò)對(duì)所述語(yǔ)音數(shù)據(jù)流中多個(gè)音頻幀分別進(jìn)行編碼，得到所述多個(gè)音頻幀的狀態(tài)得分；
47.根據(jù)所述多個(gè)音頻幀的狀態(tài)得分，從所述多個(gè)音頻幀中確定候選音頻幀；
48.通過所述解碼網(wǎng)絡(luò)對(duì)所述候選音頻幀進(jìn)行解碼，獲得第一識(shí)別結(jié)果。
49.一種可能的實(shí)現(xiàn)方式中，所述第一喚醒模型通過包括所述喚醒詞的樣本數(shù)據(jù)訓(xùn)練得到。
50.一種可能的實(shí)現(xiàn)方式中，所述語(yǔ)音數(shù)據(jù)流來(lái)自于用戶，所述裝置還包括身份識(shí)別單元，用于：
51.根據(jù)所述語(yǔ)音數(shù)據(jù)流對(duì)所述用戶進(jìn)行身份識(shí)別，獲得身份識(shí)別結(jié)果；
52.所述喚醒單元，可以用于：
53.當(dāng)所述身份識(shí)別結(jié)果表征所述用戶為許可用戶，且所述第二識(shí)別結(jié)果表征所述語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí)，將電子設(shè)備切換為工作狀態(tài)。
54.一種可能的實(shí)現(xiàn)方式中，所述身份識(shí)別單元具體用于：
55.從所述語(yǔ)音數(shù)據(jù)流中提取所述用戶的聲紋特征；
56.將所述用戶的聲紋特征和特征模板進(jìn)行匹配，獲得身份識(shí)別結(jié)果，其中，所述特征模板為所述許可用戶預(yù)先錄制的音頻中提取的聲紋特征。
57.本技術(shù)實(shí)施例還提供了一種語(yǔ)音喚醒設(shè)備，包括：處理器、存儲(chǔ)器、系統(tǒng)總線；
58.所述處理器以及所述存儲(chǔ)器通過所述系統(tǒng)總線相連；
59.所述存儲(chǔ)器用于存儲(chǔ)一個(gè)或多個(gè)程序，所述一個(gè)或多個(gè)程序包括指令，所述指令當(dāng)被所述處理器執(zhí)行時(shí)使所述處理器執(zhí)行上述語(yǔ)音喚醒方法中的任意一種實(shí)現(xiàn)方式。
60.本技術(shù)實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有指令，當(dāng)所述指令在終端設(shè)備上運(yùn)行時(shí)，使得所述終端設(shè)備執(zhí)行上述語(yǔ)音喚醒方法中的任意一種實(shí)現(xiàn)方式。
61.本技術(shù)實(shí)施例還提供了一種計(jì)算機(jī)程序產(chǎn)品，所述計(jì)算機(jī)程序產(chǎn)品在終端設(shè)備上運(yùn)行時(shí)，使得所述終端設(shè)備執(zhí)行上述語(yǔ)音喚醒方法中的任意一種實(shí)現(xiàn)方式。
62.本技術(shù)實(shí)施例提供的一種語(yǔ)音喚醒方法、裝置、存儲(chǔ)介質(zhì)及設(shè)備，首先電子設(shè)備接收語(yǔ)音數(shù)據(jù)流，然后將語(yǔ)音數(shù)據(jù)流輸入功耗較低的第一喚醒模型，獲取第一識(shí)別結(jié)果，當(dāng)?shù)谝蛔R(shí)別結(jié)果表征語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí)，將該語(yǔ)音數(shù)據(jù)流輸入至功耗較高的第二喚醒模型，獲得較為精確的第二識(shí)別結(jié)果，當(dāng)?shù)诙R(shí)別結(jié)果表征語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí)，將電子設(shè)備切換為工作狀態(tài)，以喚醒電子設(shè)備。如此，由于第一喚醒
模型功耗較低，可以用于對(duì)語(yǔ)音數(shù)據(jù)流的初步識(shí)別，當(dāng)?shù)谝粏拘涯Ｐ妥R(shí)別結(jié)果表征語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí)，可以將該語(yǔ)音數(shù)據(jù)流輸入至第二喚醒模型進(jìn)行二次識(shí)別，由于第二喚醒模型精度較高，因此可以實(shí)現(xiàn)對(duì)于語(yǔ)音數(shù)據(jù)流的精確識(shí)別。并且，通過第一喚醒模型可以過濾掉較多的數(shù)據(jù)，因此輸入至第二喚醒模型的數(shù)據(jù)大幅減小，如此可以有效降低第二喚醒模型的功耗。因此，基于第二喚醒模型的識(shí)別結(jié)果對(duì)于電子設(shè)備進(jìn)行狀態(tài)切換，能夠?qū)崿F(xiàn)低功耗、高精度的語(yǔ)音喚醒。
附圖說(shuō)明
63.為了更清楚地說(shuō)明本技術(shù)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見地，下面描述中的附圖是本技術(shù)的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)這些附圖獲得其他的附圖。
64.圖1為本技術(shù)實(shí)施例提供的一種語(yǔ)音喚醒方法的場(chǎng)景示意圖；
65.圖2為本技術(shù)實(shí)施例提供的一種語(yǔ)音喚醒方法的流程示意圖；
66.圖3為本技術(shù)實(shí)施例提供的一種基于隱馬爾科夫模型的關(guān)鍵詞/填充詞模型示意圖；
67.圖4為本技術(shù)實(shí)施例提供的一種身份識(shí)別的語(yǔ)音喚醒方法的示意圖；
68.圖5為本技術(shù)實(shí)施例提供的一種第二喚醒模型包括第一預(yù)測(cè)網(wǎng)絡(luò)和第二預(yù)測(cè)網(wǎng)絡(luò)的語(yǔ)音喚醒方法的流程示意圖；
69.圖6為本技術(shù)實(shí)施例提供的一種語(yǔ)音喚醒方法的裝置示意圖。
具體實(shí)施方式
70.隨著人工智能的高速發(fā)展，語(yǔ)音交互作為人們最常用的交互方式之一，越來(lái)越多地應(yīng)用于家居，車載，機(jī)器人等各個(gè)領(lǐng)域。用戶可以在家中通過語(yǔ)音交互控制家居設(shè)備，也可以在車中通過語(yǔ)音交互控制車載設(shè)備，甚至可以通過語(yǔ)音交互控制機(jī)器人等。例如，電子設(shè)備通過對(duì)于人聲進(jìn)行語(yǔ)音識(shí)別，然后對(duì)于所識(shí)別的語(yǔ)音通過自然語(yǔ)言處理獲得語(yǔ)音內(nèi)容，然后基于語(yǔ)音內(nèi)容執(zhí)行對(duì)應(yīng)操作，如電子設(shè)備可以基于語(yǔ)音合成通過語(yǔ)音對(duì)于人聲內(nèi)容進(jìn)行回答。
71.在對(duì)于語(yǔ)音交互功能的日常使用中，語(yǔ)音交互并不是長(zhǎng)時(shí)間持續(xù)發(fā)生的狀態(tài)。當(dāng)在語(yǔ)音交互場(chǎng)景中，電子設(shè)備長(zhǎng)期處于工作狀態(tài)時(shí)，會(huì)影響電子設(shè)備的續(xù)航能力，影響電子設(shè)備的使用壽命，因此大多數(shù)情況下，電子設(shè)備都處于待機(jī)狀態(tài)，然后通過語(yǔ)音喚醒(keyword spotting，kws)功能將電子設(shè)備由待機(jī)狀態(tài)轉(zhuǎn)換為工作狀態(tài)。
72.語(yǔ)音喚醒是指在連續(xù)的語(yǔ)音數(shù)據(jù)流中實(shí)時(shí)檢測(cè)出包括特定醒詞的片段，使電子設(shè)備由待機(jī)狀態(tài)轉(zhuǎn)為工作狀態(tài)。通常情況下，語(yǔ)音喚醒技術(shù)可以采用聲學(xué)模型對(duì)語(yǔ)音數(shù)據(jù)流進(jìn)行編碼解碼，從而檢測(cè)語(yǔ)音數(shù)據(jù)流中是否包括喚醒詞，進(jìn)而確定是否對(duì)電子設(shè)備進(jìn)行喚醒。通常情況下，聲學(xué)模型可以包括混合高斯模型(gaussian mixed model，gmm)和隱馬爾科夫模型(hidden markov model，hmm)，其中混合高斯模型用于對(duì)語(yǔ)音數(shù)據(jù)流進(jìn)行編碼，隱馬爾科夫模型用于對(duì)編碼的特征向量進(jìn)行解碼。聲學(xué)模型也可以包括神經(jīng)網(wǎng)絡(luò)模型和隱馬爾科夫模型，其中神經(jīng)網(wǎng)絡(luò)模型用于對(duì)語(yǔ)音數(shù)據(jù)流進(jìn)行編碼，隱馬爾科夫模型用于對(duì)編碼
的特征向量進(jìn)行解碼。
73.通常情況下，具有語(yǔ)音喚醒功能的電子設(shè)備通常采用電池供電并使用低端芯片，因此需要喚醒電子設(shè)備的模型的參數(shù)量和計(jì)算量盡可能小，以降低語(yǔ)音喚醒的功耗。對(duì)于模型低功耗的需求一般可以采用模型深度壓縮策略，從而減少模型大小，降低功耗。但是模型大小的減小在很大程度上會(huì)造成喚醒準(zhǔn)確度的下降，難以滿足業(yè)務(wù)需求，影響用戶的使用體驗(yàn)。
74.有鑒于此，本技術(shù)提供了一種低功耗且具有高準(zhǔn)確度的語(yǔ)音喚醒方法，該方法應(yīng)用于電子設(shè)備。電子設(shè)備是指具有數(shù)據(jù)處理能力的設(shè)備，例如可以是服務(wù)器，或者是終端。其中，終端包括但不限于智能音箱、智能手機(jī)、平板電腦、筆記本電腦、個(gè)人數(shù)字助理(personal digital assistant，pda)或者智能穿戴設(shè)備等。
75.以智能音箱為例，該智能音箱可以在被喚醒后，根據(jù)語(yǔ)音數(shù)據(jù)流中包括的指令，執(zhí)行對(duì)應(yīng)的操作。智能音箱也可以與其他設(shè)備進(jìn)行通信，在喚醒后實(shí)現(xiàn)對(duì)于其他設(shè)備的控制。例如，智能音箱可以應(yīng)用于智能家居中，在被喚醒后根據(jù)語(yǔ)音數(shù)據(jù)流中包括的用戶指令，控制打開臥室臺(tái)燈。智能音箱也可以應(yīng)用在車輛中，在被喚醒后根據(jù)語(yǔ)音數(shù)據(jù)流中包括的用戶指令控制音樂播放器播放指定音樂。
76.服務(wù)器可以是云服務(wù)器，例如是中心云計(jì)算集群中的中心服務(wù)器，或者是邊緣云計(jì)算集群中的邊緣服務(wù)器。當(dāng)然，服務(wù)器也可以是本地?cái)?shù)據(jù)中心中的服務(wù)器。本地?cái)?shù)據(jù)中心是指用戶直接控制的數(shù)據(jù)中心。
77.具體地，電子設(shè)備接收語(yǔ)音數(shù)據(jù)流，將語(yǔ)音數(shù)據(jù)流輸入識(shí)別精度較低的第一喚醒模型，獲得第一識(shí)別結(jié)果，當(dāng)?shù)谝蛔R(shí)別結(jié)果表征語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí)，將該語(yǔ)音數(shù)據(jù)流輸入至第二喚醒模型，獲得識(shí)別精度較高的第二識(shí)別結(jié)果，當(dāng)?shù)诙R(shí)別結(jié)果表征語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí)，將電子設(shè)備切換為工作狀態(tài)，實(shí)現(xiàn)對(duì)于電子設(shè)備的喚醒。其中，第一喚醒模型為功耗較低的模型，用于對(duì)語(yǔ)音數(shù)據(jù)流進(jìn)行第一次識(shí)別，第二喚醒模型為功耗較高精度較高的模型，用于對(duì)通過第一次識(shí)別的語(yǔ)音數(shù)據(jù)流進(jìn)行二次識(shí)別，由于第一喚醒模型過濾了絕大部分音頻，因此第二喚醒模型只需要對(duì)較少的語(yǔ)音數(shù)據(jù)流進(jìn)行識(shí)別，從而降低了模型功耗，并且具有較高的識(shí)別準(zhǔn)確度。
78.該方法的應(yīng)用場(chǎng)景可以如圖1所示，其中，終端100接收用戶所發(fā)出的語(yǔ)音數(shù)據(jù)流，將語(yǔ)音數(shù)據(jù)流輸入識(shí)別精度較低的第一喚醒模型，獲得第一識(shí)別結(jié)果，當(dāng)?shù)谝蛔R(shí)別結(jié)果表征語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí)，將該語(yǔ)音數(shù)據(jù)流輸入至第二喚醒模型，獲得識(shí)別精度較高的第二識(shí)別結(jié)果，當(dāng)?shù)诙R(shí)別結(jié)果表征語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí)，將終端切換為工作狀態(tài)，實(shí)現(xiàn)對(duì)于終端的喚醒。
79.為了使得本公開的技術(shù)方案更加清楚、易于理解，下面以電子設(shè)備為終端為例，對(duì)本公開實(shí)施例提供的語(yǔ)音喚醒方法進(jìn)行介紹。如圖2所示，該方法包括以下步驟：
80.s202：終端接收語(yǔ)音數(shù)據(jù)流。
81.通常情況下，當(dāng)終端處于開啟狀態(tài)時(shí)，終端可以持續(xù)接收用戶所發(fā)出的語(yǔ)音數(shù)據(jù)流。語(yǔ)音數(shù)據(jù)流具體是指連續(xù)的語(yǔ)音信號(hào)形成的流式數(shù)據(jù)。語(yǔ)音信號(hào)在宏觀上是不平穩(wěn)的，在微觀上是平穩(wěn)的，也即語(yǔ)音信號(hào)具有短時(shí)平穩(wěn)性。一般情況下，10
???
30毫秒(millisecond，ms)內(nèi)可以認(rèn)為語(yǔ)音信號(hào)近似不變，基于此，終端可以將語(yǔ)音信號(hào)分為一些短段來(lái)進(jìn)行處理，每一個(gè)短段稱為一幀(chunk)。因此，語(yǔ)音數(shù)據(jù)流可以包括多個(gè)語(yǔ)音幀。
82.在本實(shí)施例中，終端接收的語(yǔ)音數(shù)據(jù)流可以為某一個(gè)用戶所產(chǎn)生的語(yǔ)音數(shù)據(jù)流，也可以包括多個(gè)用戶所產(chǎn)生的語(yǔ)音數(shù)據(jù)流。例如，在會(huì)議場(chǎng)景中，終端接收的語(yǔ)音數(shù)據(jù)流可以為多個(gè)用戶說(shuō)話產(chǎn)生的語(yǔ)音數(shù)據(jù)流。
83.s204：終端將語(yǔ)音數(shù)據(jù)流輸入第一喚醒模型，獲得第一識(shí)別結(jié)果。
84.第一喚醒模型和第二喚醒模型均具有識(shí)別喚醒詞進(jìn)行語(yǔ)音喚醒的功能。其中，第一喚醒模型的功耗低于第二喚醒的模型的功耗。一般情況下，參數(shù)量較低的模型具有相對(duì)較低的功耗，參數(shù)量較高的模型具有相對(duì)較高的功耗，但具有較高的精度。基于此，第一喚醒模型可以是參數(shù)量相對(duì)較低的模型，第二喚醒模型可以是參數(shù)量相對(duì)較高的模型。第一喚醒模型用于預(yù)喚醒。
85.在一些可能的實(shí)現(xiàn)方式中，第一喚醒模型可以包括編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)。其中，編碼網(wǎng)絡(luò)用于對(duì)語(yǔ)音數(shù)據(jù)流中的多個(gè)音頻幀分別進(jìn)行編碼，獲得多個(gè)音頻幀的狀態(tài)得分。進(jìn)一步地，編碼網(wǎng)絡(luò)可以根據(jù)多個(gè)音頻幀的狀態(tài)得分，從多個(gè)音頻幀中確定候選音頻幀，輸入至解碼網(wǎng)絡(luò)。解碼網(wǎng)絡(luò)用于對(duì)候選音頻幀進(jìn)行解碼，獲得第一識(shí)別結(jié)果。
86.解碼網(wǎng)絡(luò)通常是基于隱馬爾可夫模型(hidden markov model，hmm)，通過統(tǒng)計(jì)學(xué)分析實(shí)現(xiàn)解碼。在一些可能的實(shí)現(xiàn)方式中，解碼網(wǎng)絡(luò)可以為基于hmm的關(guān)鍵詞/填充詞(keyword/filler)模型，也可以簡(jiǎn)稱為filler模型。其中，關(guān)鍵詞為用于喚醒模型的喚醒詞，該喚醒詞可以預(yù)先設(shè)置。
87.圖3提供了keyword/filler模型的一種結(jié)構(gòu)示意圖，keyword/filler模型包括keyword結(jié)構(gòu)和filler結(jié)構(gòu)，keyword結(jié)構(gòu)具體為喚醒詞對(duì)應(yīng)的hmm，圖3中采用填充有圖案的圓圈表示，filler結(jié)構(gòu)具體為填充詞(除了喚醒詞以外的單詞)對(duì)應(yīng)的hmm，圖3中采用空白的圓圈表示，其中，喚醒詞對(duì)應(yīng)的hmm還可以設(shè)計(jì)成帶跳轉(zhuǎn)的、帶詞間停頓的結(jié)構(gòu)。上述喚醒詞對(duì)應(yīng)的hmm和填充詞對(duì)應(yīng)的hmm可以拼接為一個(gè)hmm。
88.具體地，解碼網(wǎng)絡(luò)可以根據(jù)每幀的狀態(tài)得分，通過維特比(viterbi)算法獲取最優(yōu)路徑。keyword結(jié)構(gòu)在解碼過程中，如果當(dāng)前狀態(tài)的得分高于前一狀態(tài)，則進(jìn)行自動(dòng)跳轉(zhuǎn)至前一狀態(tài)，如果當(dāng)前狀態(tài)的得分低于前一狀態(tài)，則由前一狀態(tài)轉(zhuǎn)移到當(dāng)前狀態(tài)，從而逐漸從第一個(gè)狀態(tài)轉(zhuǎn)移到最后一個(gè)狀態(tài)。filler結(jié)構(gòu)用于挑選所有狀態(tài)的最高分減去懲罰項(xiàng)進(jìn)行累加。當(dāng)最后一個(gè)狀態(tài)的得分高于filler結(jié)構(gòu)得分時(shí)，表明該模型判斷語(yǔ)音數(shù)據(jù)流中包括關(guān)鍵詞對(duì)應(yīng)的片段。相比于其他語(yǔ)音喚醒模型，關(guān)鍵詞/填充詞(keyword/filler)模型能夠針對(duì)性地對(duì)keyword(喚醒詞)進(jìn)行解碼，從而能夠降低可選路徑，減少模型的計(jì)算量和內(nèi)存。
89.上述第一喚醒模型可以預(yù)先訓(xùn)練得到。其中，第一喚醒模型可以通過包括喚醒詞的訓(xùn)練數(shù)據(jù)訓(xùn)練得到。具體地，終端可以初始化第一喚醒模型，然后將包括喚醒詞的訓(xùn)練數(shù)據(jù)輸入第一喚醒模型，根據(jù)第一喚醒模型的輸出，更新第一喚醒模型的權(quán)重，由此實(shí)現(xiàn)對(duì)第一喚醒模型的訓(xùn)練。當(dāng)?shù)谝粏拘涯Ｐ蜐M足訓(xùn)練結(jié)束條件時(shí)，終端可以停止訓(xùn)練，獲得第一喚醒模型。該第一喚醒模型能夠識(shí)別語(yǔ)音數(shù)據(jù)流是否包括喚醒詞，從而實(shí)現(xiàn)預(yù)喚醒。
90.s206：終端判斷第一識(shí)別結(jié)果是否表征語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段。
91.第一識(shí)別結(jié)果用于表征該語(yǔ)音數(shù)據(jù)流中是否包括喚醒詞。在一些可能的實(shí)現(xiàn)方式中，終端可以將語(yǔ)音數(shù)據(jù)流分為多個(gè)片段，第一喚醒模型對(duì)多個(gè)片段進(jìn)行分別判斷，輸出對(duì)應(yīng)的第一識(shí)別結(jié)果。第一識(shí)別結(jié)果用于表征該片段中是否包括喚醒詞。
92.由于第一喚醒模型功耗較低，模型參數(shù)量較小，因此可能存在誤喚醒的情況，即可能存在語(yǔ)音數(shù)據(jù)流片段中存在與喚醒詞相近的內(nèi)容，也可能被第一喚醒模型判斷通過，因此需要采用更高精度的模型進(jìn)行二次確認(rèn)。
93.當(dāng)?shù)谝蛔R(shí)別結(jié)果表征語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí)，終端執(zhí)行s208；否則，終端執(zhí)行s218。
94.s208：終端將語(yǔ)音數(shù)據(jù)流輸入第二喚醒模型，獲得第二識(shí)別結(jié)果。
95.其中，第二喚醒模型為功耗較高的模型，具有較高的識(shí)別精度。第二喚醒模型的功耗高于第一喚醒模型的功耗。
96.當(dāng)?shù)谝粏拘涯Ｐ洼敵龅牡谝蛔R(shí)別結(jié)果表征語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí)，為了避免誤喚醒情況的發(fā)生，終端可以通過第二喚醒模型對(duì)于語(yǔ)音數(shù)據(jù)流進(jìn)行二次判斷。
97.相比于第一喚醒模型，第二喚醒模型的參數(shù)量和計(jì)算量均較大，因此模型的學(xué)習(xí)能力較強(qiáng)，能夠?qū)σ恍┌l(fā)音相近的詞進(jìn)行更好的區(qū)分。因此，盡管第二喚醒模型的功耗較大，但是只對(duì)第一喚醒模型表征語(yǔ)音數(shù)據(jù)流中包括喚醒詞的片段進(jìn)行判斷，相比于對(duì)整個(gè)語(yǔ)音數(shù)據(jù)流進(jìn)行判斷，所需進(jìn)行判斷的數(shù)據(jù)流較少。因此，該方法可以在功耗較小的情況下具有較高的準(zhǔn)確度。
98.s210：終端判斷第二識(shí)別結(jié)果是否表征語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段。
99.第二識(shí)別結(jié)果用于表征該片段中是否包括喚醒詞。由于第二喚醒模型為參數(shù)量較大、計(jì)算量較大的模型，因此模型可以對(duì)經(jīng)過第一喚醒模型判斷包括喚醒詞的片段進(jìn)行進(jìn)一步判斷，從而輸出準(zhǔn)確的判斷結(jié)果。終端可以基于第二識(shí)別結(jié)果確定是否需要對(duì)電子設(shè)備進(jìn)行喚醒。
100.當(dāng)?shù)诙R(shí)別結(jié)果表征語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí)，終端執(zhí)行s212；否則執(zhí)行s218。
101.s212：終端根據(jù)語(yǔ)音數(shù)據(jù)流對(duì)用戶進(jìn)行身份識(shí)別，獲得身份識(shí)別結(jié)果。
102.在一些可能的實(shí)現(xiàn)方式中，為了避免其他用戶對(duì)于終端的誤喚醒，因此可以預(yù)先提取用戶的聲紋特征，然后根據(jù)語(yǔ)音數(shù)據(jù)流中的聲紋特征與預(yù)先存儲(chǔ)的聲紋特征進(jìn)行匹配，獲得身份識(shí)別結(jié)果。
103.具體地，如圖4所示，當(dāng)用戶進(jìn)行注冊(cè)時(shí)，終端可以向用戶發(fā)出提供音頻請(qǐng)求，根據(jù)用戶所提供的音頻，終端可以利用神經(jīng)網(wǎng)絡(luò)模型從音頻中提取該用戶的特征模板。當(dāng)在進(jìn)行語(yǔ)音喚醒操作時(shí)，終端從語(yǔ)音數(shù)據(jù)流中提取用戶的聲紋特征，將用戶的聲紋特征和特征模板進(jìn)行匹配，根據(jù)相似度獲得身份識(shí)別結(jié)果。
104.s214：終端判斷身份識(shí)別結(jié)果是否表征用戶為許可用戶。
105.身份識(shí)別結(jié)果用于對(duì)用戶的身份進(jìn)行確認(rèn)，當(dāng)用戶為許可用戶時(shí)，終端根據(jù)語(yǔ)音數(shù)據(jù)流中所包括的喚醒詞，將電子設(shè)備切換為工作狀態(tài)，當(dāng)用戶不為許可用戶時(shí)，終端不執(zhí)行對(duì)應(yīng)操作。如此，可以排除非許可用戶的喚醒行為，使用戶產(chǎn)生個(gè)性化、定制化的服務(wù)體驗(yàn)。其中，許可用戶可以為一個(gè)或多個(gè)用戶。
106.當(dāng)身份識(shí)別結(jié)果表征用戶為許可用戶時(shí)，執(zhí)行s216；否則執(zhí)行s218。
107.s216：終端將電子設(shè)備切換為工作狀態(tài)。
108.在一些可能的實(shí)現(xiàn)方式中，電子設(shè)備為該終端，因此終端可以在通過上述第一喚
醒模型、第二喚醒模型以及身份驗(yàn)證后后，將自身狀態(tài)切換為工作狀態(tài)，實(shí)現(xiàn)對(duì)該終端自身進(jìn)行喚醒，進(jìn)而根據(jù)語(yǔ)音數(shù)據(jù)流中包括的指令執(zhí)行對(duì)應(yīng)操作。例如，終端可以為智能音箱，當(dāng)?shù)诙R(shí)別結(jié)果表征語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí)，智能音箱將自身狀態(tài)切換為工作狀態(tài)，根據(jù)語(yǔ)音數(shù)據(jù)流中包括的指令播放對(duì)應(yīng)的歌曲。
109.在另一些可能的實(shí)現(xiàn)方式中，電子設(shè)備為除該終端以外的其他設(shè)備，該終端將其他電子設(shè)備的狀態(tài)切換為工作狀態(tài)，實(shí)現(xiàn)對(duì)于其他電子設(shè)備的喚醒。例如，終端可以為智能音箱，當(dāng)?shù)诙R(shí)別結(jié)果表征語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí)，智能音箱將智能電視的狀態(tài)切換為工作狀態(tài)，根據(jù)語(yǔ)音數(shù)據(jù)流中包括的指令播放對(duì)應(yīng)的電影。
110.s218：終端結(jié)束當(dāng)前流程。
111.當(dāng)?shù)谝蛔R(shí)別結(jié)果表征語(yǔ)音數(shù)據(jù)流中不包括喚醒詞對(duì)應(yīng)的片段時(shí)，即表明語(yǔ)音數(shù)據(jù)流中不包括對(duì)電子設(shè)備進(jìn)行喚醒的指令，因此終端結(jié)束當(dāng)前流程，電子設(shè)備保持待機(jī)狀態(tài)。
112.當(dāng)?shù)诙R(shí)別結(jié)果不表征語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí)，即表明第一喚醒模型判斷錯(cuò)誤，該語(yǔ)音數(shù)據(jù)流的片段中不包括喚醒詞，因此，終結(jié)束當(dāng)前流程，電子設(shè)備保持待機(jī)狀態(tài)。
113.當(dāng)身份識(shí)別結(jié)果表征該用戶不為許可用戶時(shí)，即表明該語(yǔ)音數(shù)據(jù)流不為許可用戶所發(fā)出的，因此，終端結(jié)束當(dāng)前流程，電子設(shè)備保持待機(jī)狀態(tài)。
114.如此，本技術(shù)提供了一種語(yǔ)音喚醒方法，該方法通過功耗較低的第一喚醒模型進(jìn)行初步判斷，對(duì)于第一喚醒模型判斷包括喚醒詞的片段，采用精度較高的第二喚醒模型進(jìn)行進(jìn)一步判斷，由此輸出具有較高精度的語(yǔ)音喚醒方法。進(jìn)一步地，還可以根據(jù)語(yǔ)音數(shù)據(jù)流中的聲紋特征進(jìn)行身份驗(yàn)證，當(dāng)身份驗(yàn)證通過時(shí)，喚醒電子設(shè)備，從而提供一種功耗較低、精度較高且個(gè)性化的語(yǔ)音喚醒方法。
115.在一些可能的實(shí)現(xiàn)方式中，該方法也可以不包括上述s212至s214，即對(duì)用戶進(jìn)行身份識(shí)別可以為可選步驟。
116.由于大量語(yǔ)音數(shù)據(jù)采用功耗較低的第一喚醒模型進(jìn)行判斷，輸入至第二喚醒模型的數(shù)據(jù)大幅減小，因此精度較高的第二喚醒模型僅需要對(duì)少量的語(yǔ)音數(shù)據(jù)進(jìn)行判斷，如此可以有效降低第二喚醒模型的功耗。因此，基于第二喚醒模型的識(shí)別結(jié)果對(duì)于電子設(shè)備進(jìn)行狀態(tài)切換，能夠?qū)崿F(xiàn)低功耗、高精度的語(yǔ)音喚醒。
117.以上對(duì)于本技術(shù)提供的一種語(yǔ)音喚醒方法中的具體流程進(jìn)行了介紹，在一些可能的實(shí)現(xiàn)方式中，第二喚醒模型可以包括第一預(yù)測(cè)網(wǎng)絡(luò)和第二預(yù)測(cè)網(wǎng)絡(luò)，終端可以通過第一預(yù)測(cè)網(wǎng)絡(luò)和第二預(yù)測(cè)網(wǎng)絡(luò)獲取第二識(shí)別結(jié)果，下面如圖5所示，對(duì)于第二喚醒模型包括第一預(yù)測(cè)網(wǎng)絡(luò)和第二預(yù)測(cè)網(wǎng)絡(luò)時(shí)的s208進(jìn)行具體介紹。當(dāng)?shù)诙拘涯Ｐ桶ǖ谝活A(yù)測(cè)網(wǎng)絡(luò)和第二預(yù)測(cè)網(wǎng)絡(luò)時(shí)，該方法包括以下步驟：
118.s502：終端將語(yǔ)音數(shù)據(jù)流輸入第二預(yù)測(cè)網(wǎng)絡(luò)，獲得語(yǔ)音數(shù)據(jù)流中目標(biāo)音頻幀的狀態(tài)得分。
119.語(yǔ)音數(shù)據(jù)流包括多個(gè)音頻幀。第二預(yù)測(cè)網(wǎng)絡(luò)用于對(duì)語(yǔ)音數(shù)據(jù)流中目標(biāo)音頻幀進(jìn)行預(yù)測(cè)，輸出該目標(biāo)音頻幀的狀態(tài)得分。其中，目標(biāo)音頻幀為當(dāng)前音頻幀。在一些可能的實(shí)現(xiàn)方式中，第二預(yù)測(cè)網(wǎng)絡(luò)可以為神經(jīng)網(wǎng)絡(luò)，終端通過神經(jīng)網(wǎng)絡(luò)對(duì)當(dāng)前音頻幀進(jìn)行編碼，獲得當(dāng)前音頻幀的狀態(tài)得分。
120.s504：終端根據(jù)狀態(tài)得分進(jìn)行解碼，獲得解碼得分。
121.在一些可能的實(shí)現(xiàn)方式中，可以通過基于隱馬爾科夫模型的關(guān)鍵詞/填充詞模型進(jìn)行解碼，獲得解碼得分。
122.s506：終端判斷解碼得分是否超過預(yù)喚醒門限。
123.預(yù)喚醒門限為該音頻幀中包括喚醒詞的概率門限。解碼得分超過預(yù)喚醒門限時(shí)，表明該音頻幀具有較大概率包括喚醒詞。其中，預(yù)喚醒門限通常低于正常門限。在一些可能的實(shí)現(xiàn)方式中，當(dāng)解碼得分超過預(yù)喚醒門限時(shí)，模型通過第一預(yù)測(cè)網(wǎng)絡(luò)根據(jù)當(dāng)前音頻幀和當(dāng)前音頻幀以前的音頻幀確定目標(biāo)音頻幀的狀態(tài)得分。當(dāng)解碼得分沒有超過預(yù)喚醒門限時(shí)，模型通過傳統(tǒng)高功耗喚醒模型根據(jù)當(dāng)前音頻幀、當(dāng)前音頻幀以前的音頻幀以及以后的音頻幀獲確定目標(biāo)音頻幀的狀態(tài)得分。由于第一預(yù)測(cè)網(wǎng)絡(luò)的響應(yīng)時(shí)間短于傳統(tǒng)高功耗喚醒模型的響應(yīng)時(shí)間，因此當(dāng)解碼得分超過預(yù)喚醒門限時(shí)，通過第一預(yù)測(cè)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)能夠減小響應(yīng)時(shí)間。
124.當(dāng)解碼得分不超過預(yù)喚醒門限時(shí)，執(zhí)行s508；否則執(zhí)行s510。
125.s508：終端通過傳統(tǒng)喚醒模型獲得第二識(shí)別結(jié)果。
126.當(dāng)終端判斷解碼得分沒有超過預(yù)喚醒門限時(shí)，表明該語(yǔ)音數(shù)據(jù)流并不具有較大概率包括喚醒詞，因此可以采用傳統(tǒng)高功耗喚醒模型獲得第二識(shí)別結(jié)果。通常情況下，傳統(tǒng)高功耗喚醒模型根據(jù)目標(biāo)音頻幀、目標(biāo)音頻幀之前的音頻幀以及目標(biāo)音頻幀之后的音頻幀獲得第二識(shí)別結(jié)果。具體地，終端通過第二喚醒模型獲得目標(biāo)音頻幀的狀態(tài)得分，根據(jù)狀態(tài)得分獲得識(shí)別結(jié)果，從而獲得第二識(shí)別結(jié)果。
127.s510：終端將語(yǔ)音數(shù)據(jù)流輸入第一預(yù)測(cè)網(wǎng)絡(luò)。
128.第一預(yù)測(cè)網(wǎng)絡(luò)用于根據(jù)當(dāng)前幀以及當(dāng)前幀以前的音頻幀確定目標(biāo)音頻幀的狀態(tài)得分。相比于傳統(tǒng)高功耗喚醒模型，第一預(yù)測(cè)網(wǎng)絡(luò)無(wú)需根據(jù)當(dāng)前幀之后的音頻幀進(jìn)行判斷，因此右視野為0，響應(yīng)時(shí)間較短。而由于語(yǔ)音數(shù)據(jù)流的解碼得分高于預(yù)喚醒門限，即表明該語(yǔ)音數(shù)據(jù)流中包括喚醒詞的概率較高，因此可以通過第一預(yù)測(cè)網(wǎng)絡(luò)根據(jù)當(dāng)前幀以及當(dāng)前幀以前的音頻幀確定目標(biāo)音頻幀的狀態(tài)得分，具有較高的識(shí)別精度。
129.s512：終端根據(jù)目標(biāo)音頻幀以及目標(biāo)音頻幀之前的音頻幀，通過第一預(yù)測(cè)網(wǎng)絡(luò)確定目標(biāo)音頻幀的狀態(tài)得分。
130.由于該目標(biāo)視頻幀具有較大的概率包括喚醒詞，因此終端可以根據(jù)目標(biāo)音頻幀以及目標(biāo)音頻幀之前的音頻幀，通過第一預(yù)測(cè)網(wǎng)絡(luò)確定目標(biāo)音頻幀的狀態(tài)得分。相比于傳統(tǒng)高功耗喚醒模型，由于第一預(yù)測(cè)網(wǎng)絡(luò)僅需要根據(jù)當(dāng)前音頻幀和當(dāng)前音頻幀以前的音頻幀即可以對(duì)是否包括喚醒詞進(jìn)行判斷，第一預(yù)測(cè)網(wǎng)絡(luò)的右視野為0，其響應(yīng)時(shí)間較短，因此能夠有效減少響應(yīng)時(shí)間。
131.s514：終端根據(jù)目標(biāo)音頻幀的狀態(tài)得分，獲得目標(biāo)音頻幀的識(shí)別結(jié)果。
132.終端可以根據(jù)第一預(yù)測(cè)網(wǎng)絡(luò)輸出的目標(biāo)音頻幀的狀態(tài)得分，獲得對(duì)應(yīng)的目標(biāo)音頻幀的識(shí)別結(jié)果。其中，不同狀態(tài)得分與識(shí)別結(jié)果可以為階梯對(duì)應(yīng)，也可以為一一對(duì)應(yīng)。例如，當(dāng)目標(biāo)音頻幀的狀態(tài)得分低于某一預(yù)設(shè)閾值時(shí)，目標(biāo)音頻幀的識(shí)別結(jié)果為不包括喚醒詞，當(dāng)目標(biāo)音頻幀的狀態(tài)得分高于某一預(yù)設(shè)閾值時(shí)，目標(biāo)音頻幀的識(shí)別結(jié)果為包括喚醒詞。又例如，當(dāng)目標(biāo)音頻幀的狀態(tài)得分為a，目標(biāo)音頻幀的狀態(tài)得分的滿分為100時(shí)，目標(biāo)音頻幀的識(shí)別結(jié)果為該音頻幀中包括喚醒詞的概率為a％。
133.s516：終端根據(jù)目標(biāo)音頻幀的識(shí)別結(jié)果，獲得第二識(shí)別結(jié)果。
134.第二識(shí)別結(jié)果是指第二喚醒模型對(duì)于語(yǔ)音數(shù)據(jù)流中是否包括喚醒詞對(duì)應(yīng)的片段所輸出的識(shí)別結(jié)果。當(dāng)?shù)诙拘涯Ｐ桶ǖ谝活A(yù)測(cè)網(wǎng)絡(luò)時(shí)，終端可以根據(jù)第一預(yù)測(cè)網(wǎng)絡(luò)所輸出的目標(biāo)音頻幀的狀態(tài)得分，獲得表征語(yǔ)音數(shù)據(jù)流中是否包括喚醒詞的第二識(shí)別結(jié)果。
135.如此，終端可以通過第二預(yù)測(cè)網(wǎng)絡(luò)根據(jù)語(yǔ)音數(shù)據(jù)流中目標(biāo)音頻幀的解碼得分進(jìn)行預(yù)判斷，當(dāng)解碼得分超過預(yù)喚醒門限時(shí)，可以采用第一預(yù)測(cè)網(wǎng)絡(luò)進(jìn)行判斷，由于第一預(yù)測(cè)網(wǎng)絡(luò)僅需要目標(biāo)音頻幀和目標(biāo)音頻幀之前的音頻幀，因此響應(yīng)時(shí)間較短，能夠有效減少第二喚醒模型的響應(yīng)時(shí)間。并且，由于根據(jù)解碼得分進(jìn)行了預(yù)判斷，在此基礎(chǔ)上通過第一預(yù)測(cè)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)仍然具有較高的識(shí)別精度。
136.在一些可能的實(shí)現(xiàn)方式中，通過第二喚醒模型獲得第二識(shí)別結(jié)果可以僅包括上述s510至s516，終端可以直接將語(yǔ)音數(shù)據(jù)流輸入第一預(yù)測(cè)網(wǎng)絡(luò)，通過第一預(yù)測(cè)網(wǎng)絡(luò)獲得目標(biāo)音頻幀的狀態(tài)得分，進(jìn)而獲取目標(biāo)音頻幀的識(shí)別結(jié)果以及第二識(shí)別結(jié)果，從而能夠較快地獲得第二識(shí)別結(jié)果。
137.圖6是根據(jù)一示例性公開實(shí)施例示出的一種語(yǔ)音喚醒裝置的示意圖，如圖6所示，所述語(yǔ)音喚醒裝置600包括：
138.通信單元602，用于接收語(yǔ)音數(shù)據(jù)流；
139.第一識(shí)別單元604，用于將所述語(yǔ)音數(shù)據(jù)流輸入第一喚醒模型，獲得第一識(shí)別結(jié)果；
140.第二識(shí)別單元606，用于當(dāng)所述第一識(shí)別結(jié)果表征所述語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí)，將所述語(yǔ)音數(shù)據(jù)流輸入第二喚醒模型，獲得第二識(shí)別結(jié)果，所述第一喚醒模型的功耗低于所述第二喚醒模型的功耗；
141.喚醒單元608，用于當(dāng)所述第二識(shí)別結(jié)果表征所述語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí)，將電子設(shè)備切換為工作狀態(tài)，以喚醒所述電子設(shè)備。
142.一種可能的實(shí)現(xiàn)方式中，所述語(yǔ)音數(shù)據(jù)流包括多個(gè)音頻幀，所述第二喚醒模型包括第一預(yù)測(cè)網(wǎng)絡(luò)，所述第二識(shí)別單元606可以用于：
143.根據(jù)目標(biāo)音頻幀以及所述目標(biāo)音頻幀之前的音頻幀，通過所述第一預(yù)測(cè)網(wǎng)絡(luò)確定所述目標(biāo)音頻幀的狀態(tài)得分，所述目標(biāo)音頻幀為所述多個(gè)音頻幀中的任意一個(gè)或多個(gè)；
144.根據(jù)所述目標(biāo)音頻幀的狀態(tài)得分，獲得所述目標(biāo)音頻幀的識(shí)別結(jié)果；
145.根據(jù)所述目標(biāo)音頻幀的識(shí)別結(jié)果，獲得第二識(shí)別結(jié)果。
146.一種可能的實(shí)現(xiàn)方式中，所述第二喚醒模型還包括第二預(yù)測(cè)網(wǎng)絡(luò)，第二識(shí)別單元606還用于：
147.將所述語(yǔ)音數(shù)據(jù)流輸入所述第二預(yù)測(cè)網(wǎng)絡(luò)，獲得所述語(yǔ)音數(shù)據(jù)流中所述目標(biāo)音頻幀的狀態(tài)得分；
148.根據(jù)所述狀態(tài)得分進(jìn)行解碼，獲得解碼得分；
149.當(dāng)所述解碼得分超過預(yù)喚醒門限時(shí)，將所述語(yǔ)音數(shù)據(jù)流輸入所述第一預(yù)測(cè)網(wǎng)絡(luò)。
150.一種可能的實(shí)現(xiàn)方式中，所述第一識(shí)別單元604用于：
151.通過所述編碼網(wǎng)絡(luò)對(duì)所述語(yǔ)音數(shù)據(jù)流中多個(gè)音頻幀分別進(jìn)行編碼，得到所述多個(gè)音頻幀的狀態(tài)得分；
152.根據(jù)所述多個(gè)音頻幀的狀態(tài)得分，從所述多個(gè)音頻幀中確定候選音頻幀；
153.通過所述解碼網(wǎng)絡(luò)對(duì)所述候選音頻幀進(jìn)行解碼，獲得第一識(shí)別結(jié)果。
154.一種可能的實(shí)現(xiàn)方式中，所述第一喚醒模型通過包括所述喚醒詞的樣本數(shù)據(jù)訓(xùn)練得到。
155.一種可能的實(shí)現(xiàn)方式中，所述語(yǔ)音數(shù)據(jù)流來(lái)自于用戶，所述裝置還包括身份識(shí)別單元610，用于：
156.根據(jù)所述語(yǔ)音數(shù)據(jù)流對(duì)所述用戶進(jìn)行身份識(shí)別，獲得身份識(shí)別結(jié)果；
157.所述喚醒單元608，可以用于：
158.當(dāng)所述身份識(shí)別結(jié)果表征所述用戶為許可用戶，且所述第二識(shí)別結(jié)果表征所述語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí)，將電子設(shè)備切換為工作狀態(tài)。
159.一種可能的實(shí)現(xiàn)方式中，所述身份識(shí)別單元610具體用于：
160.從所述語(yǔ)音數(shù)據(jù)流中提取所述用戶的聲紋特征；
161.將所述用戶的聲紋特征和特征模板進(jìn)行匹配，獲得身份識(shí)別結(jié)果，其中，所述特征模板為所述許可用戶預(yù)先錄制的音頻中提取的聲紋特征。
162.進(jìn)一步地，本技術(shù)實(shí)施例還提供了一種語(yǔ)音喚醒設(shè)備，包括：處理器、存儲(chǔ)器、系統(tǒng)總線；
163.所述處理器以及所述存儲(chǔ)器通過所述系統(tǒng)總線相連；
164.所述存儲(chǔ)器用于存儲(chǔ)一個(gè)或多個(gè)程序，所述一個(gè)或多個(gè)程序包括指令，所述指令當(dāng)被所述處理器執(zhí)行時(shí)使所述處理器執(zhí)行上述語(yǔ)音喚醒方法的任一種實(shí)現(xiàn)方法。
165.進(jìn)一步地，本技術(shù)實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有指令，當(dāng)所述指令在終端設(shè)備上運(yùn)行時(shí)，使得所述終端設(shè)備執(zhí)行上述語(yǔ)音喚醒方法的任一種實(shí)現(xiàn)方法。
166.進(jìn)一步地，本技術(shù)實(shí)施例還提供了一種計(jì)算機(jī)程序產(chǎn)品，所述計(jì)算機(jī)程序產(chǎn)品在終端設(shè)備上運(yùn)行時(shí)，使得所述終端設(shè)備執(zhí)行上述語(yǔ)音喚醒方法的任一種實(shí)現(xiàn)方法。
167.通過以上的實(shí)施方式的描述可知，本領(lǐng)域的技術(shù)人員可以清楚地了解到上述實(shí)施例方法中的全部或部分步驟可借助軟件加必需的通用硬件平臺(tái)的方式來(lái)實(shí)現(xiàn)。基于這樣的理解，本技術(shù)的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái)，該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在存儲(chǔ)介質(zhì)中，如rom/ram、磁碟、光盤等，包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī)，服務(wù)器，或者諸如媒體網(wǎng)關(guān)等網(wǎng)絡(luò)通信設(shè)備，等等)執(zhí)行本技術(shù)各個(gè)實(shí)施例或者實(shí)施例的某些部分所述的方法。
168.需要說(shuō)明的是，本說(shuō)明書中各個(gè)實(shí)施例采用遞進(jìn)的方式描述，每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處，各個(gè)實(shí)施例之間相同相似部分互相參見即可。對(duì)于實(shí)施例公開的裝置而言，由于其與實(shí)施例公開的方法相對(duì)應(yīng)，所以描述的比較簡(jiǎn)單，相關(guān)之處參見方法部分說(shuō)明即可。
169.還需要說(shuō)明的是，在本文中，諸如第一和第二等之類的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來(lái)，而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且，術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下，由語(yǔ)句“包括一個(gè)
……”
限定的要素，并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
170.對(duì)所公開的實(shí)施例的上述說(shuō)明，使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本技術(shù)。對(duì)這些實(shí)施例的多種修改對(duì)本領(lǐng)域的專業(yè)技術(shù)人員來(lái)說(shuō)將是顯而易見的，本文中所定義的一般原理可以在不脫離本技術(shù)的精神或范圍的情況下，在其它實(shí)施例中實(shí)現(xiàn)。因此，本技術(shù)將不會(huì)被限制于本文所示的這些實(shí)施例，而是要符合與本文所公開的原理和新穎特點(diǎn)相一致的最寬的范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：孫濤
技術(shù)所有人：科大訊飛股份有限公司
我是此專利的發(fā)明人

上一篇：一種有機(jī)垃圾快速堆肥腐熟的方法與流程
下一篇：一種口罩鼻線安裝設(shè)備的制作方法

網(wǎng)友詢問留言留言:0條

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

文明留言，給您點(diǎn)贊！

同類技術(shù)