1.本技術(shù)涉及人工智能(artificial intelligence,ai)技術(shù)領(lǐng)域,尤其涉及一種語(yǔ)音喚醒方法、裝置、存儲(chǔ)介質(zhì)及設(shè)備。
背景技術(shù):
2.隨著人工智能的飛速發(fā)展,人機(jī)交互方式趨于多元化和智能化。一種比較典型的人機(jī)交互方式為語(yǔ)音交互。語(yǔ)音交互作為人們最常用的交互方式之一,也越來(lái)越多地應(yīng)用于家居,車載,機(jī)器人等各個(gè)領(lǐng)域,從而進(jìn)一步改變著人們的生活方式。
3.語(yǔ)音交互是指基于語(yǔ)音識(shí)別、自然語(yǔ)言處理和語(yǔ)音合成等技術(shù)實(shí)現(xiàn)通過語(yǔ)音進(jìn)行人機(jī)交互。然而,語(yǔ)音交互并不是長(zhǎng)時(shí)間持續(xù)發(fā)生的狀態(tài)。在大部分時(shí)間段,電子設(shè)備處于待機(jī)或不工作狀態(tài)。如果因?yàn)榇嬖谡Z(yǔ)音交互這一功能而讓電子設(shè)備長(zhǎng)期處于工作狀態(tài),則會(huì)降低電子設(shè)備的續(xù)航能力,影響用戶體驗(yàn),因此需要增加語(yǔ)音喚醒(keyword spotting,kws)功能。
4.語(yǔ)音喚醒是指在連續(xù)的語(yǔ)音數(shù)據(jù)流中實(shí)時(shí)檢測(cè)出包括特定關(guān)鍵詞(也即喚醒詞)的片段,使電子設(shè)備由待機(jī)狀態(tài)轉(zhuǎn)為工作狀態(tài)。相關(guān)技術(shù)通常是采用聲學(xué)模型例如是混合高斯模型(gaussian mixed model,gmm),或者是神經(jīng)網(wǎng)絡(luò)模型對(duì)語(yǔ)音數(shù)據(jù)流進(jìn)行編碼,然后通過(hidden markov model,hmm)對(duì)編碼的特征向量進(jìn)行解碼,從而檢測(cè)語(yǔ)音數(shù)據(jù)流是否包括喚醒詞,進(jìn)而確定是否喚醒電子設(shè)備。
5.很多電子設(shè)備通常是采用電池供電并使用低端芯片,這就要求用于喚醒電子設(shè)備的模型的參數(shù)量和計(jì)算量盡可能小。然而,模型的參數(shù)量減小很大程度上會(huì)造成喚醒率的下降,難以滿足業(yè)務(wù)需求,影響用戶體驗(yàn)。
技術(shù)實(shí)現(xiàn)要素:
6.本技術(shù)實(shí)施例的主要目的在于提供一種語(yǔ)音喚醒方法、裝置、存儲(chǔ)介質(zhì)及設(shè)備,能夠降低模型的參數(shù)量并具有較高的準(zhǔn)確度。
7.本技術(shù)實(shí)施例提供了一種語(yǔ)音喚醒方法,包括:
8.接收語(yǔ)音數(shù)據(jù)流;
9.將所述語(yǔ)音數(shù)據(jù)流輸入第一喚醒模型,獲得第一識(shí)別結(jié)果;
10.當(dāng)所述第一識(shí)別結(jié)果表征所述語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí),將所述語(yǔ)音數(shù)據(jù)流輸入第二喚醒模型,獲得第二識(shí)別結(jié)果,所述第一喚醒模型的功耗低于所述第二喚醒模型的功耗;
11.當(dāng)所述第二識(shí)別結(jié)果表征所述語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí),將電子設(shè)備切換為工作狀態(tài),以喚醒所述電子設(shè)備。
12.一種可能的實(shí)現(xiàn)方式中,所述語(yǔ)音數(shù)據(jù)流包括多個(gè)音頻幀,所述第二喚醒模型包括第一預(yù)測(cè)網(wǎng)絡(luò),所述將所述語(yǔ)音數(shù)據(jù)流輸入第二喚醒模型,獲得第二識(shí)別結(jié)果,包括:
13.根據(jù)目標(biāo)音頻幀以及所述目標(biāo)音頻幀之前的音頻幀,通過所述第一預(yù)測(cè)網(wǎng)絡(luò)確定
所述目標(biāo)音頻幀的狀態(tài)得分,所述目標(biāo)音頻幀為所述多個(gè)音頻幀中的任意一個(gè)或多個(gè);
14.根據(jù)所述目標(biāo)音頻幀的狀態(tài)得分,獲得所述目標(biāo)音頻幀的識(shí)別結(jié)果;
15.根據(jù)所述目標(biāo)音頻幀的識(shí)別結(jié)果,獲得第二識(shí)別結(jié)果。
16.一種可能的實(shí)現(xiàn)方式中,所述第二喚醒模型還包括第二預(yù)測(cè)網(wǎng)絡(luò),所述方法還包括:
17.將所述語(yǔ)音數(shù)據(jù)流輸入所述第二預(yù)測(cè)網(wǎng)絡(luò),獲得所述語(yǔ)音數(shù)據(jù)流中所述目標(biāo)音頻幀的狀態(tài)得分;
18.根據(jù)所述狀態(tài)得分進(jìn)行解碼,獲得解碼得分;
19.當(dāng)所述解碼得分超過預(yù)喚醒門限時(shí),將所述語(yǔ)音數(shù)據(jù)流輸入所述第一預(yù)測(cè)網(wǎng)絡(luò)。
20.一種可能的實(shí)現(xiàn)方式中,所述第一喚醒模型包括編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò),所述將所述語(yǔ)音數(shù)據(jù)流輸入第一喚醒模型,獲得第一識(shí)別結(jié)果,包括:
21.通過所述編碼網(wǎng)絡(luò)對(duì)所述語(yǔ)音數(shù)據(jù)流中多個(gè)音頻幀分別進(jìn)行編碼,得到所述多個(gè)音頻幀的狀態(tài)得分;
22.根據(jù)所述多個(gè)音頻幀的狀態(tài)得分,從所述多個(gè)音頻幀中確定候選音頻幀;
23.通過所述解碼網(wǎng)絡(luò)對(duì)所述候選音頻幀進(jìn)行解碼,獲得第一識(shí)別結(jié)果。
24.一種可能的實(shí)現(xiàn)方式中,所述第一喚醒模型通過包括所述喚醒詞的樣本數(shù)據(jù)訓(xùn)練得到。
25.一種可能的實(shí)現(xiàn)方式中,所述語(yǔ)音數(shù)據(jù)流來(lái)自于用戶,所述方法還包括:
26.根據(jù)所述語(yǔ)音數(shù)據(jù)流對(duì)所述用戶進(jìn)行身份識(shí)別,獲得身份識(shí)別結(jié)果;
27.所述將電子設(shè)備切換為工作狀態(tài),包括:
28.當(dāng)所述身份識(shí)別結(jié)果表征所述用戶為許可用戶,且所述第二識(shí)別結(jié)果表征所述語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí),將電子設(shè)備切換為工作狀態(tài)。
29.一種可能的實(shí)現(xiàn)方式中,所述根據(jù)所述語(yǔ)音數(shù)據(jù)流對(duì)所述用戶進(jìn)行身份識(shí)別,獲得身份識(shí)別結(jié)果,包括:
30.從所述語(yǔ)音數(shù)據(jù)流中提取所述用戶的聲紋特征;
31.將所述用戶的聲紋特征和特征模板進(jìn)行匹配,獲得身份識(shí)別結(jié)果,其中,所述特征模板為所述許可用戶預(yù)先錄制的音頻中提取的聲紋特征。
32.本技術(shù)實(shí)施例還提供了一種語(yǔ)音喚醒裝置,包括:
33.通信單元,用于接收語(yǔ)音數(shù)據(jù)流;
34.第一識(shí)別單元,用于將所述語(yǔ)音數(shù)據(jù)流輸入第一喚醒模型,獲得第一識(shí)別結(jié)果;
35.第二識(shí)別單元,用于當(dāng)所述第一識(shí)別結(jié)果表征所述語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí),將所述語(yǔ)音數(shù)據(jù)流輸入第二喚醒模型,獲得第二識(shí)別結(jié)果,所述第一喚醒模型的功耗低于所述第二喚醒模型的功耗;
36.喚醒單元,用于當(dāng)所述第二識(shí)別結(jié)果表征所述語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí),將電子設(shè)備切換為工作狀態(tài),以喚醒所述電子設(shè)備。
37.一種可能的實(shí)現(xiàn)方式中,所述語(yǔ)音數(shù)據(jù)流包括多個(gè)音頻幀,所述第二喚醒模型包括第一預(yù)測(cè)網(wǎng)絡(luò),所述第二識(shí)別單元可以用于:
38.根據(jù)目標(biāo)音頻幀以及所述目標(biāo)音頻幀之前的音頻幀,通過所述第一預(yù)測(cè)網(wǎng)絡(luò)確定所述目標(biāo)音頻幀的狀態(tài)得分,所述目標(biāo)音頻幀為所述多個(gè)音頻幀中的任意一個(gè)或多個(gè);
39.根據(jù)所述目標(biāo)音頻幀的狀態(tài)得分,獲得所述目標(biāo)音頻幀的識(shí)別結(jié)果;
40.根據(jù)所述目標(biāo)音頻幀的識(shí)別結(jié)果,獲得第二識(shí)別結(jié)果。
41.一種可能的實(shí)現(xiàn)方式中,所述第二喚醒模型還包括第二預(yù)測(cè)網(wǎng)絡(luò),第二識(shí)別單元還用于:
42.將所述語(yǔ)音數(shù)據(jù)流輸入所述第二預(yù)測(cè)網(wǎng)絡(luò),獲得所述語(yǔ)音數(shù)據(jù)流中所述目標(biāo)音頻幀的狀態(tài)得分;
43.根據(jù)所述狀態(tài)得分進(jìn)行解碼,獲得解碼得分;
44.當(dāng)所述解碼得分超過預(yù)喚醒門限時(shí),將所述語(yǔ)音數(shù)據(jù)流輸入所述第一預(yù)測(cè)網(wǎng)絡(luò)。
45.一種可能的實(shí)現(xiàn)方式中,所述第一識(shí)別單元用于:
46.通過所述編碼網(wǎng)絡(luò)對(duì)所述語(yǔ)音數(shù)據(jù)流中多個(gè)音頻幀分別進(jìn)行編碼,得到所述多個(gè)音頻幀的狀態(tài)得分;
47.根據(jù)所述多個(gè)音頻幀的狀態(tài)得分,從所述多個(gè)音頻幀中確定候選音頻幀;
48.通過所述解碼網(wǎng)絡(luò)對(duì)所述候選音頻幀進(jìn)行解碼,獲得第一識(shí)別結(jié)果。
49.一種可能的實(shí)現(xiàn)方式中,所述第一喚醒模型通過包括所述喚醒詞的樣本數(shù)據(jù)訓(xùn)練得到。
50.一種可能的實(shí)現(xiàn)方式中,所述語(yǔ)音數(shù)據(jù)流來(lái)自于用戶,所述裝置還包括身份識(shí)別單元,用于:
51.根據(jù)所述語(yǔ)音數(shù)據(jù)流對(duì)所述用戶進(jìn)行身份識(shí)別,獲得身份識(shí)別結(jié)果;
52.所述喚醒單元,可以用于:
53.當(dāng)所述身份識(shí)別結(jié)果表征所述用戶為許可用戶,且所述第二識(shí)別結(jié)果表征所述語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí),將電子設(shè)備切換為工作狀態(tài)。
54.一種可能的實(shí)現(xiàn)方式中,所述身份識(shí)別單元具體用于:
55.從所述語(yǔ)音數(shù)據(jù)流中提取所述用戶的聲紋特征;
56.將所述用戶的聲紋特征和特征模板進(jìn)行匹配,獲得身份識(shí)別結(jié)果,其中,所述特征模板為所述許可用戶預(yù)先錄制的音頻中提取的聲紋特征。
57.本技術(shù)實(shí)施例還提供了一種語(yǔ)音喚醒設(shè)備,包括:處理器、存儲(chǔ)器、系統(tǒng)總線;
58.所述處理器以及所述存儲(chǔ)器通過所述系統(tǒng)總線相連;
59.所述存儲(chǔ)器用于存儲(chǔ)一個(gè)或多個(gè)程序,所述一個(gè)或多個(gè)程序包括指令,所述指令當(dāng)被所述處理器執(zhí)行時(shí)使所述處理器執(zhí)行上述語(yǔ)音喚醒方法中的任意一種實(shí)現(xiàn)方式。
60.本技術(shù)實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有指令,當(dāng)所述指令在終端設(shè)備上運(yùn)行時(shí),使得所述終端設(shè)備執(zhí)行上述語(yǔ)音喚醒方法中的任意一種實(shí)現(xiàn)方式。
61.本技術(shù)實(shí)施例還提供了一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品在終端設(shè)備上運(yùn)行時(shí),使得所述終端設(shè)備執(zhí)行上述語(yǔ)音喚醒方法中的任意一種實(shí)現(xiàn)方式。
62.本技術(shù)實(shí)施例提供的一種語(yǔ)音喚醒方法、裝置、存儲(chǔ)介質(zhì)及設(shè)備,首先電子設(shè)備接收語(yǔ)音數(shù)據(jù)流,然后將語(yǔ)音數(shù)據(jù)流輸入功耗較低的第一喚醒模型,獲取第一識(shí)別結(jié)果,當(dāng)?shù)谝蛔R(shí)別結(jié)果表征語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí),將該語(yǔ)音數(shù)據(jù)流輸入至功耗較高的第二喚醒模型,獲得較為精確的第二識(shí)別結(jié)果,當(dāng)?shù)诙R(shí)別結(jié)果表征語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí),將電子設(shè)備切換為工作狀態(tài),以喚醒電子設(shè)備。如此,由于第一喚醒
模型功耗較低,可以用于對(duì)語(yǔ)音數(shù)據(jù)流的初步識(shí)別,當(dāng)?shù)谝粏拘涯P妥R(shí)別結(jié)果表征語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí),可以將該語(yǔ)音數(shù)據(jù)流輸入至第二喚醒模型進(jìn)行二次識(shí)別,由于第二喚醒模型精度較高,因此可以實(shí)現(xiàn)對(duì)于語(yǔ)音數(shù)據(jù)流的精確識(shí)別。并且,通過第一喚醒模型可以過濾掉較多的數(shù)據(jù),因此輸入至第二喚醒模型的數(shù)據(jù)大幅減小,如此可以有效降低第二喚醒模型的功耗。因此,基于第二喚醒模型的識(shí)別結(jié)果對(duì)于電子設(shè)備進(jìn)行狀態(tài)切換,能夠?qū)崿F(xiàn)低功耗、高精度的語(yǔ)音喚醒。
附圖說(shuō)明
63.為了更清楚地說(shuō)明本技術(shù)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖是本技術(shù)的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
64.圖1為本技術(shù)實(shí)施例提供的一種語(yǔ)音喚醒方法的場(chǎng)景示意圖;
65.圖2為本技術(shù)實(shí)施例提供的一種語(yǔ)音喚醒方法的流程示意圖;
66.圖3為本技術(shù)實(shí)施例提供的一種基于隱馬爾科夫模型的關(guān)鍵詞/填充詞模型示意圖;
67.圖4為本技術(shù)實(shí)施例提供的一種身份識(shí)別的語(yǔ)音喚醒方法的示意圖;
68.圖5為本技術(shù)實(shí)施例提供的一種第二喚醒模型包括第一預(yù)測(cè)網(wǎng)絡(luò)和第二預(yù)測(cè)網(wǎng)絡(luò)的語(yǔ)音喚醒方法的流程示意圖;
69.圖6為本技術(shù)實(shí)施例提供的一種語(yǔ)音喚醒方法的裝置示意圖。
具體實(shí)施方式
70.隨著人工智能的高速發(fā)展,語(yǔ)音交互作為人們最常用的交互方式之一,越來(lái)越多地應(yīng)用于家居,車載,機(jī)器人等各個(gè)領(lǐng)域。用戶可以在家中通過語(yǔ)音交互控制家居設(shè)備,也可以在車中通過語(yǔ)音交互控制車載設(shè)備,甚至可以通過語(yǔ)音交互控制機(jī)器人等。例如,電子設(shè)備通過對(duì)于人聲進(jìn)行語(yǔ)音識(shí)別,然后對(duì)于所識(shí)別的語(yǔ)音通過自然語(yǔ)言處理獲得語(yǔ)音內(nèi)容,然后基于語(yǔ)音內(nèi)容執(zhí)行對(duì)應(yīng)操作,如電子設(shè)備可以基于語(yǔ)音合成通過語(yǔ)音對(duì)于人聲內(nèi)容進(jìn)行回答。
71.在對(duì)于語(yǔ)音交互功能的日常使用中,語(yǔ)音交互并不是長(zhǎng)時(shí)間持續(xù)發(fā)生的狀態(tài)。當(dāng)在語(yǔ)音交互場(chǎng)景中,電子設(shè)備長(zhǎng)期處于工作狀態(tài)時(shí),會(huì)影響電子設(shè)備的續(xù)航能力,影響電子設(shè)備的使用壽命,因此大多數(shù)情況下,電子設(shè)備都處于待機(jī)狀態(tài),然后通過語(yǔ)音喚醒(keyword spotting,kws)功能將電子設(shè)備由待機(jī)狀態(tài)轉(zhuǎn)換為工作狀態(tài)。
72.語(yǔ)音喚醒是指在連續(xù)的語(yǔ)音數(shù)據(jù)流中實(shí)時(shí)檢測(cè)出包括特定醒詞的片段,使電子設(shè)備由待機(jī)狀態(tài)轉(zhuǎn)為工作狀態(tài)。通常情況下,語(yǔ)音喚醒技術(shù)可以采用聲學(xué)模型對(duì)語(yǔ)音數(shù)據(jù)流進(jìn)行編碼解碼,從而檢測(cè)語(yǔ)音數(shù)據(jù)流中是否包括喚醒詞,進(jìn)而確定是否對(duì)電子設(shè)備進(jìn)行喚醒。通常情況下,聲學(xué)模型可以包括混合高斯模型(gaussian mixed model,gmm)和隱馬爾科夫模型(hidden markov model,hmm),其中混合高斯模型用于對(duì)語(yǔ)音數(shù)據(jù)流進(jìn)行編碼,隱馬爾科夫模型用于對(duì)編碼的特征向量進(jìn)行解碼。聲學(xué)模型也可以包括神經(jīng)網(wǎng)絡(luò)模型和隱馬爾科夫模型,其中神經(jīng)網(wǎng)絡(luò)模型用于對(duì)語(yǔ)音數(shù)據(jù)流進(jìn)行編碼,隱馬爾科夫模型用于對(duì)編碼
的特征向量進(jìn)行解碼。
73.通常情況下,具有語(yǔ)音喚醒功能的電子設(shè)備通常采用電池供電并使用低端芯片,因此需要喚醒電子設(shè)備的模型的參數(shù)量和計(jì)算量盡可能小,以降低語(yǔ)音喚醒的功耗。對(duì)于模型低功耗的需求一般可以采用模型深度壓縮策略,從而減少模型大小,降低功耗。但是模型大小的減小在很大程度上會(huì)造成喚醒準(zhǔn)確度的下降,難以滿足業(yè)務(wù)需求,影響用戶的使用體驗(yàn)。
74.有鑒于此,本技術(shù)提供了一種低功耗且具有高準(zhǔn)確度的語(yǔ)音喚醒方法,該方法應(yīng)用于電子設(shè)備。電子設(shè)備是指具有數(shù)據(jù)處理能力的設(shè)備,例如可以是服務(wù)器,或者是終端。其中,終端包括但不限于智能音箱、智能手機(jī)、平板電腦、筆記本電腦、個(gè)人數(shù)字助理(personal digital assistant,pda)或者智能穿戴設(shè)備等。
75.以智能音箱為例,該智能音箱可以在被喚醒后,根據(jù)語(yǔ)音數(shù)據(jù)流中包括的指令,執(zhí)行對(duì)應(yīng)的操作。智能音箱也可以與其他設(shè)備進(jìn)行通信,在喚醒后實(shí)現(xiàn)對(duì)于其他設(shè)備的控制。例如,智能音箱可以應(yīng)用于智能家居中,在被喚醒后根據(jù)語(yǔ)音數(shù)據(jù)流中包括的用戶指令,控制打開臥室臺(tái)燈。智能音箱也可以應(yīng)用在車輛中,在被喚醒后根據(jù)語(yǔ)音數(shù)據(jù)流中包括的用戶指令控制音樂播放器播放指定音樂。
76.服務(wù)器可以是云服務(wù)器,例如是中心云計(jì)算集群中的中心服務(wù)器,或者是邊緣云計(jì)算集群中的邊緣服務(wù)器。當(dāng)然,服務(wù)器也可以是本地?cái)?shù)據(jù)中心中的服務(wù)器。本地?cái)?shù)據(jù)中心是指用戶直接控制的數(shù)據(jù)中心。
77.具體地,電子設(shè)備接收語(yǔ)音數(shù)據(jù)流,將語(yǔ)音數(shù)據(jù)流輸入識(shí)別精度較低的第一喚醒模型,獲得第一識(shí)別結(jié)果,當(dāng)?shù)谝蛔R(shí)別結(jié)果表征語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí),將該語(yǔ)音數(shù)據(jù)流輸入至第二喚醒模型,獲得識(shí)別精度較高的第二識(shí)別結(jié)果,當(dāng)?shù)诙R(shí)別結(jié)果表征語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí),將電子設(shè)備切換為工作狀態(tài),實(shí)現(xiàn)對(duì)于電子設(shè)備的喚醒。其中,第一喚醒模型為功耗較低的模型,用于對(duì)語(yǔ)音數(shù)據(jù)流進(jìn)行第一次識(shí)別,第二喚醒模型為功耗較高精度較高的模型,用于對(duì)通過第一次識(shí)別的語(yǔ)音數(shù)據(jù)流進(jìn)行二次識(shí)別,由于第一喚醒模型過濾了絕大部分音頻,因此第二喚醒模型只需要對(duì)較少的語(yǔ)音數(shù)據(jù)流進(jìn)行識(shí)別,從而降低了模型功耗,并且具有較高的識(shí)別準(zhǔn)確度。
78.該方法的應(yīng)用場(chǎng)景可以如圖1所示,其中,終端100接收用戶所發(fā)出的語(yǔ)音數(shù)據(jù)流,將語(yǔ)音數(shù)據(jù)流輸入識(shí)別精度較低的第一喚醒模型,獲得第一識(shí)別結(jié)果,當(dāng)?shù)谝蛔R(shí)別結(jié)果表征語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí),將該語(yǔ)音數(shù)據(jù)流輸入至第二喚醒模型,獲得識(shí)別精度較高的第二識(shí)別結(jié)果,當(dāng)?shù)诙R(shí)別結(jié)果表征語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí),將終端切換為工作狀態(tài),實(shí)現(xiàn)對(duì)于終端的喚醒。
79.為了使得本公開的技術(shù)方案更加清楚、易于理解,下面以電子設(shè)備為終端為例,對(duì)本公開實(shí)施例提供的語(yǔ)音喚醒方法進(jìn)行介紹。如圖2所示,該方法包括以下步驟:
80.s202:終端接收語(yǔ)音數(shù)據(jù)流。
81.通常情況下,當(dāng)終端處于開啟狀態(tài)時(shí),終端可以持續(xù)接收用戶所發(fā)出的語(yǔ)音數(shù)據(jù)流。語(yǔ)音數(shù)據(jù)流具體是指連續(xù)的語(yǔ)音信號(hào)形成的流式數(shù)據(jù)。語(yǔ)音信號(hào)在宏觀上是不平穩(wěn)的,在微觀上是平穩(wěn)的,也即語(yǔ)音信號(hào)具有短時(shí)平穩(wěn)性。一般情況下,10
???
30毫秒(millisecond,ms)內(nèi)可以認(rèn)為語(yǔ)音信號(hào)近似不變,基于此,終端可以將語(yǔ)音信號(hào)分為一些短段來(lái)進(jìn)行處理,每一個(gè)短段稱為一幀(chunk)。因此,語(yǔ)音數(shù)據(jù)流可以包括多個(gè)語(yǔ)音幀。
82.在本實(shí)施例中,終端接收的語(yǔ)音數(shù)據(jù)流可以為某一個(gè)用戶所產(chǎn)生的語(yǔ)音數(shù)據(jù)流,也可以包括多個(gè)用戶所產(chǎn)生的語(yǔ)音數(shù)據(jù)流。例如,在會(huì)議場(chǎng)景中,終端接收的語(yǔ)音數(shù)據(jù)流可以為多個(gè)用戶說(shuō)話產(chǎn)生的語(yǔ)音數(shù)據(jù)流。
83.s204:終端將語(yǔ)音數(shù)據(jù)流輸入第一喚醒模型,獲得第一識(shí)別結(jié)果。
84.第一喚醒模型和第二喚醒模型均具有識(shí)別喚醒詞進(jìn)行語(yǔ)音喚醒的功能。其中,第一喚醒模型的功耗低于第二喚醒的模型的功耗。一般情況下,參數(shù)量較低的模型具有相對(duì)較低的功耗,參數(shù)量較高的模型具有相對(duì)較高的功耗,但具有較高的精度。基于此,第一喚醒模型可以是參數(shù)量相對(duì)較低的模型,第二喚醒模型可以是參數(shù)量相對(duì)較高的模型。第一喚醒模型用于預(yù)喚醒。
85.在一些可能的實(shí)現(xiàn)方式中,第一喚醒模型可以包括編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)。其中,編碼網(wǎng)絡(luò)用于對(duì)語(yǔ)音數(shù)據(jù)流中的多個(gè)音頻幀分別進(jìn)行編碼,獲得多個(gè)音頻幀的狀態(tài)得分。進(jìn)一步地,編碼網(wǎng)絡(luò)可以根據(jù)多個(gè)音頻幀的狀態(tài)得分,從多個(gè)音頻幀中確定候選音頻幀,輸入至解碼網(wǎng)絡(luò)。解碼網(wǎng)絡(luò)用于對(duì)候選音頻幀進(jìn)行解碼,獲得第一識(shí)別結(jié)果。
86.解碼網(wǎng)絡(luò)通常是基于隱馬爾可夫模型(hidden markov model,hmm),通過統(tǒng)計(jì)學(xué)分析實(shí)現(xiàn)解碼。在一些可能的實(shí)現(xiàn)方式中,解碼網(wǎng)絡(luò)可以為基于hmm的關(guān)鍵詞/填充詞(keyword/filler)模型,也可以簡(jiǎn)稱為filler模型。其中,關(guān)鍵詞為用于喚醒模型的喚醒詞,該喚醒詞可以預(yù)先設(shè)置。
87.圖3提供了keyword/filler模型的一種結(jié)構(gòu)示意圖,keyword/filler模型包括keyword結(jié)構(gòu)和filler結(jié)構(gòu),keyword結(jié)構(gòu)具體為喚醒詞對(duì)應(yīng)的hmm,圖3中采用填充有圖案的圓圈表示,filler結(jié)構(gòu)具體為填充詞(除了喚醒詞以外的單詞)對(duì)應(yīng)的hmm,圖3中采用空白的圓圈表示,其中,喚醒詞對(duì)應(yīng)的hmm還可以設(shè)計(jì)成帶跳轉(zhuǎn)的、帶詞間停頓的結(jié)構(gòu)。上述喚醒詞對(duì)應(yīng)的hmm和填充詞對(duì)應(yīng)的hmm可以拼接為一個(gè)hmm。
88.具體地,解碼網(wǎng)絡(luò)可以根據(jù)每幀的狀態(tài)得分,通過維特比(viterbi)算法獲取最優(yōu)路徑。keyword結(jié)構(gòu)在解碼過程中,如果當(dāng)前狀態(tài)的得分高于前一狀態(tài),則進(jìn)行自動(dòng)跳轉(zhuǎn)至前一狀態(tài),如果當(dāng)前狀態(tài)的得分低于前一狀態(tài),則由前一狀態(tài)轉(zhuǎn)移到當(dāng)前狀態(tài),從而逐漸從第一個(gè)狀態(tài)轉(zhuǎn)移到最后一個(gè)狀態(tài)。filler結(jié)構(gòu)用于挑選所有狀態(tài)的最高分減去懲罰項(xiàng)進(jìn)行累加。當(dāng)最后一個(gè)狀態(tài)的得分高于filler結(jié)構(gòu)得分時(shí),表明該模型判斷語(yǔ)音數(shù)據(jù)流中包括關(guān)鍵詞對(duì)應(yīng)的片段。相比于其他語(yǔ)音喚醒模型,關(guān)鍵詞/填充詞(keyword/filler)模型能夠針對(duì)性地對(duì)keyword(喚醒詞)進(jìn)行解碼,從而能夠降低可選路徑,減少模型的計(jì)算量和內(nèi)存。
89.上述第一喚醒模型可以預(yù)先訓(xùn)練得到。其中,第一喚醒模型可以通過包括喚醒詞的訓(xùn)練數(shù)據(jù)訓(xùn)練得到。具體地,終端可以初始化第一喚醒模型,然后將包括喚醒詞的訓(xùn)練數(shù)據(jù)輸入第一喚醒模型,根據(jù)第一喚醒模型的輸出,更新第一喚醒模型的權(quán)重,由此實(shí)現(xiàn)對(duì)第一喚醒模型的訓(xùn)練。當(dāng)?shù)谝粏拘涯P蜐M足訓(xùn)練結(jié)束條件時(shí),終端可以停止訓(xùn)練,獲得第一喚醒模型。該第一喚醒模型能夠識(shí)別語(yǔ)音數(shù)據(jù)流是否包括喚醒詞,從而實(shí)現(xiàn)預(yù)喚醒。
90.s206:終端判斷第一識(shí)別結(jié)果是否表征語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段。
91.第一識(shí)別結(jié)果用于表征該語(yǔ)音數(shù)據(jù)流中是否包括喚醒詞。在一些可能的實(shí)現(xiàn)方式中,終端可以將語(yǔ)音數(shù)據(jù)流分為多個(gè)片段,第一喚醒模型對(duì)多個(gè)片段進(jìn)行分別判斷,輸出對(duì)應(yīng)的第一識(shí)別結(jié)果。第一識(shí)別結(jié)果用于表征該片段中是否包括喚醒詞。
92.由于第一喚醒模型功耗較低,模型參數(shù)量較小,因此可能存在誤喚醒的情況,即可能存在語(yǔ)音數(shù)據(jù)流片段中存在與喚醒詞相近的內(nèi)容,也可能被第一喚醒模型判斷通過,因此需要采用更高精度的模型進(jìn)行二次確認(rèn)。
93.當(dāng)?shù)谝蛔R(shí)別結(jié)果表征語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí),終端執(zhí)行s208;否則,終端執(zhí)行s218。
94.s208:終端將語(yǔ)音數(shù)據(jù)流輸入第二喚醒模型,獲得第二識(shí)別結(jié)果。
95.其中,第二喚醒模型為功耗較高的模型,具有較高的識(shí)別精度。第二喚醒模型的功耗高于第一喚醒模型的功耗。
96.當(dāng)?shù)谝粏拘涯P洼敵龅牡谝蛔R(shí)別結(jié)果表征語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí),為了避免誤喚醒情況的發(fā)生,終端可以通過第二喚醒模型對(duì)于語(yǔ)音數(shù)據(jù)流進(jìn)行二次判斷。
97.相比于第一喚醒模型,第二喚醒模型的參數(shù)量和計(jì)算量均較大,因此模型的學(xué)習(xí)能力較強(qiáng),能夠?qū)σ恍┌l(fā)音相近的詞進(jìn)行更好的區(qū)分。因此,盡管第二喚醒模型的功耗較大,但是只對(duì)第一喚醒模型表征語(yǔ)音數(shù)據(jù)流中包括喚醒詞的片段進(jìn)行判斷,相比于對(duì)整個(gè)語(yǔ)音數(shù)據(jù)流進(jìn)行判斷,所需進(jìn)行判斷的數(shù)據(jù)流較少。因此,該方法可以在功耗較小的情況下具有較高的準(zhǔn)確度。
98.s210:終端判斷第二識(shí)別結(jié)果是否表征語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段。
99.第二識(shí)別結(jié)果用于表征該片段中是否包括喚醒詞。由于第二喚醒模型為參數(shù)量較大、計(jì)算量較大的模型,因此模型可以對(duì)經(jīng)過第一喚醒模型判斷包括喚醒詞的片段進(jìn)行進(jìn)一步判斷,從而輸出準(zhǔn)確的判斷結(jié)果。終端可以基于第二識(shí)別結(jié)果確定是否需要對(duì)電子設(shè)備進(jìn)行喚醒。
100.當(dāng)?shù)诙R(shí)別結(jié)果表征語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí),終端執(zhí)行s212;否則執(zhí)行s218。
101.s212:終端根據(jù)語(yǔ)音數(shù)據(jù)流對(duì)用戶進(jìn)行身份識(shí)別,獲得身份識(shí)別結(jié)果。
102.在一些可能的實(shí)現(xiàn)方式中,為了避免其他用戶對(duì)于終端的誤喚醒,因此可以預(yù)先提取用戶的聲紋特征,然后根據(jù)語(yǔ)音數(shù)據(jù)流中的聲紋特征與預(yù)先存儲(chǔ)的聲紋特征進(jìn)行匹配,獲得身份識(shí)別結(jié)果。
103.具體地,如圖4所示,當(dāng)用戶進(jìn)行注冊(cè)時(shí),終端可以向用戶發(fā)出提供音頻請(qǐng)求,根據(jù)用戶所提供的音頻,終端可以利用神經(jīng)網(wǎng)絡(luò)模型從音頻中提取該用戶的特征模板。當(dāng)在進(jìn)行語(yǔ)音喚醒操作時(shí),終端從語(yǔ)音數(shù)據(jù)流中提取用戶的聲紋特征,將用戶的聲紋特征和特征模板進(jìn)行匹配,根據(jù)相似度獲得身份識(shí)別結(jié)果。
104.s214:終端判斷身份識(shí)別結(jié)果是否表征用戶為許可用戶。
105.身份識(shí)別結(jié)果用于對(duì)用戶的身份進(jìn)行確認(rèn),當(dāng)用戶為許可用戶時(shí),終端根據(jù)語(yǔ)音數(shù)據(jù)流中所包括的喚醒詞,將電子設(shè)備切換為工作狀態(tài),當(dāng)用戶不為許可用戶時(shí),終端不執(zhí)行對(duì)應(yīng)操作。如此,可以排除非許可用戶的喚醒行為,使用戶產(chǎn)生個(gè)性化、定制化的服務(wù)體驗(yàn)。其中,許可用戶可以為一個(gè)或多個(gè)用戶。
106.當(dāng)身份識(shí)別結(jié)果表征用戶為許可用戶時(shí),執(zhí)行s216;否則執(zhí)行s218。
107.s216:終端將電子設(shè)備切換為工作狀態(tài)。
108.在一些可能的實(shí)現(xiàn)方式中,電子設(shè)備為該終端,因此終端可以在通過上述第一喚
醒模型、第二喚醒模型以及身份驗(yàn)證后后,將自身狀態(tài)切換為工作狀態(tài),實(shí)現(xiàn)對(duì)該終端自身進(jìn)行喚醒,進(jìn)而根據(jù)語(yǔ)音數(shù)據(jù)流中包括的指令執(zhí)行對(duì)應(yīng)操作。例如,終端可以為智能音箱,當(dāng)?shù)诙R(shí)別結(jié)果表征語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí),智能音箱將自身狀態(tài)切換為工作狀態(tài),根據(jù)語(yǔ)音數(shù)據(jù)流中包括的指令播放對(duì)應(yīng)的歌曲。
109.在另一些可能的實(shí)現(xiàn)方式中,電子設(shè)備為除該終端以外的其他設(shè)備,該終端將其他電子設(shè)備的狀態(tài)切換為工作狀態(tài),實(shí)現(xiàn)對(duì)于其他電子設(shè)備的喚醒。例如,終端可以為智能音箱,當(dāng)?shù)诙R(shí)別結(jié)果表征語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí),智能音箱將智能電視的狀態(tài)切換為工作狀態(tài),根據(jù)語(yǔ)音數(shù)據(jù)流中包括的指令播放對(duì)應(yīng)的電影。
110.s218:終端結(jié)束當(dāng)前流程。
111.當(dāng)?shù)谝蛔R(shí)別結(jié)果表征語(yǔ)音數(shù)據(jù)流中不包括喚醒詞對(duì)應(yīng)的片段時(shí),即表明語(yǔ)音數(shù)據(jù)流中不包括對(duì)電子設(shè)備進(jìn)行喚醒的指令,因此終端結(jié)束當(dāng)前流程,電子設(shè)備保持待機(jī)狀態(tài)。
112.當(dāng)?shù)诙R(shí)別結(jié)果不表征語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí),即表明第一喚醒模型判斷錯(cuò)誤,該語(yǔ)音數(shù)據(jù)流的片段中不包括喚醒詞,因此,終結(jié)束當(dāng)前流程,電子設(shè)備保持待機(jī)狀態(tài)。
113.當(dāng)身份識(shí)別結(jié)果表征該用戶不為許可用戶時(shí),即表明該語(yǔ)音數(shù)據(jù)流不為許可用戶所發(fā)出的,因此,終端結(jié)束當(dāng)前流程,電子設(shè)備保持待機(jī)狀態(tài)。
114.如此,本技術(shù)提供了一種語(yǔ)音喚醒方法,該方法通過功耗較低的第一喚醒模型進(jìn)行初步判斷,對(duì)于第一喚醒模型判斷包括喚醒詞的片段,采用精度較高的第二喚醒模型進(jìn)行進(jìn)一步判斷,由此輸出具有較高精度的語(yǔ)音喚醒方法。進(jìn)一步地,還可以根據(jù)語(yǔ)音數(shù)據(jù)流中的聲紋特征進(jìn)行身份驗(yàn)證,當(dāng)身份驗(yàn)證通過時(shí),喚醒電子設(shè)備,從而提供一種功耗較低、精度較高且個(gè)性化的語(yǔ)音喚醒方法。
115.在一些可能的實(shí)現(xiàn)方式中,該方法也可以不包括上述s212至s214,即對(duì)用戶進(jìn)行身份識(shí)別可以為可選步驟。
116.由于大量語(yǔ)音數(shù)據(jù)采用功耗較低的第一喚醒模型進(jìn)行判斷,輸入至第二喚醒模型的數(shù)據(jù)大幅減小,因此精度較高的第二喚醒模型僅需要對(duì)少量的語(yǔ)音數(shù)據(jù)進(jìn)行判斷,如此可以有效降低第二喚醒模型的功耗。因此,基于第二喚醒模型的識(shí)別結(jié)果對(duì)于電子設(shè)備進(jìn)行狀態(tài)切換,能夠?qū)崿F(xiàn)低功耗、高精度的語(yǔ)音喚醒。
117.以上對(duì)于本技術(shù)提供的一種語(yǔ)音喚醒方法中的具體流程進(jìn)行了介紹,在一些可能的實(shí)現(xiàn)方式中,第二喚醒模型可以包括第一預(yù)測(cè)網(wǎng)絡(luò)和第二預(yù)測(cè)網(wǎng)絡(luò),終端可以通過第一預(yù)測(cè)網(wǎng)絡(luò)和第二預(yù)測(cè)網(wǎng)絡(luò)獲取第二識(shí)別結(jié)果,下面如圖5所示,對(duì)于第二喚醒模型包括第一預(yù)測(cè)網(wǎng)絡(luò)和第二預(yù)測(cè)網(wǎng)絡(luò)時(shí)的s208進(jìn)行具體介紹。當(dāng)?shù)诙拘涯P桶ǖ谝活A(yù)測(cè)網(wǎng)絡(luò)和第二預(yù)測(cè)網(wǎng)絡(luò)時(shí),該方法包括以下步驟:
118.s502:終端將語(yǔ)音數(shù)據(jù)流輸入第二預(yù)測(cè)網(wǎng)絡(luò),獲得語(yǔ)音數(shù)據(jù)流中目標(biāo)音頻幀的狀態(tài)得分。
119.語(yǔ)音數(shù)據(jù)流包括多個(gè)音頻幀。第二預(yù)測(cè)網(wǎng)絡(luò)用于對(duì)語(yǔ)音數(shù)據(jù)流中目標(biāo)音頻幀進(jìn)行預(yù)測(cè),輸出該目標(biāo)音頻幀的狀態(tài)得分。其中,目標(biāo)音頻幀為當(dāng)前音頻幀。在一些可能的實(shí)現(xiàn)方式中,第二預(yù)測(cè)網(wǎng)絡(luò)可以為神經(jīng)網(wǎng)絡(luò),終端通過神經(jīng)網(wǎng)絡(luò)對(duì)當(dāng)前音頻幀進(jìn)行編碼,獲得當(dāng)前音頻幀的狀態(tài)得分。
120.s504:終端根據(jù)狀態(tài)得分進(jìn)行解碼,獲得解碼得分。
121.在一些可能的實(shí)現(xiàn)方式中,可以通過基于隱馬爾科夫模型的關(guān)鍵詞/填充詞模型進(jìn)行解碼,獲得解碼得分。
122.s506:終端判斷解碼得分是否超過預(yù)喚醒門限。
123.預(yù)喚醒門限為該音頻幀中包括喚醒詞的概率門限。解碼得分超過預(yù)喚醒門限時(shí),表明該音頻幀具有較大概率包括喚醒詞。其中,預(yù)喚醒門限通常低于正常門限。在一些可能的實(shí)現(xiàn)方式中,當(dāng)解碼得分超過預(yù)喚醒門限時(shí),模型通過第一預(yù)測(cè)網(wǎng)絡(luò)根據(jù)當(dāng)前音頻幀和當(dāng)前音頻幀以前的音頻幀確定目標(biāo)音頻幀的狀態(tài)得分。當(dāng)解碼得分沒有超過預(yù)喚醒門限時(shí),模型通過傳統(tǒng)高功耗喚醒模型根據(jù)當(dāng)前音頻幀、當(dāng)前音頻幀以前的音頻幀以及以后的音頻幀獲確定目標(biāo)音頻幀的狀態(tài)得分。由于第一預(yù)測(cè)網(wǎng)絡(luò)的響應(yīng)時(shí)間短于傳統(tǒng)高功耗喚醒模型的響應(yīng)時(shí)間,因此當(dāng)解碼得分超過預(yù)喚醒門限時(shí),通過第一預(yù)測(cè)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)能夠減小響應(yīng)時(shí)間。
124.當(dāng)解碼得分不超過預(yù)喚醒門限時(shí),執(zhí)行s508;否則執(zhí)行s510。
125.s508:終端通過傳統(tǒng)喚醒模型獲得第二識(shí)別結(jié)果。
126.當(dāng)終端判斷解碼得分沒有超過預(yù)喚醒門限時(shí),表明該語(yǔ)音數(shù)據(jù)流并不具有較大概率包括喚醒詞,因此可以采用傳統(tǒng)高功耗喚醒模型獲得第二識(shí)別結(jié)果。通常情況下,傳統(tǒng)高功耗喚醒模型根據(jù)目標(biāo)音頻幀、目標(biāo)音頻幀之前的音頻幀以及目標(biāo)音頻幀之后的音頻幀獲得第二識(shí)別結(jié)果。具體地,終端通過第二喚醒模型獲得目標(biāo)音頻幀的狀態(tài)得分,根據(jù)狀態(tài)得分獲得識(shí)別結(jié)果,從而獲得第二識(shí)別結(jié)果。
127.s510:終端將語(yǔ)音數(shù)據(jù)流輸入第一預(yù)測(cè)網(wǎng)絡(luò)。
128.第一預(yù)測(cè)網(wǎng)絡(luò)用于根據(jù)當(dāng)前幀以及當(dāng)前幀以前的音頻幀確定目標(biāo)音頻幀的狀態(tài)得分。相比于傳統(tǒng)高功耗喚醒模型,第一預(yù)測(cè)網(wǎng)絡(luò)無(wú)需根據(jù)當(dāng)前幀之后的音頻幀進(jìn)行判斷,因此右視野為0,響應(yīng)時(shí)間較短。而由于語(yǔ)音數(shù)據(jù)流的解碼得分高于預(yù)喚醒門限,即表明該語(yǔ)音數(shù)據(jù)流中包括喚醒詞的概率較高,因此可以通過第一預(yù)測(cè)網(wǎng)絡(luò)根據(jù)當(dāng)前幀以及當(dāng)前幀以前的音頻幀確定目標(biāo)音頻幀的狀態(tài)得分,具有較高的識(shí)別精度。
129.s512:終端根據(jù)目標(biāo)音頻幀以及目標(biāo)音頻幀之前的音頻幀,通過第一預(yù)測(cè)網(wǎng)絡(luò)確定目標(biāo)音頻幀的狀態(tài)得分。
130.由于該目標(biāo)視頻幀具有較大的概率包括喚醒詞,因此終端可以根據(jù)目標(biāo)音頻幀以及目標(biāo)音頻幀之前的音頻幀,通過第一預(yù)測(cè)網(wǎng)絡(luò)確定目標(biāo)音頻幀的狀態(tài)得分。相比于傳統(tǒng)高功耗喚醒模型,由于第一預(yù)測(cè)網(wǎng)絡(luò)僅需要根據(jù)當(dāng)前音頻幀和當(dāng)前音頻幀以前的音頻幀即可以對(duì)是否包括喚醒詞進(jìn)行判斷,第一預(yù)測(cè)網(wǎng)絡(luò)的右視野為0,其響應(yīng)時(shí)間較短,因此能夠有效減少響應(yīng)時(shí)間。
131.s514:終端根據(jù)目標(biāo)音頻幀的狀態(tài)得分,獲得目標(biāo)音頻幀的識(shí)別結(jié)果。
132.終端可以根據(jù)第一預(yù)測(cè)網(wǎng)絡(luò)輸出的目標(biāo)音頻幀的狀態(tài)得分,獲得對(duì)應(yīng)的目標(biāo)音頻幀的識(shí)別結(jié)果。其中,不同狀態(tài)得分與識(shí)別結(jié)果可以為階梯對(duì)應(yīng),也可以為一一對(duì)應(yīng)。例如,當(dāng)目標(biāo)音頻幀的狀態(tài)得分低于某一預(yù)設(shè)閾值時(shí),目標(biāo)音頻幀的識(shí)別結(jié)果為不包括喚醒詞,當(dāng)目標(biāo)音頻幀的狀態(tài)得分高于某一預(yù)設(shè)閾值時(shí),目標(biāo)音頻幀的識(shí)別結(jié)果為包括喚醒詞。又例如,當(dāng)目標(biāo)音頻幀的狀態(tài)得分為a,目標(biāo)音頻幀的狀態(tài)得分的滿分為100時(shí),目標(biāo)音頻幀的識(shí)別結(jié)果為該音頻幀中包括喚醒詞的概率為a%。
133.s516:終端根據(jù)目標(biāo)音頻幀的識(shí)別結(jié)果,獲得第二識(shí)別結(jié)果。
134.第二識(shí)別結(jié)果是指第二喚醒模型對(duì)于語(yǔ)音數(shù)據(jù)流中是否包括喚醒詞對(duì)應(yīng)的片段所輸出的識(shí)別結(jié)果。當(dāng)?shù)诙拘涯P桶ǖ谝活A(yù)測(cè)網(wǎng)絡(luò)時(shí),終端可以根據(jù)第一預(yù)測(cè)網(wǎng)絡(luò)所輸出的目標(biāo)音頻幀的狀態(tài)得分,獲得表征語(yǔ)音數(shù)據(jù)流中是否包括喚醒詞的第二識(shí)別結(jié)果。
135.如此,終端可以通過第二預(yù)測(cè)網(wǎng)絡(luò)根據(jù)語(yǔ)音數(shù)據(jù)流中目標(biāo)音頻幀的解碼得分進(jìn)行預(yù)判斷,當(dāng)解碼得分超過預(yù)喚醒門限時(shí),可以采用第一預(yù)測(cè)網(wǎng)絡(luò)進(jìn)行判斷,由于第一預(yù)測(cè)網(wǎng)絡(luò)僅需要目標(biāo)音頻幀和目標(biāo)音頻幀之前的音頻幀,因此響應(yīng)時(shí)間較短,能夠有效減少第二喚醒模型的響應(yīng)時(shí)間。并且,由于根據(jù)解碼得分進(jìn)行了預(yù)判斷,在此基礎(chǔ)上通過第一預(yù)測(cè)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)仍然具有較高的識(shí)別精度。
136.在一些可能的實(shí)現(xiàn)方式中,通過第二喚醒模型獲得第二識(shí)別結(jié)果可以僅包括上述s510至s516,終端可以直接將語(yǔ)音數(shù)據(jù)流輸入第一預(yù)測(cè)網(wǎng)絡(luò),通過第一預(yù)測(cè)網(wǎng)絡(luò)獲得目標(biāo)音頻幀的狀態(tài)得分,進(jìn)而獲取目標(biāo)音頻幀的識(shí)別結(jié)果以及第二識(shí)別結(jié)果,從而能夠較快地獲得第二識(shí)別結(jié)果。
137.圖6是根據(jù)一示例性公開實(shí)施例示出的一種語(yǔ)音喚醒裝置的示意圖,如圖6所示,所述語(yǔ)音喚醒裝置600包括:
138.通信單元602,用于接收語(yǔ)音數(shù)據(jù)流;
139.第一識(shí)別單元604,用于將所述語(yǔ)音數(shù)據(jù)流輸入第一喚醒模型,獲得第一識(shí)別結(jié)果;
140.第二識(shí)別單元606,用于當(dāng)所述第一識(shí)別結(jié)果表征所述語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí),將所述語(yǔ)音數(shù)據(jù)流輸入第二喚醒模型,獲得第二識(shí)別結(jié)果,所述第一喚醒模型的功耗低于所述第二喚醒模型的功耗;
141.喚醒單元608,用于當(dāng)所述第二識(shí)別結(jié)果表征所述語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí),將電子設(shè)備切換為工作狀態(tài),以喚醒所述電子設(shè)備。
142.一種可能的實(shí)現(xiàn)方式中,所述語(yǔ)音數(shù)據(jù)流包括多個(gè)音頻幀,所述第二喚醒模型包括第一預(yù)測(cè)網(wǎng)絡(luò),所述第二識(shí)別單元606可以用于:
143.根據(jù)目標(biāo)音頻幀以及所述目標(biāo)音頻幀之前的音頻幀,通過所述第一預(yù)測(cè)網(wǎng)絡(luò)確定所述目標(biāo)音頻幀的狀態(tài)得分,所述目標(biāo)音頻幀為所述多個(gè)音頻幀中的任意一個(gè)或多個(gè);
144.根據(jù)所述目標(biāo)音頻幀的狀態(tài)得分,獲得所述目標(biāo)音頻幀的識(shí)別結(jié)果;
145.根據(jù)所述目標(biāo)音頻幀的識(shí)別結(jié)果,獲得第二識(shí)別結(jié)果。
146.一種可能的實(shí)現(xiàn)方式中,所述第二喚醒模型還包括第二預(yù)測(cè)網(wǎng)絡(luò),第二識(shí)別單元606還用于:
147.將所述語(yǔ)音數(shù)據(jù)流輸入所述第二預(yù)測(cè)網(wǎng)絡(luò),獲得所述語(yǔ)音數(shù)據(jù)流中所述目標(biāo)音頻幀的狀態(tài)得分;
148.根據(jù)所述狀態(tài)得分進(jìn)行解碼,獲得解碼得分;
149.當(dāng)所述解碼得分超過預(yù)喚醒門限時(shí),將所述語(yǔ)音數(shù)據(jù)流輸入所述第一預(yù)測(cè)網(wǎng)絡(luò)。
150.一種可能的實(shí)現(xiàn)方式中,所述第一識(shí)別單元604用于:
151.通過所述編碼網(wǎng)絡(luò)對(duì)所述語(yǔ)音數(shù)據(jù)流中多個(gè)音頻幀分別進(jìn)行編碼,得到所述多個(gè)音頻幀的狀態(tài)得分;
152.根據(jù)所述多個(gè)音頻幀的狀態(tài)得分,從所述多個(gè)音頻幀中確定候選音頻幀;
153.通過所述解碼網(wǎng)絡(luò)對(duì)所述候選音頻幀進(jìn)行解碼,獲得第一識(shí)別結(jié)果。
154.一種可能的實(shí)現(xiàn)方式中,所述第一喚醒模型通過包括所述喚醒詞的樣本數(shù)據(jù)訓(xùn)練得到。
155.一種可能的實(shí)現(xiàn)方式中,所述語(yǔ)音數(shù)據(jù)流來(lái)自于用戶,所述裝置還包括身份識(shí)別單元610,用于:
156.根據(jù)所述語(yǔ)音數(shù)據(jù)流對(duì)所述用戶進(jìn)行身份識(shí)別,獲得身份識(shí)別結(jié)果;
157.所述喚醒單元608,可以用于:
158.當(dāng)所述身份識(shí)別結(jié)果表征所述用戶為許可用戶,且所述第二識(shí)別結(jié)果表征所述語(yǔ)音數(shù)據(jù)流中包括喚醒詞對(duì)應(yīng)的片段時(shí),將電子設(shè)備切換為工作狀態(tài)。
159.一種可能的實(shí)現(xiàn)方式中,所述身份識(shí)別單元610具體用于:
160.從所述語(yǔ)音數(shù)據(jù)流中提取所述用戶的聲紋特征;
161.將所述用戶的聲紋特征和特征模板進(jìn)行匹配,獲得身份識(shí)別結(jié)果,其中,所述特征模板為所述許可用戶預(yù)先錄制的音頻中提取的聲紋特征。
162.進(jìn)一步地,本技術(shù)實(shí)施例還提供了一種語(yǔ)音喚醒設(shè)備,包括:處理器、存儲(chǔ)器、系統(tǒng)總線;
163.所述處理器以及所述存儲(chǔ)器通過所述系統(tǒng)總線相連;
164.所述存儲(chǔ)器用于存儲(chǔ)一個(gè)或多個(gè)程序,所述一個(gè)或多個(gè)程序包括指令,所述指令當(dāng)被所述處理器執(zhí)行時(shí)使所述處理器執(zhí)行上述語(yǔ)音喚醒方法的任一種實(shí)現(xiàn)方法。
165.進(jìn)一步地,本技術(shù)實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有指令,當(dāng)所述指令在終端設(shè)備上運(yùn)行時(shí),使得所述終端設(shè)備執(zhí)行上述語(yǔ)音喚醒方法的任一種實(shí)現(xiàn)方法。
166.進(jìn)一步地,本技術(shù)實(shí)施例還提供了一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品在終端設(shè)備上運(yùn)行時(shí),使得所述終端設(shè)備執(zhí)行上述語(yǔ)音喚醒方法的任一種實(shí)現(xiàn)方法。
167.通過以上的實(shí)施方式的描述可知,本領(lǐng)域的技術(shù)人員可以清楚地了解到上述實(shí)施例方法中的全部或部分步驟可借助軟件加必需的通用硬件平臺(tái)的方式來(lái)實(shí)現(xiàn)。基于這樣的理解,本技術(shù)的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在存儲(chǔ)介質(zhì)中,如rom/ram、磁碟、光盤等,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者諸如媒體網(wǎng)關(guān)等網(wǎng)絡(luò)通信設(shè)備,等等)執(zhí)行本技術(shù)各個(gè)實(shí)施例或者實(shí)施例的某些部分所述的方法。
168.需要說(shuō)明的是,本說(shuō)明書中各個(gè)實(shí)施例采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似部分互相參見即可。對(duì)于實(shí)施例公開的裝置而言,由于其與實(shí)施例公開的方法相對(duì)應(yīng),所以描述的比較簡(jiǎn)單,相關(guān)之處參見方法部分說(shuō)明即可。
169.還需要說(shuō)明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來(lái),而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語(yǔ)句“包括一個(gè)
……”
限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
170.對(duì)所公開的實(shí)施例的上述說(shuō)明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本技術(shù)。對(duì)這些實(shí)施例的多種修改對(duì)本領(lǐng)域的專業(yè)技術(shù)人員來(lái)說(shuō)將是顯而易見的,本文中所定義的一般原理可以在不脫離本技術(shù)的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本技術(shù)將不會(huì)被限制于本文所示的這些實(shí)施例,而是要符合與本文所公開的原理和新穎特點(diǎn)相一致的最寬的范圍。