語音識別方法及裝置、電子設備、計算機可讀存儲介質與流程

文檔序號：27684154發布日期：2021-12-01 00:42閱讀：188來源：國知局

1.本發明涉及計算機技術領域，具體而言，涉及一種語音識別方法及裝置、電子設備、計算機可讀存儲介質。

背景技術：

2.語音識別是提高各種設備的智能化程度的目重要技術，通過語音識別可以與機器進行語音交流。即，可以通過語音識別技術讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的技術。其主要包括特征提取技術、模式匹配準則以及模型訓練技術三個方面。
3.因此，相關技術中的語音識別系統一般是通過采集模塊來采集操作人員發出的喚醒詞，聲學特征提取模塊提取換新詞的特征信息，自定義喚醒詞模塊輸出自定義喚醒詞表，發音字典生成器根據自定義換新詞表和預置字典生成發音字典，語言模型生成器根據發音字典生成語言模型，解碼圖生成器可根據語言模型和發音字典生成一個靜態解碼圖，解碼器可根據靜態解碼圖和通用聲學模型解碼，以判斷語音數據是否含有換新詞。
4.然而，上述方案存在以下弊端：1).預置詞典的構建直接使用音素，會增加誤喚醒；2).當喚醒詞中某個字為多音字時，沒有將字的不同讀音加入詞典(例如發音t uh2ng2 x iy2 eh2、t uh4 ng4 x iy2 eh2、t uh5 ng5 x iy2 eh2，三種發音；為了提高識別率，也要把相似發音加入發音詞典，例如，喚醒詞為小碧同學，可將小比同學、小鼻同學、小比同學加入發音詞典)；3).沒有將所有的喚醒詞子詞加入詞典(例如，喚醒詞為小碧同學，同時要將小碧、碧同、同學等子詞加入詞典，以降低誤喚醒)；4). 沒有引入熱詞技術(熱詞可提高喚醒率，例如識別結果為小幣同學，可通過熱詞強行把幣字糾正為碧)。
5.針對上述的問題，目前尚未提出有效的解決方案。

技術實現要素：

6.本發明實施例提供了一種語音識別方法及裝置、電子設備、計算機可讀存儲介質，以至少解決相關技術中進行語音識別的方式可靠性較低的技術問題。
7.根據本發明實施例的一個方面，提供了一種語音識別方法，包括：生成目標喚醒詞對應的喚醒詞聲學詞典和喚醒詞語言字典，其中，所述目標喚醒詞包含自定義喚醒詞；基于所述喚醒詞聲學詞典和所述喚醒詞語言字典生成解碼圖；利用所述解碼圖對目標語音進行逐幀解碼，得到語音識別結果。
8.可選地，在生成目標喚醒詞對應的喚醒詞聲學詞典和喚醒詞語言字典之前，該語音識別方法還包括：生成漢字第一映射表，所述第一映射表包含漢字與該漢字的至少一個拼音之間的映射關系；其中，生成所述第一映射表，包括：使用第一分詞工具對預定文本進行分詞處理，得到分詞結果；利用拼音生成工具為所述分詞結果進行拼音標注，得到詞語第二映射表，所述第二映射表包含詞語與該詞語的至少一個拼音之間的映射關系；對所述第二映射表進行解析，得到第三映射表，所述第三映射表包含所述詞語中每一個字與該每一
個字的至少一個拼音之間的映射關系；按照預定組合方式對所述第三映射表進行組合，得到所述第一映射表。
9.可選地，生成目標喚醒詞對應的喚醒詞聲學詞典，包括：獲取所述目標喚醒詞；利用第二分詞工具對所述目標喚醒詞進行分詞處理，得到多個子詞；對所述多個子詞按照所述第一映射表進行處理，得到第四映射表，所述第四映射表包含所述多個子詞中每一個子詞與該每一個子詞的至少一個拼音之間的映射關系；將所述第四映射表與所述第一映射表進行融合，得到所述喚醒詞聲學詞典。
10.可選地，生成目標喚醒詞對應的喚醒詞語言字典，包括：對所述第二映射表中的漢字進行去重處理，得到漢字字典；對目標喚醒詞進行分詞處理，得到多個子詞，并對所述多個子詞進行去重處理，得到剩余子詞；將所述剩余子詞與所述漢字字典進行組合，得到所述喚醒詞語言字典。
11.可選地，基于所述喚醒詞聲學詞典和所述喚醒詞語言字典生成解碼圖，包括：將所述喚醒詞聲學詞典與預置詞典進行融合，得到融合后的聲學詞典；將所述喚醒詞語言字典與預置語言字典進行融合，得到融合后的語言字典；將所述融合后的聲學詞典和所述融合后的語言字典輸入至解碼圖生成工具，利用所述解碼圖生成工具對所述融合后的聲學詞典和所述融合后的語言字典進行處理，得到所述解碼圖。
12.可選地，利用所述解碼圖對目標語音進行逐幀解碼，得到語音識別結果，包括：獲取所述目標語音對應的音頻流；對所述音頻流進行特征提取，得到目標聲學特征；基于聲學模型確定與所述目標聲學特征對應的音素信息序列，其中，所述聲學模型為基于聲學特征進行音素識別的模型；利用所述解碼圖對所述音素信息序列進行處理，得到所述語音識別結果。
13.可選地，在利用所述解碼圖對目標語音進行逐幀解碼，得到語音識別結果之后，該語音識別方法還包括：在確定所述語音識別結果中存在所述目標喚醒詞時，喚醒所述目標喚醒詞對應的設備。
14.根據本發明實施例的另外一個方面，還提供了一種語音識別裝置，包括：第一生成模塊，用于生成目標喚醒詞對應的喚醒詞聲學詞典和喚醒詞語言字典，其中，所述目標喚醒詞包含自定義喚醒詞；第二生成模塊，用于基于所述喚醒詞聲學詞典和所述喚醒詞語言字典生成解碼圖；解碼模塊，用于利用所述解碼圖對目標語音進行逐幀解碼，得到語音識別結果。
15.可選地，該語音識別裝置還包括：第三生成模塊，用于在生成目標喚醒詞對應的喚醒詞聲學詞典和喚醒詞語言字典之前，生成第一映射表，所述第一映射表包含漢字與該漢字的至少一個拼音之間的映射關系；其中，所述第三生成模塊，包括：第一分詞單元，使用第一分詞工具對預定文本進行分詞處理，得到分詞結果；拼音標注單元，用于利用拼音生成工具為所述分詞結果進行拼音標注，得到第二映射表，所述第二映射表包含詞語與該詞語的至少一個拼音之間的映射關系；解析單元，用于對所述第二映射表進行解析，得到第三映射表，所述第三映射表包含所述詞語中每一個字與該每一個字的至少一個拼音之間的映射關系；第一組合單元，用于按照預定組合方式對所述第三映射表進行組合，得到所述第一映射表。
16.可選地，所述第一生成模塊，包括：第一獲取單元，用于獲取所述目標喚醒詞；第二
分詞單元，用于利用第二分詞工具對所述目標喚醒詞進行分詞處理，得到多個子詞；第一處理單元，用于對所述多個子詞按照所述第一映射表進行處理，得到第四映射表，所述第四映射表包含所述多個子詞中每一個子詞與該每一個子詞的至少一個拼音之間的映射關系；第一融合單元，用于將所述第四映射表與所述第一映射表進行融合，得到所述喚醒詞聲學詞典。
17.可選地，所述第一生成模塊，包括：去重單元，用于對所述第二映射表中的漢字進行去重處理，得到漢字字典；第三分詞單元，用于對目標喚醒詞進行分詞處理，得到多個子詞，并對所述多個子詞進行去重處理，得到剩余子詞；第一組合單元，用于將所述剩余子詞與所述漢字字典進行組合，得到所述喚醒詞語言字典。
18.可選地，所述第二生成模塊，包括：第二融合單元，用于將所述喚醒詞聲學詞典與預置詞典進行融合，得到融合后的聲學詞典；第三融合單元，用于將所述喚醒詞語言字典與預置語言字典進行融合，得到融合后的語言字典；生成單元，用于將所述融合后的聲學詞典和所述融合后的語言字典輸入至解碼圖生成工具，利用所述解碼圖生成工具對所述融合后的聲學詞典和所述融合后的語言字典進行處理，得到所述解碼圖。
19.可選地，所述解碼模塊，包括：第二獲取單元，用于獲取所述目標語音對應的音頻流；提取單元，用于對所述音頻流進行特征提取，得到目標聲學特征；確定單元，用于基于聲學模型確定與所述目標聲學特征對應的音素信息序列，其中，所述聲學模型為基于聲學特征進行音素識別的模型；第一處理單元，用于利用所述解碼圖對所述音素信息序列進行處理，得到所述語音識別結果。
20.可選地，該語音識別裝置還包括：喚醒模塊，用于在利用所述解碼圖對目標語音進行逐幀解碼，得到語音識別結果之后，在確定所述語音識別結果中存在所述目標喚醒詞時，喚醒所述目標喚醒詞對應的設備。
21.根據本發明實施例的另外一個方面，還提供了一種電子設備，包括：處理器；以及存儲器，用于存儲所述處理器的可執行指令；其中，所述處理器配置為經由執行所述可執行指令來執行上述中任意一項所述的語音識別方法。
22.根據本發明實施例的另外一個方面，還提供了一種計算機可讀存儲介質，所述計算機可讀存儲介質包括存儲的計算機程序，其中，在所述計算機程序運行時控制所述計算機可讀存儲介質所在設備執行上述中任意一項所述的語音識別方法。
23.在本發明實施例中，生成目標喚醒詞對應的喚醒詞聲學詞典和喚醒詞語言字典，其中，目標喚醒詞包含自定義喚醒詞；基于喚醒詞聲學詞典和喚醒詞語言字典生成解碼圖；利用解碼圖對目標語音進行逐幀解碼，得到語音識別結果。通過本發明實施例提供的語音識別方法，實現了建立自定義喚醒詞對應的解碼圖，以利用新的解碼圖對目標語音進行逐幀解碼，以得到語音識別結果的目的，達到了提高對自定義喚醒詞的識別精準度的技術效果，進而解決了相關技術中進行語音識別的方式可靠性較低的技術問題。
附圖說明
24.此處所說明的附圖用來提供對本發明的進一步理解，構成本技術的一部分，本發明的示意性實施例及其說明用于解釋本發明，并不構成對本發明的不當限定。在附圖中：
25.圖1是根據本發明實施例的語音識別方法的流程圖；
26.圖2是根據本發明實施例的可選的語音識別方法的示意圖；
27.圖3是根據本發明實施例的語音識別裝置的示意圖。
具體實施方式
28.為了使本技術領域的人員更好地理解本發明方案，下面將結合本發明實施例中的附圖，對本發明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發明一部分的實施例，而不是全部的實施例。基于本發明中的實施例，本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例，都應當屬于本發明保護的范圍。
29.需要說明的是，本發明的說明書和權利要求書及上述附圖中的術語“第一”、“第二”等是用于區別類似的對象，而不必用于描述特定的順序或先后次序。應該理解這樣使用的數據在適當情況下可以互換，以便這里描述的本發明的實施例能夠以除了在這里圖示或描述的那些以外的順序實施。此外，術語“包括”和“具有”以及他們的任何變形，意圖在于覆蓋不排他的包含，例如，包含了一系列步驟或單元的過程、方法、系統、產品或設備不必限于清楚地列出的那些步驟或單元，而是可包括沒有清楚地列出的或對于這些過程、方法、產品或設備固有的其它步驟或單元。
30.實施例1
31.根據本發明實施例，提供了一種語音識別方法的方法實施例，需要說明的是，在附圖的流程圖示出的步驟可以在諸如一組計算機可執行指令的計算機系統中執行，并且，雖然在流程圖中示出了邏輯順序，但是在某些情況下，可以以不同于此處的順序執行所示出或描述的步驟。
32.圖1是根據本發明實施例的語音識別方法的流程圖，如圖1所示，該語音識別方法包括如下步驟：
33.步驟s102，生成目標喚醒詞對應的喚醒詞聲學詞典和喚醒詞語言字典，其中，目標喚醒詞包含自定義喚醒詞。
34.可選的，這里的目標喚醒詞可以包含用戶根據實際需求自定義設置的詞，例如，小碧同學、小智同學、小智、小碧等。當用戶設置成功后，可以基于自定義喚醒詞來喚醒目標設備。
35.可選的，在本發明實施例中，這里的喚醒詞可以喚醒目標設備，例如，電子設備，例如，空調、冰箱、電視、洗衣機、音箱等。
36.由于在該實施例中目標喚醒詞為用戶自定義設置的，若要目標設備能夠識別喚醒詞，則需要構建與該目標喚醒詞對應的聲學詞典和喚醒詞語言字典。
37.步驟s104，基于喚醒詞聲學詞典和喚醒詞語言字典生成解碼圖。
38.步驟s106，利用解碼圖對目標語音進行逐幀解碼，得到語音識別結果。
39.由上可知，在本發明實施例中，在用戶設置自定義喚醒詞(目標喚醒詞)后，會生成目標喚醒詞對應的喚醒詞聲學詞典和喚醒詞語言字典，接著基于喚醒詞聲學詞典和喚醒詞語言字典生成解碼圖，并利用解碼圖對目標語音進行逐幀解碼，以得到語音識別結果，實現了建立自定義喚醒詞對應的解碼圖，以利用新的解碼圖對目標語音進行逐幀解碼，以得到語音識別結果的目的，達到了提高對自定義喚醒詞的識別精準度的技術效果。
40.因此，通過本發明實施例提供的語音識別方法，解決了相關技術中進行語音識別的方式可靠性較低的技術問題。
41.作為一種可選的實施例，在生成目標喚醒詞對應的喚醒詞聲學詞典和喚醒詞語言字典之前，該語音識別方法還可以包括：生成第一映射表，第一映射表包含漢字與該漢字的至少一個拼音之間的映射關系；其中，生成第一映射表，包括：使用第一分詞工具對預定文本進行分詞處理，得到分詞結果；利用拼音生成工具為分詞結果進行拼音標注，得到第二映射表，其中，第二映射表包含詞語與該詞語的至少一個拼音之間的映射關系；對第二映射表進行解析，得到第三映射表，第三映射表包含詞語中每一個字與該每一個字的至少一個拼音之間的映射關系；按照預定組合方式對第三映射表進行組合，得到第一映射表。
42.即，在本發明實施例中，可先建立預置詞典(漢字
?
拼音映射表或聲學詞典，即，第一映射表)，具體地，可分為兩個步驟：1)構建詞語
?
拼音映射表(即，上下文中的第二映射表)；2)構建單字
?
拼音映射表(即，上下文中的第三映射表)。
43.其中，可使用第一分詞工具對整理好的文本材料進行分詞，再使用拼音生成工具自動為分好的詞進行拼音標注，從而構成詞語
?
拼音映射表。需要說明的是，在本發明實施例中，對第一分詞工具的類型不做具體限定，可為具有分詞功能的任意平臺或軟件。
44.再次，可以對上述詞語
?
拼音映射表進行解析，得到單字
?
拼音映射對，并可以對單字
?
拼音映射對進行去重，例如，你
?
ni3，你
?
ni3，好
?
hao3，好
?
hao3；去重后變成：你
?
ni3，好
?
hao3；并對同音不同字的鍵對進行組合(即，只保留一個字作為同音的代表)，例如，尼
?
ni2、妮
?
ni2、泥
?
ni2，組合后變成尼
?
ni2，就是每個音隨便挑一個字作為代表，從而得到漢字
?
拼音映射表。
45.一個方面，在該實施例中，將目標喚醒詞拆解并進行組合，得到喚醒詞的子詞集合，并將這些子詞加入發音詞典；例如，喚醒詞“小碧同學”的子詞為“小碧”，“碧同”，“小碧同”等，加入這些子詞后，當用戶無意說到這些子詞時，設備將不會喚醒，降低了模型的誤喚醒率。
46.另外一個方面，在本發明實施例中，對喚醒詞中的每個字進行查表，得到每個字的所有讀音，然后將不同字的讀音進行組合，得到喚醒詞的所有發音組合，并加入發音詞典，同樣能有效提高喚醒率。
47.通過上述方式大大縮減了發音詞典的大小，從而大大降低了誤喚醒率。
48.作為一種可選的實施例，在本發明實施例中，可將詞語
?
拼音映射表的漢字進行去重處理(詞語
?
拼音映射表里有很多個字，將所有的字進行去重，例如你好、你是誰，去重后得到你、好、是、誰四個字)，即可得到語言字典。
49.作為一種可選的實施例，在上述步驟s102中，生成目標喚醒詞對應的喚醒詞聲學詞典，可以包括：獲取目標喚醒詞；利用第二分詞工具對目標喚醒詞進行分詞處理，得到多個子詞；對多個子詞按照第一映射表進行處理，得到第四映射表，第四映射表包含所述多個子詞中每一個子詞與該每一個子詞的至少一個拼音之間的映射關系；將第四映射表與第一映射表進行融合，得到喚醒詞聲學詞典。
50.在該實施例中，獲取到目標喚醒詞后，可以利用第二分詞工具對目標喚醒詞進行分詞處理，得到該目標喚醒詞的所有子詞，例如，小碧同學的子詞為：小碧、碧同、同學、小碧同、碧同學、小碧同學；接著對多個子詞可以按照上述漢字
?
拼音映射表進行處理，得到子
詞
?
拼音映射表(即，上下文中的第四映射表)，并將子詞
?
拼音映射表與漢字
?
拼音映射表組合得到喚醒詞聲學詞典。
51.例如，！sil sil
52.[spk]spn
[0053]
[fil]nsn
[0054]
<unk>spn
[0055]
你 n iy3
[0056]
好 hh aw3
[0057]
今 j iy1 n1
[0058]
天 t iy1 ae1 n1
[0059]
氣 q iy4
[0060]
小碧 x iy3 aw3 b iy4
[0061]
碧同 b iy4 t uh2 ng2
[0062]
…
[0063]
小碧同學 x iy3 aw3 b iy4 t uh2 ng2 x iy2 eh2
[0064]
需要說明的是，在本發明實施例中，自定義喚醒詞聲學詞典中加入有自定義喚醒詞的發音。
[0065]
作為一種可選的實施例，在上述步驟s102中，生成目標喚醒詞對應的喚醒詞語言字典，可以包括：對第二映射表中的漢字進行去重處理，得到漢字字典；對目標喚醒詞進行分詞處理，得到多個子詞，并對多個子詞進行去重處理，得到剩余子詞；將剩余子詞與漢字字典進行組合，得到喚醒詞語言字典。
[0066]
在該實施例中，可以將詞語
?
拼音映射表中的漢字進行去重處理，得到漢字字典后，對目標喚醒詞進行分詞處理，得到多個子詞，并對多個子詞進行去重處理，得到剩余子詞，并將剩余子詞與漢字字典進行組合，即可得到喚醒詞語言字典。
[0067]
以目標喚醒詞為“小碧同學”為例，喚醒詞語言字典可為：
[0068]
<unk>
[0069]
你
[0070]
好
[0071]
天
[0072]
氣
[0073]
小碧
[0074]
碧同
[0075]
同學
[0076]
…
[0077]
小碧同學
[0078]
作為一種可選的實施例，在步驟s104中，基于喚醒詞聲學詞典和喚醒詞語言字典生成解碼圖，可以包括：將喚醒詞聲學詞典與預置詞典進行融合，得到融合后的聲學詞典；將喚醒詞語言字典與預置語言字典進行融合，得到融合后的語言字典；將融合后的聲學詞典和融合后的語言字典輸入至解碼圖生成工具，利用解碼圖生成工具對融合后的聲學詞典
和融合后的語言字典進行處理，得到解碼圖。
[0079]
在該實施例中，可以將喚醒詞聲學詞典與預置詞典進行融合，得到融合后的聲學詞典；同時將喚醒詞語言字典與預置語言字典進行融合，得到融合后的語言字典；接著解碼模型構建模塊會根據融合后的聲學詞典以及融合后的語言字典構建解碼圖(即， hclg.fst，語音識別中的模型文件)，并覆蓋原有解碼圖。
[0080]
另外，在本發明實施例中，上述預置詞典可以為在生成目標喚醒詞對應的喚醒詞聲學詞典和喚醒詞語言字典之前，使用分詞工具對整理好的文本材料進行分詞，再使用拼音生成工具自動為分好的詞進行拼音標注，得到詞語
?
拼音映射表后，進行解析得到單字
?
拼音映射對，并進行去重后得到的映射表。這里的預置詞典中記錄的是拼音。
[0081]
上述預置語言字典同樣可以是在生成目標喚醒詞對應的喚醒詞聲學詞典和喚醒詞語言字典之前，使用分字工具對整理好的文本材料進行分詞得到的漢字詞典。這里的預置詞典中記錄的是漢字詞語。
[0082]
作為一種可選的實施例，在步驟s106中，利用解碼圖對目標語音進行逐幀解碼，得到語音識別結果，可以包括：獲取目標語音對應的音頻流；對音頻流進行特征提取，得到目標聲學特征；基于聲學模型確定與目標聲學特征對應的音素信息序列，其中，聲學模型為基于聲學特征進行音素識別的模型；利用解碼圖對音素信息序列進行處理，得到語音識別結果。
[0083]
例如，當用戶對設備講話時，音頻流會送入解碼模塊進行解碼，而解碼模塊會加載先前構建好的解碼圖，對音頻流進行解碼，解碼過程會使用熱詞技術，最終判斷音頻流是否包含喚醒詞。
[0084]
上述解碼步驟可為：對音頻流的每一幀進行梅爾特征提取聲學特征(即，目標聲學特征)，再將聲學特征送入聲學模型，得到三音素；隨著時間的推移，會產生一連串的三音素串，再通過語言模型(即解碼圖)將三音素串組裝成音素、詞、句子。最終使用模糊匹配的方法，判斷句子(即，目標語音)是否包含喚醒詞。
[0085]
由于在本發明實施例中，引入了熱詞技術，當解碼圖的搜索路徑上出現喚醒詞的某個子詞時，會提高該條路徑的聲學分和語言分，使得解碼結果更傾向于喚醒詞，提高了喚醒率。
[0086]
作為一種可選的實施例，在利用解碼圖對目標語音進行逐幀解碼，得到語音識別結果之后，該語音識別方法還包括：在確定語音識別結果中存在目標喚醒詞時，喚醒目標喚醒詞對應的設備。
[0087]
即，若語音識別結果中包括目標喚醒詞，則可以喚醒該目標喚醒詞對應的設備。
[0088]
圖2是根據本發明實施例的可選的語音識別方法的示意圖，如圖2所示，當用戶設置喚醒詞后,聲學詞典構建器會構建自定義的喚醒詞發音詞典(即，喚醒詞聲學詞典)，并與預置詞典進行融合；語言字典構建器會構建自定義的喚醒詞字典(即，喚醒詞語言字典)，并與預置語言詞典進行融合；解碼模型構建模塊會根據發音詞典和語言詞典構建解碼圖，并覆蓋原有模型，并利用解碼圖對音頻流進行實時解碼，得到語音識別結果。例如，當用戶說出喚醒詞時，解碼模塊會對音頻的每一幀進行解碼，當解碼路徑上出現喚醒詞的某個字或詞時，修改該條路徑的聲學、語言分，最終得到最優的解碼路徑，根據解碼路徑可得到識別結果，若識別結果為喚醒詞，則喚醒設備。
[0089]
通過上述實施例，可以在獲取到用戶自定義的喚醒詞后，生成自定義喚醒詞對應的喚醒詞聲學詞典和喚醒詞語言字典，基于喚醒詞聲學詞典和喚醒詞語言字典生成解碼圖；利用解碼圖對目標語音進行逐幀解碼，得到語音識別結果。由于將不同字的讀音進行組合，得到喚醒詞的所有發音組合，并加入發音詞典，有效提高了喚醒率。另外，將喚醒詞拆解并進行組合，得到喚醒詞的子詞集合，并將這些子詞加入發音詞典，當用戶無意說到這些子詞時，設備將不會喚醒，降低了誤喚醒率。再者，由于引入了熱詞技術，當解碼圖的搜索路徑上出現喚醒詞的某個子詞時，提高該條路徑的聲學分和語言分，使得解碼結果更傾向于喚醒詞，提高了喚醒率。
[0090]
實施例2
[0091]
根據本發明實施例的另外一個方面，還提供了一種語音識別裝置，該語音識別裝置中包含的多個實施單元或模塊對應于上述實施例1中的各個實施步驟，圖3是根據本發明實施例的語音識別裝置的示意圖，如圖3所示，該語音識別裝置可以包括：第一生成模塊31、第二生成模塊33以及解碼模塊35。
[0092]
第一生成模塊31，用于生成目標喚醒詞對應的喚醒詞聲學詞典和喚醒詞語言字典，其中，目標喚醒詞包含自定義喚醒詞。
[0093]
第二生成模塊33，用于基于喚醒詞聲學詞典和喚醒詞語言字典生成解碼圖。
[0094]
解碼模塊35，用于利用解碼圖對目標語音進行逐幀解碼，得到語音識別結果。
[0095]
此處需要說明的是，上述解析模塊31、第一響應模塊33、第一獲取模塊35以及發送模塊37對應于實施例1中的步驟s102至s108，上述模塊與對應的步驟所實現的示例和應用場景相同，但不限于上述實施例1所公開的內容。需要說明的是，上述模塊作為裝置的一部分可以在諸如一組計算機可執行指令的計算機系統中執行。
[0096]
由上可知，在本發明實施例中，可以利用第一生成模塊31生成目標喚醒詞對應的喚醒詞聲學詞典和喚醒詞語言字典，其中，目標喚醒詞包含自定義喚醒詞；接著利用第二生成模塊33基于喚醒詞聲學詞典和喚醒詞語言字典生成解碼圖；再利用解碼模塊 35利用解碼圖對目標語音進行逐幀解碼，得到語音識別結果。通過本發明實施例提供的語音識別裝置，實現了建立自定義喚醒詞對應的解碼圖，以利用新的解碼圖對目標語音進行逐幀解碼，以得到語音識別結果的目的，達到了提高對自定義喚醒詞的識別精準度的技術效果，解決了相關技術中進行語音識別的方式可靠性較低的技術問題。
[0097]
可選地，該語音識別裝置還包括：第三生成模塊，用于在生成目標喚醒詞對應的喚醒詞聲學詞典和喚醒詞語言字典之前，生成第一映射表，第一映射表包含漢字與該漢字的至少一個拼音之間的映射關系；其中，第三生成模塊，包括：第一分詞單元，使用第一分詞工具對預定文本進行分詞處理，得到分詞結果；拼音標注單元，用于利用拼音生成工具為分詞結果進行拼音標注，得到第二映射表，第二映射表包含詞語與該詞語的至少一個拼音之間的映射關系；解析單元，用于對第二映射表進行解析，得到第三映射表，第三映射表包含所述詞語中每一個字與該每一個字的至少一個拼音之間的映射關系；第一組合單元，用于按照預定組合方式對第三映射表進行組合，得到第一映射表。
[0098]
可選地，第一生成模塊，包括：第一獲取單元，用于獲取目標喚醒詞；第二分詞單元，用于利用第二分詞工具對目標喚醒詞進行分詞處理，得到多個子詞；第一處理單元，用于對多個子詞按照第一映射表進行處理，得到第四映射表，第四映射表包含多個子詞中每
一個子詞與該每一個子詞的至少一個拼音之間的映射關系；第一融合單元，用于將第四映射表與第一映射表進行融合，得到喚醒詞聲學詞典。
[0099]
可選地，第一生成模塊，包括：去重單元，用于對第二映射表中的漢字進行去重處理，得到漢字字典；第三分詞單元，用于對目標喚醒詞進行分詞處理，得到多個子詞，并對多個子詞進行去重處理，得到剩余子詞；第一組合單元，用于將剩余子詞與漢字字典進行組合，得到喚醒詞語言字典。
[0100]
可選地，第二生成模塊，包括：第二融合單元，用于將喚醒詞聲學詞典與預置詞典進行融合，得到融合后的聲學詞典；第三融合單元，用于將喚醒詞語言字典與預置語言字典進行融合，得到融合后的語言字典；生成單元，用于將融合后的聲學詞典和融合后的語言字典輸入至解碼圖生成工具，利用解碼圖生成工具對融合后的聲學詞典和融合后的語言字典進行處理，得到解碼圖。
[0101]
可選地，解碼模塊，包括：第二獲取單元，用于獲取目標語音對應的音頻流；提取單元，用于對音頻流進行特征提取，得到目標聲學特征；確定單元，用于基于聲學模型確定與目標聲學特征對應的音素信息序列，其中，聲學模型為基于聲學特征進行音素識別的模型；第一處理單元，用于利用解碼圖對音素信息序列進行處理，得到語音識別結果。
[0102]
可選地，該語音識別裝置還包括：喚醒模塊，用于在利用解碼圖對目標語音進行逐幀解碼，得到語音識別結果之后，在確定語音識別結果中存在目標喚醒詞時，喚醒目標喚醒詞對應的設備。
[0103]
實施例3
[0104]
根據本發明實施例的另外一個方面，還提供了一種電子設備，包括：處理器；以及存儲器，用于存儲處理器的可執行指令；其中，處理器配置為經由執行可執行指令來執行上述中任意一項的語音識別方法。
[0105]
實施例4
[0106]
根據本發明實施例的另外一個方面，還提供了一種計算機可讀存儲介質，計算機可讀存儲介質包括存儲的計算機程序，其中，在計算機程序運行時控制計算機可讀存儲介質所在設備執行上述中任意一項的語音識別方法。
[0107]
上述本發明實施例序號僅僅為了描述，不代表實施例的優劣。
[0108]
在本發明的上述實施例中，對各個實施例的描述都各有側重，某個實施例中沒有詳述的部分，可以參見其他實施例的相關描述。
[0109]
在本技術所提供的幾個實施例中，應該理解到，所揭露的技術內容，可通過其它的方式實現。其中，以上所描述的裝置實施例僅僅是示意性的，例如所述單元的劃分，可以為一種邏輯功能劃分，實際實現時可以有另外的劃分方式，例如多個單元或組件可以結合或者可以集成到另一個系統，或一些特征可以忽略，或不執行。另一點，所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口，單元或模塊的間接耦合或通信連接，可以是電性或其它的形式。
[0110]
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位于一個地方，或者也可以分布到多個單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。
[0111]
另外，在本發明各個實施例中的各功能單元可以集成在一個處理單元中，也可以
是各個單元單獨物理存在，也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現，也可以采用軟件功能單元的形式實現。
[0112]
所述集成的單元如果以軟件功能單元的形式實現并作為獨立的產品銷售或使用時，可以存儲在一個計算機可讀取存儲介質中。基于這樣的理解，本發明的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟件產品的形式體現出來，該計算機軟件產品存儲在一個存儲介質中，包括若干指令用以使得一臺計算機設備(可為個人計算機、服務器或者網絡設備等)執行本發明各個實施例所述方法的全部或部分步驟。而前述的存儲介質包括：u盤、只讀存儲器(rom，read
?
onlymemory)、隨機存取存儲器(ram，random access memory)、移動硬盤、磁碟或者光盤等各種可以存儲程序代碼的介質。
[0113]
以上所述僅是本發明的優選實施方式，應當指出，對于本技術領域的普通技術人員來說，在不脫離本發明原理的前提下，還可以做出若干改進和潤飾，這些改進和潤飾也應視為本發明的保護范圍。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：李澤軒
技術所有人：廣東優碧勝科技有限公司
我是此專利的發明人

網友詢問留言留言:0條

還沒有人留言評論。精彩留言會獲得點贊！

文明留言，給您點贊！

同類技術