本發明涉及語音識別領域,尤其涉及一種基于雙流網絡的關鍵詞識別方法、系統、設備和介質。
背景技術:
1、語音識別技術系統主要分為連續語音識別系統和關鍵詞(孤立詞)識別系統,在實際使用場景中,連續語音識別系統須借助于資源較充足的設備環境方可正常運轉,例如語音助手、實時轉錄、聊天機器人等,但在很多場景下,語音信號全部轉錄是不必要的,因為語音信號本身存在較大的冗余度,其關鍵信息往往存在于整段信號的一部分,即關鍵詞。
2、關鍵詞識別系統實現的難度相較于連續語音識別系統低很多,且一般不需要占用較大內存,尤其適合用于體積較小、應用場景較多的嵌入式設備中,在移動設備、可穿戴設備、車載語音控制等場景下應用較為廣泛。但在真實應用場景下,關鍵詞識別的可靠性和準確性往往是進行有效交互的前提,噪聲干擾、音頻失真等都會對識別精度和穩定性產生較大的影響,其算法運行速度往往也會直接影響用戶體驗。當前的基于深度學習的關鍵詞識別技術普遍存在著精度和計算成本相互影響的缺點,若提高精度則需大幅增加參數量從而消耗嵌入式不多的內存,反之算法的抗噪性能則會下降。因此,設計一種精度高、穩定性強、計算成本較小的關鍵詞識別方法是十分有必要的。
技術實現思路
1、本發明的目的在于提供一種基于雙流網絡(srseds?net)的關鍵詞識別方法、系統、設備和介質,以解決上述背景技術中提出的問題。
2、為實現上述發明目的,本發明的一個方面提供一種基于雙流網絡的關鍵詞識別方法,包括以下步驟:
3、步驟s1,對原始關鍵詞語音數據進行處理,構建用于雙流網絡模型的雙通道數據集;
4、步驟s2,構建用于雙通道語音識別的雙流網絡模型;
5、步驟s3,訓練雙流網絡模型,建立帶噪語音和關鍵詞類別、語音端點信息的映射關系;
6、步驟s4,利用已完成訓練的雙流網絡模型預測關鍵詞類別。
7、進一步的,步驟s1包括以下步驟:
8、步驟s101,原始關鍵詞語音數據選用語音命令數據集,將數據集分為訓練集、驗證集、測試集,并選取數據集中3000條純凈語音數據作為訓練所需的語音數據;
9、步驟s102,對步驟s101中的3000條純凈語音數據添加噪聲,噪聲來源為gscd庫中的pink、white、exercise_bike三種噪聲,在每種噪聲下設定信噪比水平為0db、5db、10db對語音信號添加噪聲;
10、步驟s103,原始的3000條純凈語音數據作為語音關鍵詞類別數據,與帶噪語音形成的27000組一一對應的語音類別-帶噪語音數據集,并對所述語音類別-帶噪語音數據集進行歸一化處理;
11、步驟s104,對所述語音類別-帶噪語音數據集進行處理,將帶噪語音和語音關鍵詞生成一一對應的txt標簽索引作為訓練集;
12、步驟s105,對所述3000條純凈語音數據使用雙門限法進行端點檢測,得到語音段的起止點,將語音段信號點標記為1,無語音信號段標記為0,形成數量為27000、每條長度為16000的二分類數據。
13、進一步的,所述雙流網絡是一種雙通道神經網絡,所述雙通道分別為語音識別流(speech?recognition?stream)和端點檢測流(endpoint?detection?stream),語音數據經過雙通道輸出不同的特征數據。
14、進一步的,語音識別流是一種多分類任務的sincnet網絡,輸入為帶噪語音數據,輸出為關鍵詞類別,建立起帶噪語音與關鍵詞類別之間的映射關系,用于在起始端融合來自端點檢測流的端點信息。
15、進一步的,端點檢測流是aspp(atrous?spatial?pyramid?pooling)網絡,輸入為帶噪語音數據,輸出為端點檢測數據,建立起帶噪語音與語音端點之間的映射關系,用于將檢測到的語音端點信息匯入到語音識別流的起始端中,輔助語音識別流網絡判斷語音段起止位置并進行有效識別。
16、進一步的,所述語音識別流由三個aspp層和兩個卷積層組成,其中aspp層用于提取語音的多向語義信息,卷積層用于提供給語音識別流較為明確的識別位置,以提高語音識別流識別關鍵詞的精度。
17、進一步的,步驟s3中,所述訓練網絡中語音識別流的損失函數為交叉熵,端點檢測流的損失函數為二元交叉熵,網絡總損失函數為上述兩損失函數之和,
18、本發明的第二個方面提供一種基于雙流網絡的關鍵詞識別系統,包括數據集模塊,雙流網絡模塊,訓練模塊,預測模塊,其中:
19、數據集模塊用于對原始關鍵詞語音數據進行處理,構建用于雙流網絡模型的雙通道數據集;
20、雙流網絡模塊用于構建用于雙通道語音識別的雙流網絡模型;
21、訓練模塊用于訓練雙流網絡模型,建立帶噪語音和關鍵詞類別、語音端點信息的映射關系;
22、預測模塊利用已完成訓練的雙流網絡模型預測關鍵詞類別。
23、本發明的第三個方面提供一種電子設備,包括存儲器,處理器及存儲在存儲器上并可在處理器運行的計算機程序,所述處理器執行所述計算機程序時實現如上所述的一種基于雙流網絡的關鍵詞識別方法。
24、本發明的第四個方面提供一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現如上所述的一種基于雙流網絡的關鍵詞識別方法。
25、由于采用本系統和方法,與現有技術相比,具有以下優點:
26、1.該方法通過制作相應的語音數據集,利用深度學習技術訓練出可以從帶噪語音中得到對應的關鍵詞類別標簽和語音起止端點的雙流網絡模型,提高了關鍵詞識別的魯棒性與準確性。
27、2.本發明中語音識別流執行的是關鍵詞識別任務,因此端點檢測流將檢測到的端點信息匯入到語音識別流初始段,可輔助語音識別流迅速判斷語音段起止位置并進行有效識別,提升語音識別流識別精度和效率。
1.一種基于雙流網絡的關鍵詞識別方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種基于雙流網絡的關鍵詞識別方法,其特征在于,步驟s1包括以下步驟:
3.根據權利要求1所述的一種基于雙流網絡的關鍵詞識別方法,其特征在于,所述雙流網絡是一種雙通道神經網絡,所述雙通道分別為語音識別流和端點檢測流,語音數據經過雙通道輸出不同的特征數據。
4.根據權利要求3所述的一種基于雙流網絡的關鍵詞識別方法,其特征在于,語音識別流是一種多分類任務的sincnet網絡,輸入為帶噪語音數據,輸出為關鍵詞類別,建立起帶噪語音與關鍵詞類別之間的映射關系,用于在起始端融合來自端點檢測流的端點信息。
5.根據權利要求3所述的一種基于雙流網絡的關鍵詞識別方法,其特征在于,端點檢測流是aspp網絡,輸入為帶噪語音數據,輸出為端點檢測數據,建立起帶噪語音與語音端點之間的映射關系,用于將檢測到的語音端點信息匯入到語音識別流的起始端中,輔助語音識別流網絡判斷語音段起止位置并進行有效識別。
6.根據權利要求3所述的一種基于雙流網絡的關鍵詞識別方法,其特征在于,所述語音識別流由三個aspp層和兩個卷積層組成,其中aspp層用于提取語音的多向語義信息,卷積層用于提供給語音識別流較為明確的識別位置,以提高語音識別流識別關鍵詞的精度。
7.根據權利要求1所述的一種基于雙流網絡的關鍵詞識別方法,其特征在于,步驟s3中,所述訓練網絡中語音識別流的損失函數為交叉熵,端點檢測流的損失函數為二元交叉熵,網絡總損失函數為上述兩損失函數之和。
8.一種基于雙流網絡的關鍵詞識別系統,其特征在于,包括數據集模塊,雙流網絡模塊,訓練模塊,預測模塊,其中:
9.一種電子設備,包括存儲器,處理器及存儲在存儲器上并可在處理器運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1-7中任一項所述的一種基于雙流網絡的關鍵詞識別方法。
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執行時實現如權利要求1-7中任一項所述的一種基于雙流網絡的關鍵詞識別方法。