本申請涉及語音,特別是涉及一種語音識別方法、語音識別模型的訓練方法和相關裝置。
背景技術:
1、語音識別技術是讓計算機通過識別和理解人類語音來執行命令或完成任務的一種技術。隨著技術的發展,語音識別技術也得到了迅速的普及和應用,語音識別技術已經廣泛應用于多個領域,如智能家居、自動駕駛、智能客服等。
2、本申請的申請人在長期的研發過程中發現,現有的語音識別方法對一條語音切分得到的各個片段獨立進行識別,識別的準確性仍然不能夠滿足需要。有鑒于此,如何提高語音識別的準確性,成為亟待解決的問題。
技術實現思路
1、本申請主要解決的技術問題是提供一種語音識別方法、語音識別模型的訓練方法和相關裝置,能夠提高語音識別準確性。
2、為解決上述技術問題,本申請采用的一個技術方案是:提供一種語音識別方法,該方法包括:獲取若干關聯子段的子段表示,其中,關聯子段與當前子段之間存在關聯關系,且均由目標語音切分得到;將各關聯子段的子段表示與當前子段的第一子段特征進行融合,得到融合結果;對融合結果進行識別,得到當前子段的識別文本。
3、為解決上述技術問題,本申請采用的另一個技術方案是:提供一種語音識別模型的訓練方法,包括:獲取若干關聯樣本子段的第一樣本子段表示,關聯樣本子段與第一樣本子段具有關聯關系,且均為對同一第一樣本語音切分得到;利用第一語音識別模型將第一樣本子段的第一樣本子段特征與若干關聯樣本子段的第一樣本子段表示進行融合,得到樣本融合結果;對樣本融合結果進行識別,得到第一識別損失;基于第一識別損失,調整第一語音識別模型的模型參數。
4、為解決上述技術問題,本申請采用的另一個技術方案是:提供一種語音識別裝置,該裝置包括:包括獲取模塊、融合模塊和識別模塊,獲取模塊用于獲取若干關聯子段的子段表示,其中,關聯子段與當前子段之間存在關聯關系,且均由目標語音切分得到;融合模塊用于將各關聯子段的子段表示與當前子段的第一子段特征進行融合,得到融合結果;識別模塊用于對融合結果進行識別,得到當前子段的識別文本。
5、為解決上述技術問題,本申請采用的另一個技術方案是:提供一種語音識別模型的訓練裝置,該裝置包括獲取模塊、融合模塊、識別模塊和調整模塊。獲取模塊用于獲取若干關聯樣本子段的第一樣本子段表示,關聯樣本子段與第一樣本子段具有關聯關系,且均為對同一第一樣本語音切分得到;融合模塊用于利用第一語音識別模型將第一樣本子段的第一樣本子段特征與若干關聯樣本子段的第一樣本子段表示進行融合,得到樣本融合結果;識別模塊用于對樣本融合結果進行識別,得到第一識別損失;調整模塊用于基于第一識別損失,調整第一語音識別模型的模型參數。
6、為解決上述技術問題,本申請采用的另一個技術方案是:提供一種電子設備,包括相互耦接的存儲器和處理器,處理器用于執行存儲器中存儲的程序指令,以實現上述任一語音識別方法或者語音識別模型的訓練方法。
7、為解決上述技術問題,本申請采用的另一個技術方案是:提供一種計算機可讀存儲介質,其上存儲有程序指令,程序指令被處理器執行時實現上述任一語音識別方法或者語音識別模型的訓練方法。
8、上述方案,對當前子段來說,將其關聯子段的子段表示與第一子段特征進行融合,融合結果中既包含當前子段的特征,也融入了各個關聯子段的特征。將融合結果作為識別的對象,以得到當前子段的識別文本,能夠充分利用目標語音中關聯的語音信息,來對當前子段進行識別,豐富了語音識別的依據,提升語音識別準確率。
1.一種語音識別方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述獲取若干關聯子段的子段表示包括:
3.根據權利要求2所述的方法,其特征在于,所述對目標特征進行第一編碼,得到第一編碼結果之前,所述方法還包括:
4.根據權利要求3所述的方法,其特征在于,所述第二子段特征包含所述關聯子段包含的各音頻幀的音頻幀特征;所述第一預設特征與所述音頻幀特征尺寸相同,和/或,所述第一預設特征拼接在首個所述音頻幀特征之前。
5.根據權利要求2所述的方法,其特征在于,所述第二子段特征包含所述關聯子段包含的各音頻幀的音頻幀特征,所述第二子段特征作為所述目標特征,所述第一編碼結果包括各音頻幀對應的第一編碼特征;
6.根據權利要求5所述的方法,其特征在于,所述第一分類結果表征所述第一編碼特征歸屬的預設類別,所述預設類別包括空白類別;所述預設要求為所述第一分類結果不為所述空白類別。
7.根據權利要求1所述的方法,其特征在于,所述將各所述關聯子段的子段表示與當前子段的第一子段特征進行融合,得到融合結果包括:
8.根據權利要求1所述的方法,其特征在于,所述對所述融合結果進行識別,得到所述當前子段的識別文本包括:
9.根據權利要求8所述的方法,其特征在于,所述第二編碼結果包括各所述關聯子段的子段表示、所述當前子段的第一子段特征分別對應的第二編碼特征;
10.根據權利要求1所述的方法,其特征在于,所述當前子段的識別文本是至少利用第一語音識別模型得到,所述方法還包括如下步驟以對所述第一語音識別模型進行訓練:
11.根據權利要求10所述的方法,其特征在于,所述獲取若干關聯樣本子段的第一樣本子段表示由第二語音識別模型執行,所述獲取若干關聯樣本子段的第一樣本子段表示之前,所述方法還包括如下步驟以對所述第二語音識別模型進行訓練:
12.根據權利要求11所述的方法,其特征在于,所述基于各所述第二樣本子段表示得到表示損失包括:
13.根據權利要求11所述的方法,其特征在于,所述方法還包括:
14.根據權利要求10所述的方法,其特征在于,所述基于所述樣本融合結果進行識別,得到第一識別損失包括:
15.一種語音識別模型的訓練方法,其特征在于,所述方法包括:
16.根據權利要求15所述的方法,其特征在于,所述獲取若干關聯樣本子段的第一樣本子段表示由第二語音識別模型執行,所述獲取若干關聯樣本子段的第一樣本子段表示之前,所述方法還包括如下步驟以對所述第二語音識別模型進行訓練:
17.一種語音識別裝置,其特征在于,所述裝置包括:
18.一種語音識別模型的訓練裝置,其特征在于,所述裝置包括:
19.一種電子設備,其特征在于,包括相互耦接的存儲器和處理器,所述處理器用于執行所述存儲器中存儲的程序指令,以實現權利要求1至14任一項或者權利要求15至16任一項所述的方法。
20.一種計算機可讀存儲介質,其上存儲有程序指令,其特征在于,所述程序指令被處理器執行時實現權利要求1至14任一項或者權利要求15至16任一項所述的方法。