本發明涉及語音識別領域,尤其涉及一種用于車載環境的語音情緒識別方法及設備。
背景技術:
1、盡管近年來語音情緒識別技術取得了顯著進步,但其在實際應用中仍面臨諸多挑戰。無論是研究還是應用,開發者都需要在模型設計和數據集構建過程中保持謹慎,高效準確的語音情緒識別是實現智能人機交互的重要保證。
2、語音情緒識別將集成到汽車智能座艙監控系統中,通過分析用戶的語音,以預測其情感狀態。當檢測到用戶存在負面情感時,系統會顯示相應提示信息、發出特定聲音或調整交互方式,以提升用戶體驗,同時臨時調整系統的響應優先級,以提供更貼心的服務。
3、近年來,基于深度學習的端到端方法是語音情緒識別領域的主流,如cnn(卷積神經網絡)、rnn(循環神經網絡)、lstm(長短期記憶網絡)、transformer以及各種變種模型。這些模型通過直接從原始語音信號中提取特征,簡化了傳統的特征工程過程,提高了情感識別的準確性和效率。例如,cnn能夠捕捉語音信號中的局部特征,rnn和lstm則擅長處理時間序列數據,捕捉語音信號中的長時依賴關系。transformer模型則通過自注意力機制,能夠更好地捕捉語音信號中的全局信息。
4、現有的語音情感識別技術雖然取得了顯著進步,但仍存在一些不足之處,例如:為了追求高準確率,初始模型設計過于龐大。當前的深度學習模型對計算資源的需求較高,難以在算力有限的設備上高效運行,限制了在移動設備和嵌入式系統中的應用。
技術實現思路
1、本發明的目的在于提供一種用于車載環境的語音情緒識別方法及設備,以解決現有技術中的語音情緒識別方法的初始模型過于龐大,增加了設備算力成本的問題。
2、為了實現本發明的上述目的,本發明一實施方式提供了一種用于車載環境的語音情緒識別方法,其中,包括如下步驟:
3、在錄音室環境下獲取語音情緒數據集及其對應的實際標簽,所述實際標簽包括情緒類別標注和情緒維度值標注,從而得到訓練集;
4、使用訓練集對初始模型進行訓練獲得教師模型并得到對應的第一標簽向量;
5、基于知識蒸餾技術,使用訓練集并通過教師模型作為輔助對初始模型進行訓練獲得學生模型,并得到對應的第二標簽向量,其中,學生模型的層數小于所述教師模型的層數;
6、基于第一標簽向量與第二標簽向量計算蒸餾損失,基于第二標簽向量與實際標簽計算學生損失,從而得到訓練時的總損失?;
7、將目標語音片段輸入學生模型,通過學生模型判斷目標語音片段的情緒類別及情緒維度值。
8、作為本發明一實施方式的進一步改進,其中,在所述“在錄音室環境下獲取語音情緒數據集及其對應的實際標簽,所述實際標簽包括情緒類別標注和情緒維度值標注,從而得到訓練集”具體包括:
9、在錄音室環境下采集語音情緒數據集及其對應的實際標簽,所述實際標簽包括情緒類別標注和情緒維度值標注;
10、采集車外和車內的噪音;
11、從噪音中獲取噪音片段并以預定的信噪比加入所述語音情緒數據集;
12、從而得到訓練集。
13、作為本發明一實施方式的進一步改進,其中,所述信噪比設定為10db。
14、作為本發明一實施方式的進一步改進,其中,所述初始模型包括梅爾頻譜獲取模塊、卷積神經網絡模塊、長短期記憶模塊、注意力機制模塊及多層感知機模塊,其中,注意力機制模塊包括用于判斷情緒類別的第一判斷單元及用于判斷情緒維度值的第二判斷單元。
15、作為本發明一實施方式的進一步改進,其中,通過所述第一判斷單元判斷情緒類別時的損失函數為:
16、;
17、其中,ce損失函數值;yi是第i類情緒類別的實際標簽,如果第?i?類是正確的情緒類別,則yi=1,否則yi=0;pi是第一判斷單元預測的第i類情緒類別的概率;n是類別總數。
18、作為本發明一實施方式的進一步改進,其中,通過所述第二判斷單元判斷情緒維度值時的損失函數為:
19、
20、其中,?mse是損失函數值;yi?是情緒維度值的實際標簽,取值范圍為-3到3的整數;是第二判斷單元預測的情緒維度值;n是樣本總數。
21、作為本發明一實施方式的進一步改進,其中,所述總損失的損失函數為:
22、?;
23、其中,loss為總損失的損失函數值;student?loss為學生模型中第二標簽向量與實際標簽的交叉熵損失,即學生損失;distillation?loss為教師模型中第一標簽向量與學生模型中第二標簽向量的交叉熵損失,即蒸餾損失;α為權重參數并用于平衡學生損失和蒸餾損失的貢獻。
24、作為本發明一實施方式的進一步改進,其中,所述α設置為0.6。
25、作為本發明一實施方式的進一步改進,其中,在所述“將目標語音片段輸入學生模型,通過學生模型判斷目標語音片段的情緒類別,及情緒維度值”之前還包括:
26、在車載環境下通過麥克風持續錄制音頻直至獲得原始語音片段;
27、獲取原始語音片段并生成目標語音片段。
28、本發明一實施方式還提供了一種用于車載環境的語音識別設備,其中,所述設備包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的語音識別程序,所述語音識別程序配置為實現如權利要求1至9中任一項所述的語音情緒識別方法。
29、與現有技術相比,本發明的有益效果在于:
30、基于知識蒸餾技術,通過教師模型對學生模型的訓練從而可以對學生模型進行壓縮,從而能夠降低設備的算力成本。
1.一種用于車載環境的語音情緒識別方法,其特征在于,包括如下步驟:
2.根據權利要求1所述的語音情緒識別方法,其特征在于,在所述“在錄音室環境下獲取語音情緒數據集及其對應的實際標簽,所述實際標簽包括情緒類別標注和情緒維度值標注,從而得到訓練集”具體包括:
3.根據權利要求2所述的語音情緒識別方法,其特征在于,所述信噪比設定為10db。
4.根據權利要求1所述的語音情緒識別方法,其特征在于,所述初始模型包括梅爾頻譜獲取模塊、卷積神經網絡模塊、長短期記憶模塊、注意力機制模塊及多層感知機模塊,其中,注意力機制模塊包括用于判斷情緒類別的第一判斷單元及用于判斷情緒維度值的第二判斷單元。
5.根據權利要求4所述的語音情緒識別方法,其特征在于,通過所述第一判斷單元判斷情緒類別時的損失函數為:
6.根據權利要求4所述的語音情緒識別方法,其特征在于,通過所述第二判斷單元判斷情緒維度值時的損失函數為:;其中,?mse是損失函數值;yi?是情緒維度值的實際標簽,取值范圍為-3到3的整數;?是第二判斷單元預測的情緒維度值;n是樣本總數。
7.根據權利要求1所述的語音情緒識別方法,其特征在于,所述總損失的損失函數為:
8.根據權利要求7所述的語音情緒識別方法,其特征在于,所述α設置為0.6。
9.根據權利要求1所述的語音情緒識別方法,其特征在于,在所述“將目標語音片段輸入學生模型,通過學生模型判斷目標語音片段的情緒類別,及情緒維度值”之前還包括:
10.一種用于車載環境的語音情緒識別設備,其特征在于,所述設備包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的語音識別程序,所述語音識別程序配置為實現如權利要求1至9中任一項所述的語音情緒識別方法。