本發明涉及兒童語音處理,尤其涉及一種面向兒童的語音情緒識別模型訓練方法。
背景技術:
1、兒童語音情緒識別面臨生理發育階段性差異與個體差異的雙重挑戰。現有技術多直接采集自然場景下兒童語音,提取聲學特征后輸入模型訓練,未充分考慮兒童不同年齡段聲學特征的顯著變化,如同一年情緒在不同年齡段可能因聲帶發育呈現不同頻譜特性,跨年齡段數據混合處理易引入噪聲。同時,兒童說話人音色、發音習慣等個體差異會混雜于情緒特征中,常規特征提取方法難以剝離說話人信息,導致情緒表征不純粹。此外,自然采集的情緒樣本常因兒童表達含蓄而存在模糊性,模型對低強度或混合情緒的辨別能力不足。
2、現有技術方案存在缺陷。未按年齡段對數據進行分層處理,整體特征提取無法適配兒童聲學特征的階段性演變,模型易受跨年齡段差異干擾;未在同一年齡段內針對性消除說話人個體差異,特征中殘留說話人信息降低情緒識別精度;訓練樣本依賴自然情緒表達,高喚醒度強情緒樣本稀缺,模型對模糊情緒的魯棒性不足。
3、現需解決如何按兒童說話人年齡段分層處理數據,在每個分層內構造消除說話人差異的情緒特征;以及如何利用人工誘發的強情緒兒童語音增強模型對模糊情緒的辨別能力,突破自然樣本局限性。
技術實現思路
1、本發明的目的是解決現有技術中存在的缺點,而提出的一種面向兒童的語音情緒識別模型訓練方法。
2、為了實現上述目的,本發明采用了如下技術方案:一種面向兒童的語音情緒識別模型訓練方法,包括:
3、收集包含多個兒童說話人的原始兒童語音數據集,所述原始兒童語音數據集包含帶有情緒類別標簽的語音樣本及對應的說話人年齡段標簽;
4、對所述原始兒童語音數據集的語音樣本進行預處理,得到標準化的兒童語音片段,所述預處理包含采樣率統一、靜音段切除及音量幅值歸一化;
5、從所述標準化的兒童語音片段中提取多維度聲學特征,形成原始聲學特征集;
6、基于所述說話人年齡段標簽對所述原始聲學特征集進行年齡段分層,并在每個年齡分層內構造說話人無關的情緒特征表示,所述構造過程通過特征投影與說話人特征均值相減實現;
7、將所述說話人無關的情緒特征表示輸入到神經網絡模型中進行訓練,訓練過程中引入情緒混淆矩陣加權的損失函數,生成初步的兒童語音情緒識別模型;
8、使用兒童情感喚醒語音片段對所述初步的兒童語音情緒識別模型進行對抗性微調,所述兒童情感喚醒語音片段為經過人工誘發產生的、情緒表達強烈的兒童語音,通過對抗性微調以增強模型對模糊情緒語音的辨別能力。
9、作為本發明的進一步方案,從所述標準化的兒童語音片段中提取多維度聲學特征,形成原始聲學特征集,包括:
10、所述多維度聲學特征包含基頻包絡、諧波噪聲比、頻譜質心及梅爾頻率倒譜系數動態范圍;
11、對每個所述標準化的兒童語音片段進行分幀加窗處理,獲得一系列短時語音幀;
12、對于每個短時語音幀,執行以下處理:
13、通過自相關法計算所述基頻包絡,所述基頻包絡反映了語音音高的時間變化軌跡;
14、計算語音信號的諧波分量能量與噪聲分量能量的比值,得到所述諧波噪聲比;
15、通過計算語音幀頻譜的加權平均頻率,得到所述頻譜質心;
16、提取一組靜態梅爾頻率倒譜系數,并計算靜態梅爾頻率倒譜系數在相鄰語音幀間的差分及加速差分系數,構成所述梅爾頻率倒譜系數動態范圍;
17、將每個短時語音幀計算得到的基頻包絡、諧波噪聲比、頻譜質心及梅爾頻率倒譜系數動態范圍按時間順序排列,組合形成兒童語音片段的所述原始聲學特征集。
18、作為本發明的進一步方案,基于所述說話人年齡段標簽對所述原始聲學特征集進行年齡段分層,并在每個年齡分層內構造說話人無關的情緒特征表示,包括:
19、根據所述說話人年齡段標簽,將所述原始聲學特征集劃分為學齡前兒童特征子集、低學齡兒童特征子集及高學齡兒童特征子集;
20、對于每個年齡分層的特征子集,分別計算年齡分層內每個說話人的所有語音樣本的聲學特征均值向量,得到每個說話人的個性化特征基準;
21、對于年齡分層內每一個語音樣本的原始聲學特征向量,減去其對應的說話人的個性化特征基準,得到歸一化的特征向量;
22、對所述歸一化的特征向量進行主成分分析,選取貢獻率最高的前若干個主成分作為投影軸,將所有歸一化特征向量投影到子空間;
23、將投影后的特征向量作為所述說話人無關的情緒特征表示,所述情緒特征表示減弱了同一情緒下不同兒童個體聲學差異的影響。
24、作為本發明的進一步方案,將所述說話人無關的情緒特征表示輸入到神經網絡模型中進行訓練,訓練過程中引入情緒混淆矩陣加權的損失函數,生成初步的兒童語音情緒識別模型,包括:
25、構建一個包含卷積層與長短期記憶網絡層的復合神經網絡作為基礎模型;
26、將所述說話人無關的情緒特征表示按時間序列輸入所述復合神經網絡,所述卷積層用于提取局部聲學模式,所述長短期記憶網絡層用于建模情緒在時間上的演變依賴關系;
27、在模型訓練初期,使用標準交叉熵損失函數對所述復合神經網絡進行預訓練;
28、在驗證集上評估預訓練后模型的性能,計算模型在各類情緒之間的誤判比例,形成情緒混淆矩陣,所述情緒混淆矩陣反映了模型容易混淆的情緒類別對;
29、根據所述情緒混淆矩陣中的元素值,為每一對容易被混淆的情緒類別分配一個更高的懲罰權重,構建加權交叉熵損失函數;
30、使用所述加權交叉熵損失函數對預訓練后的復合神經網絡進行繼續訓練,迫使模型更加關注于區分易混淆的情緒類別,直至損失函數收斂,得到所述初步的兒童語音情緒識別模型。
31、作為本發明的進一步方案,所述使用兒童情感喚醒語音片段對所述初步的兒童語音情緒識別模型進行對抗性微調,包括:
32、準備一個獨立的兒童情感喚醒語音片段數據集,其中每個片段都帶有高置信度的情緒標簽;
33、使用所述初步的兒童語音情緒識別模型對所述兒童情感喚醒語音片段數據集進行預測,識別出模型預測置信度低于閾值的片段,作為模糊情緒語音樣本;
34、構建一個對抗性判別器,所述對抗性判別器用于區分輸入的語音特征是來自原始訓練數據還是來自所述模糊情緒語音樣本;
35、將所述初步的兒童語音情緒識別模型的特征提取層與所述對抗性判別器連接,形成一個對抗訓練框架;
36、在對抗訓練中,調整所述初步的兒童語音情緒識別模型的參數,使其提取的特征能夠混淆所述對抗性判別器,同時保持其自身情緒分類的準確性;
37、通過所述對抗訓練過程,增強所述初步的兒童語音情緒識別模型對特征不鮮明、情緒表達模糊的兒童語音的魯棒性。
38、作為本發明的進一步方案,還包括:
39、構建兒童情緒表達風格遷移框架,將成人語音中的標準情緒表達模式遷移至兒童語音特征空間,生成風格增強的兒童情緒語音特征,用于擴充所述原始兒童語音數據集;
40、在模型訓練過程中,根據語音樣本的情緒強度自動調整其訓練權重,所述情緒強度由多名標注員對語音樣本的情緒表達鮮明度進行打分取平均獲得;
41、將訓練完成的兒童語音情緒識別模型在獨立的兒童語音測試集上進行驗證,并根據驗證結果對模型的分類決策邊界進行校準,生成最終部署的兒童語音情緒識別模型;
42、所述構建兒童情緒表達風格遷移框架,將成人語音中的標準情緒表達模式遷移至兒童語音特征空間,具體包括:
43、收集帶有情緒標簽的成人標準語音數據集,并從所述成人標準語音數據集中提取與兒童語音相同的所述多維度聲學特征,形成成人聲學特征集;
44、訓練一個跨域特征轉換網絡,所述跨域特征轉換網絡的輸入為兒童語音的說話人無關的情緒特征表示,輸出為映射到成人聲學特征空間的轉換后特征;
45、訓練一個情緒分類器,用于評估所述轉換后特征的情緒類別是否與輸入兒童語音的原始情緒標簽一致;
46、聯合訓練所述跨域特征轉換網絡和所述情緒分類器,目標是使轉換后特征既保留原始兒童語音的情緒內容,又在統計分布上接近所述成人聲學特征集中對應情緒的聲學特征分布;
47、使用訓練好的所述跨域特征轉換網絡,對所述原始兒童語音數據集中的部分樣本進行處理,生成一批具有更標準情緒聲學模式的合成兒童語音特征;
48、將所述合成兒童語音特征及其對應的情緒標簽,作為新增數據合并入所述原始兒童語音數據集,用于后續模型訓練的數據擴充。
49、作為本發明的進一步方案,所述在模型訓練過程中,根據語音樣本的情緒強度自動調整其訓練權重,包括:
50、在所述原始兒童語音數據集中,為每個語音樣本配置一個情緒強度分數,所述情緒強度分數通過多名標注員對語音樣本的情緒表達鮮明度進行獨立打分后求平均得到;
51、在模型訓練的每次迭代中,根據當前批次內每個語音樣本的情緒強度分數計算其相對權重;
52、計算所述相對權重的具體方式是,將當前批次內所有語音樣本的情緒強度分數進行歸一化,使得分數最高的樣本獲得基準權重,其他樣本的權重按其分數比例進行縮放;
53、在計算模型損失時,將每個語音樣本的損失項乘以其對應的相對權重,使得情緒表達更鮮明、標簽更可靠的樣本在梯度更新中貢獻更大;
54、隨著訓練的進行,動態調整權重計算的策略,在訓練后期逐漸降低情緒強度分數的權重影響,以平衡模型對不同表現力樣本的學習。
55、作為本發明的進一步方案,所述根據驗證結果對模型的分類決策邊界進行校準,包括:
56、使用所述獨立的兒童語音測試集對訓練完成的模型進行測試,獲取模型對每個測試樣本的預測概率向量及最終預測類別;
57、統計每個預測類別下的樣本,其預測概率向量的分布情況,特別是針對被模型以低置信度預測正確或以高置信度預測錯誤的樣本;
58、對于每個情緒類別,根據其預測概率分布,計算一個類別特定的概率校準曲線,所述概率校準曲線用于將模型輸出的原始預測概率映射為經過校準的后驗概率;
59、根據所述概率校準曲線,對模型的分類決策規則進行調整,將原始的直接選取最大概率類別的決策方式,替換為基于校準后驗概率與動態閾值的比較決策方式;
60、將校準后的決策規則與模型參數固化,生成所述最終部署的兒童語音情緒識別模型,所述模型在輸出情緒類別時同時提供經過校準的置信度評分。
61、作為本發明的進一步方案,還包括對所述初步的兒童語音情緒識別模型的注意力機制進行優化的步驟:
62、在所述復合神經網絡的長短期記憶網絡層之后,添加一個注意力計算層,用于計算不同時間步的聲學特征對最終情緒分類的貢獻權重;
63、使用訓練數據訓練帶有注意力計算層的模型,使模型能夠自動聚焦于語音中情緒表達最突出的片段;
64、分析訓練后模型在各類情緒語音上的注意力權重分布,識別出對于特定情緒判斷具有決定性作用的聲學特征時間區域;
65、根據所述注意力權重分布的分析結果,人為設計輔助的聲學特征模板,所述聲學特征模板描述了特定情緒的關鍵聲學事件在時間軸上的出現規律;
66、將所述聲學特征模板作為輔助監督信號,引入到模型的損失函數中,約束模型的注意力分布向所述聲學特征模板描述的關鍵區域靠近。
67、作為本發明的進一步方案,所述將所述聲學特征模板作為輔助監督信號,引入到模型的損失函數中,包括:
68、對于每一種目標情緒,定義其對應的聲學特征模板,所述聲學特征模板為一個二元序列,標記了語音時間軸上被認為對識別目標情緒至關重要的區間;
69、計算模型所述注意力計算層輸出的注意力權重分布在時間軸上的序列;
70、計算所述注意力權重分布序列與目標情緒的所述聲學特征模板序列之間的差異度量;
71、將所述差異度量乘以一個正則化系數,構成注意力正則化損失項;
72、將所述注意力正則化損失項添加到原有的加權交叉熵損失函數中,形成總損失函數;
73、在模型訓練過程中,通過最小化所述總損失函數,使得模型在準確分類情緒的同時,其注意力機制能夠更好地與人工知識或統計先驗中情緒表達的關鍵區域對齊。
74、與現有技術相比,本發明的優點和積極效果在于:
75、基于說話人年齡段標簽對原始聲學特征集進行分層,在每個年齡分層內實施特征投影與說話人特征均值相減操作以構造說話人無關情緒特征表示。該技術先將兒童語音按年齡段劃分為獨立子層,使同層內聲學特征受發育階段影響趨于一致,減少跨年齡段差異對情緒表征的干擾;隨后在每層內,通過特征投影提取與情緒相關的潛在聲學模式,再計算該層內各說話人特征均值并與之相減,剝離個體音色、發音習慣等無關信息,使特征集中僅保留情緒相關的核心信息,提升情緒表征的針對性與純凈度。
76、使用人工誘發產生的、情緒表達強烈的兒童情感喚醒語音片段對初步模型進行對抗性微調。該技術通過特定情境誘導兒童產生高喚醒度情緒語音,形成強情緒樣本集,彌補自然采集樣本中強情緒數據稀缺的局限;以對抗方式將強情緒樣本輸入模型微調,促使模型在訓練中關注強情緒與模糊情緒間的細微差異,學習更精細的判別邊界,從而增強對低強度、混合等模糊情緒語音的區分能力,提升模型在復雜情緒表達場景下的魯棒性。