一種基于無監督式的話者分離優化方法及系統與流程

文檔序號：40309241發布日期：2024-12-13 11:23閱讀：200來源：國知局

技術簡介：
本發明針對傳統話者分離技術依賴監督學習導致的標注成本高、泛化能力弱等問題，提出基于無監督學習的優化方法。通過自動標注、特征提取與無監督增強學習策略，降低人工干預需求，提升模型對未知說話人和復雜環境的適應性。系統實現數據預處理、特征分類及模型優化，驗證模型在未標注數據中的表現，顯著提高分離準確率和魯棒性。
關鍵詞：無監督話者分離,模型優化

本發明涉及話者分離，具體為一種基于無監督式的話者分離優化方法及系統。

背景技術：

1、話者分離技術在語音通信、語音識別、音頻處理等領域有著廣泛的應用前景，隨著人工智能技術的發展，話者分離技術的應用效果得到了顯著的提升，然而，現有的話者分離技術仍然面臨一些挑戰和局限性，目前的話者分離技術主要依賴于監督學習方法，監督學習方法通常需要大量的標注數據來進行模型訓練，獲取標注數據的成本高昂，且過程繁瑣，不僅需要大量的人力物力資源進行手動標注，而且由于標注工作本身的復雜性，標注質量也難以保證，高成本、低效率的標注過程成為制約話者分離技術發展的一個重要因素，此外，由于訓練數據的多樣性有限，現有話者分離模型的泛化能力受限，難以很好地應對具體場景中未知說話人的語音信號，導致在實際應用中的表現不盡如人意，特別是在面對復雜的聲學環境和多變的說話人時，模型的性能會顯著下降。

2、基于上述技術問題，本發明提出的無監督式話者分離優化方法，首先，通過無監督學習策略，能夠在無需人工干預的情況下自動對數據進行標注，可以降低數據準備的成本，使得話者分離技術更加高效、實用，其次，在增強泛化能力方面，本發明通過無監督提取的特征向量對話者分離模型進行優化調整，使得模型能夠更好地適應具體場景中未知說話人的語音信號，提高泛化能力，相較于現有技術，本發明的優勢在于：一方面，減少了人工標注數據的需求，降低了成本；另一方面，提高了話者分離模型的準確率和魯棒性，使其在實際應用中具有更好的表現，總之，本發明為話者分離技術領域帶來了一種創新性的解決方案，有望推動該領域的發展。

技術實現思路

1、鑒于上述存在的問題，提出了本發明。

2、因此，本發明解決的技術問題是：現有的話者分離技術方法存在，數據標注成本高昂，標注效率低，模型泛化能力弱，以及如何無需人工干預自動標注數據并提高模型泛化能力的問題。

3、為解決上述技術問題，本發明提供如下技術方案：一種基于無監督式的話者分離優化方法，包括收集語音數據，并對語音數據進行預處理；通過無監督數據標注進行特征提取與分類；構建無監督增強學習策略優化算法，優化模型，并使用未處理語音數據進行模型測試和驗證。

4、作為本發明所述的基于無監督式的話者分離優化方法的一種優選方案，其中：所述收集語音數據包括基于話者分離模型應用場景，收集應用場景語音數據。

5、作為本發明所述的基于無監督式的話者分離優化方法的一種優選方案，其中：所述預處理包括基于收集語音數據，去除無效數據，統一音頻文件通道數和添加環境噪聲。

6、作為本發明所述的基于無監督式的話者分離優化方法的一種優選方案，其中：所述無監督數據標注包括通過音高敏感性增強的語音活動檢測技術自動識別人聲片段，使用時序分析增強的語音個體特征提取技術完成說話人變更和確認，并通過基于歐氏距離驅動的語音個體分類技術完成語音個體特征的自動歸類和角色分類。

7、作為本發明所述的基于無監督式的話者分離優化方法的一種優選方案，其中：所述特征提取與分類包括基于音高敏感性增強的語音活動檢測技術，生成語音活動部分序列；基于語音活動部分序列，通過時序分析增強的語音個體特征提取技術，提取含有時序信息的語音個體特征序列；基于含有時序信息的語音個體特征序列，通過基于歐氏距離驅動的語音個體分類技術，生成包含語音個體特征空間信息的矩陣和語音個體分類序列。

8、作為本發明所述的基于無監督式的話者分離優化方法的一種優選方案，其中：所述優化模型包括基于無監督數據標注，構建無監督增強學習策略優化算法對話者分離模型應用場景的話者分離預訓練模型進行二次訓練。

9、作為本發明所述的基于無監督式的話者分離優化方法的一種優選方案，其中：所述模型測試和驗證包括使用未處理語音數據，輸入優化后的話者分離模型，進行話者分離，并使用檢測錯誤率進行模型評估。

10、本發明的另外一個目的是提供一種基于無監督式的話者分離優化系統，其能通過無監督數據標注進行特征提取與分類，解決了目前的話者分離技術含有數據標注成本高昂，標注效率低的問題。

11、作為本發明所述的基于無監督式的話者分離優化系統的一種優選方案，其中：包括語音數據預處理模塊，無監督數據標注模塊，模型優化模塊；所述語音數據預處理模塊用于收集話者分離模型應用場景語音數據，并對語音數據進行預處理；所述無監督數據標注模塊用于基于預處理語音數據，通過無監督數據標注進行特征提取和分類；所述模型優化模塊用于構建無監督增強學習策略優化算法，優化話者分離模型，并進行模型測試和驗證。

12、一種計算機設備，包括存儲器和處理器，所述存儲器存儲有計算機程序，所述處理器執行所述計算機程序是實現基于無監督式的話者分離優化方法的步驟。

13、一種計算機可讀存儲介質，其上存儲有計算機程序，所述計算機程序被處理器執行時實現基于無監督式的話者分離優化方法的步驟。

14、本發明的有益效果：本發明提供的基于無監督式的話者分離優化方法通過收集語音數據并對語音數據進行預處理，實現了對原始數據的清洗和格式統一，確保了后續處理的數據質量，為特征提取和模型訓練提供了可靠的基礎數據，達到了減少噪聲干擾、提高數據一致性；通過無監督數據標注進行特征提取與分類，實現了在沒有人工標注的情況下自動識別和分類語音特征，降低了標注成本，并提高了系統的自動化程度，使得模型能夠適應未知的說話人，達到了增強模型泛化能力和魯棒性；通過構建無監督增強學習策略優化算法，實現了對話者分離模型的精細化調整，模型能夠更好地處理實際應用中的噪聲和變化，提高了模型的準確率和適應性，使用未處理語音數據進行模型測試和驗證，確保了優化后的模型能夠在實際應用中保持高性能，達到了驗證模型泛化能力和實用性，本發明在準確性、魯棒性以及適應性方面都取得更加良好的效果。

技術特征：

1.一種基于無監督式的話者分離優化方法，其特征在于，包括：

2.如權利要求1所述的基于無監督式的話者分離優化方法，其特征在于：所述收集語音數據包括基于話者分離模型應用場景，收集應用場景語音數據。

3.如權利要求2所述的基于無監督式的話者分離優化方法，其特征在于：所述預處理包括基于收集語音數據，去除無效數據，統一音頻文件通道數和添加環境噪聲。

4.如權利要求3所述的基于無監督式的話者分離優化方法，其特征在于：所述無監督數據標注包括通過音高敏感性增強的語音活動檢測技術自動識別人聲片段，使用時序分析增強的語音個體特征提取技術完成說話人變更和確認，并通過基于歐氏距離驅動的語音個體分類技術完成語音個體特征的自動歸類和角色分類。

5.如權利要求4所述的基于無監督式的話者分離優化方法，其特征在于：所述特征提取與分類包括基于音高敏感性增強的語音活動檢測技術，生成語音活動部分序列；

6.如權利要求5所述的基于無監督式的話者分離優化方法，其特征在于：所述優化模型包括基于無監督數據標注，構建無監督增強學習策略優化算法對話者分離模型應用場景的話者分離預訓練模型進行二次訓練。

7.如權利要求6所述的基于無監督式的話者分離優化方法，其特征在于：所述模型測試和驗證包括使用未處理語音數據，輸入優化后的話者分離模型，進行話者分離，并使用檢測錯誤率進行模型評估。

8.一種采用如權利要求1～7任一所述的基于無監督式的話者分離優化方法的系統，其特征在于：包括語音數據預處理模塊，無監督數據標注模塊，模型優化模塊；

9.一種計算機設備，包括存儲器和處理器，所述存儲器存儲有計算機程序，其特征在于，所述處理器執行所述計算機程序時實現權利要求1至7中任一項所述的基于無監督式的話者分離優化方法的步驟。

10.一種計算機可讀存儲介質，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執行時實現權利要求1至7中任一項所述的基于無監督式的話者分離優化方法的步驟。

技術總結
本發明公開了一種基于無監督式的話者分離優化方法及系統，涉及話者分離技術領域，包括收集語音數據，并對語音數據進行預處理；通過無監督數據標注進行特征提取與分類；構建無監督增強學習策略優化算法，優化模型，并使用未處理語音數據進行模型測試和驗證。本發明所述方法通過無監督數據標注進行特征提取與分類，實現了在沒有人工標注的情況下自動識別和分類語音特征，降低標注成本，模型能夠適應未知的說話人，達到了增強模型泛化能力和魯棒性；通過構建無監督增強學習策略優化算法，模型能夠更好地處理實際應用中的噪聲和變化，提高了模型的準確率和適應性，使用未處理語音數據進行模型測試和驗證，達到了驗證模型泛化能力和實用性。

技術研發人員：施宇,李晟,蘇志龍,李進盛,鐘英生,趙蕓,何國對,陳定甲,趙達文
受保護的技術使用者：廣西壯族自治區通信產業服務有限公司技術服務分公司
技術研發日：
技術公布日：2024/12/12

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：施宇,李晟,蘇志龍,李進盛,鐘英生,趙蕓,何國對,陳定甲,趙達文
技術所有人：廣西壯族自治區通信產業服務有限公司技術服務分公司
我是此專利的發明人

上一篇：大型油浸式電力變壓器瓷套管專用起重工具的制作方法
下一篇：一種用于壩體澆筑的預制混凝土保溫模板的制作方法

相關技術

用于大語言模型的構建方法及裝置、問答方法、電子設備與流程

一種基于遮擋物體檢測及運動連續性的光流估計方法

基于多模態的話者分離方法、裝置、設備及存儲介質與流程

一種訓練聲紋識別模型、聲紋識別的方法及裝置與流程

針對離線聲紋識別準確率低的問題，提出通過迭代訓練模型并動態優化樣本集的解決思路。方法基于訓練樣本數據集，循環調整模型參數與訓練樣本，使聲紋相似度滿足預設條件，最終獲得魯棒性更強的目標模型，顯著...

話者分離方法、裝置、電子設備和存儲介質與流程

一種話者分離方法、裝置、電子設備與存儲介質與流程

一種模型優化方法和裝置與流程

話者分離方法、裝置、電子設備和存儲介質與流程

網友詢問留言留言:0條

還沒有人留言評論。精彩留言會獲得點贊！

文明留言，給您點贊！

同類技術

相關技術