一種話者分離方法、裝置、電子設備與存儲介質與流程

文檔序號：29036029發布日期：2022-02-25 18:46閱讀：425來源：國知局

1.本技術實施例涉及語音識別技術領域，具體而言，涉及一種話者分離方法、裝置、電子設備與存儲介質。

背景技術：

2.話者分離，也稱為話者識別，是一種與語音識別處理技術類似的一種識別技術，通常用于在一段至少有兩人的音頻當中，將至少兩人進行分離，以識別不同的說話者。
3.傳統的話者分離技術是采取聚類的思想，來分離不同的說話者，然而采取聚類的思想，在對音頻中說話時間較短的語音片段進行說話者識別時，所識別的說話者的準確性較低。

技術實現要素：

4.本技術實施例提供一種話者分離方法、裝置、電子設備與存儲介質，旨在解決面對短語音片段識別時，所帶來的說話者識別準確性較低的問題。
5.本技術實施例第一方面提供一種話者分離方法，所述方法包括：
6.獲取多個待處理語音片段，將所述多個待處理語音片段劃分為兩種語音堆；
7.從兩種語音堆中分別篩選出語音時長在第一預設時長以上的兩組第一長語音片段；
8.將所述兩組第一長語音片段分別注冊成兩種聲紋樣本，其中，不同的聲紋樣本表征不同的語音用戶；
9.將所述兩種聲紋樣本，與語音時長小于第二預設時長的兩組短語音片段分別進行匹配，以確定所述兩組短語音片段各自所屬的聲紋樣本，其中，所述第二預設時長小于或等于所述第一預設時長。
10.可選地，將所述兩組第一長語音片段分別注冊成兩種聲紋樣本，包括：
11.根據所述兩組第一長語音片段各自的ivector特征，對所述兩組第一長語音片段進行二次聚類，以得到兩組第二長語音片段；
12.將所述兩組第二長語音片段分別注冊成兩種聲紋樣本。
13.可選地，根據所述兩組第一長語音片段各自的ivector特征，對所述兩組第一長語音片段進行二次聚類，以得到兩組第二長語音片段，包括：
14.利用plda模型，對每兩個第一長語音片段的ivector特征進行打分，以得到每兩個第一長語音片段之間的plda分數；
15.依據所述plda分數，對所述第一長語音片段進行二次聚類，以得到兩組第二長語音片段。
16.可選地，獲取多個待處理語音片段，將所述多個待處理語音片段劃分為兩種語音堆，包括：
17.對所述多個待處理語音片段分別進行特征提取，得到所述多個待處理語音片段各
自的mfcc特征；
18.根據所述多個待處理語音片段各自的mfcc特征，對所述多個待處理語音片段進行一次聚類，以將所述多個待處理語音片段劃分成兩種語音堆。
19.可選地，根據所述多個待處理語音片段各自的mfcc特征，對所述多個待處理語音片段進行一次聚類，以將所述多個待處理語音片段劃分成兩種語音堆，包括：
20.對所述多個待處理語音片段的mfcc特征進行vad靜音檢測，提取出所述待處理語音片段中，多個語音活動片段的mfcc特征；
21.根據所述多個語音活動片段的mfcc特征，對所述多個語音活動片段進行一次聚類，以將所述多個語音活動片段劃分成兩種語音堆。
22.可選地，所述方法還包括：
23.根據所述二次聚類的準確度，設置所述第一預設時長；其中，所述第一預設時長與所述二次聚類的準確度之間呈正比關系。
24.本技術實施例第二方面提供一種話者分離裝置，所述裝置包括：
25.劃分模塊，用于獲取多個待處理語音片段，將所述多個待處理語音片段劃分為兩種語音堆；
26.篩選模塊，用于從兩種語音堆中分別篩選出語音時長在第一預設時長以上的兩組第一長語音片段；
27.注冊模塊，用于將所述兩組第一長語音片段分別注冊成兩種聲紋樣本，其中，不同的聲紋樣本表征不同的語音用戶；
28.匹配模塊，用于將所述兩種聲紋樣本，與語音時長小于第二預設時長的兩組短語音片段分別進行匹配，以確定所述兩組短語音片段各自所屬的聲紋樣本，其中，所述第二預設時長小于或等于所述第一預設時長。
29.可選地，所述注冊模塊包括：
30.二次聚類模塊，用于根據所述兩組第一長語音片段各自的ivector特征，對所述兩組第一長語音片段進行二次聚類，以得到兩組第二長語音片段；
31.第一注冊子模塊，用于將所述兩組第二長語音片段分別注冊成兩種聲紋樣本。
32.可選地，所述二次聚類模塊包括：
33.第一打分模塊，用于利用plda模型，對每兩個第一長語音片段的ivector特征進行打分，以得到每兩個第一長語音片段之間的plda分數；
34.二次聚類子模塊，用于依據所述plda分數，對所述第一長語音片段進行二次聚類，以得到兩組第二長語音片段。
35.可選地，所述劃分模塊包括：
36.特征提取模塊，用于對所述多個待處理語音片段分別進行特征提取，得到所述多個待處理語音片段各自的mfcc特征；
37.一次聚類模塊，用于根據所述多個待處理語音片段各自的mfcc特征，對所述多個待處理語音片段進行一次聚類，以將所述多個待處理語音片段劃分成兩種語音堆。
38.可選地，所述一次聚類模塊包括：
39.靜音檢測模塊，用于對所述多個待處理語音片段的mfcc特征進行vad靜音檢測，提取出所述待處理語音片段中，多個語音活動片段的mfcc特征；
40.一次聚類子模塊，用于根據所述多個語音活動片段的mfcc特征，對所述多個語音活動片段進行一次聚類，以將所述多個語音活動片段劃分成兩種語音堆。
41.可選地，所述裝置還包括：
42.設置模塊，用于根據所述二次聚類的準確度，設置所述第一預設時長；其中，所述第一預設時長與所述二次聚類的準確度之間呈正比關系。
43.本技術實施例第三方面提供一種電子設備，包括：
44.一個或多個處理器；和
45.其上存儲有指令的一個或多個機器可讀介質，當由所述一個或多個處理器執行時，使得所述電子設備執行如本技術實施例第一方面所述的話者分離方法。
46.本技術實施例第四方面提供一個或多個機器可讀存儲介質，其上存儲有指令，當由一個或多個處理器執行時，使得所述處理器執行如本技術實施例第一方面所述的話者分離方法。
47.采用本技術提供的一種話者分離方法，可以在獲取到待處理語音之后，將待處理語音劃分成多個語音片段，并將多個語音片段劃分成兩種語音堆，再將兩種語音堆中的第一長語音片段進行注冊，將兩種語音堆中的短語音片段分別與第一長語音片段進行匹配，以確定所述兩組短語音片段各自所屬的聲紋樣本，進而識別不同話者。
48.在這個過程中，由于所注冊的聲紋樣本是兩組第一長語音片段，并非多個待處理語音片段的所有聲紋樣本，也非多個待處理語音片段的短語音片段，所以所注冊的聲紋樣本中并不包括短語音片段，所注冊的聲紋樣本中包含的是信息量豐富且含義明確的第一長語音片段，其不會受到短語音片段的影響，因此可以提高聲紋識別的準確性，相應地，即使將語音時長較短的短語音片段與兩組第一長語音片段進行匹配時，也能夠準確地識別出短語音片段所對應的話者。
49.另外，本技術實施例中，是將聲紋識別技術應用到話者分離的場景之中，相較于現有技術中將聲紋識別技術應用至聲紋解鎖場景中而言，是將用戶在同一語音環境下短語音片段與的第一長語音片段進行匹配，而非將一種語音環境下的語音片段注冊成樣本，將另一種語音環境下的語音片段與該樣本進行匹配，從而減少了不同的語音環境所帶來的干擾，進一步提升了話者識別分離的準確性。
附圖說明
50.為了更清楚地說明本技術實施例的技術方案，下面將對本技術實施例的描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本技術的一些實施例，對于本領域普通技術人員來講，在不付出創造性勞動性的前提下，還可以根據這些附圖獲得其他的附圖。
51.圖1是本技術一實施例提出的一種話者分離方法的一種步驟流程圖；
52.圖2是本技術一實施例提出的一種話者分離方法的另一種步驟流程圖；
53.圖3是本技術一實施例提出的劃分為兩種語音堆的邏輯示意圖；
54.圖4是本技術一實施例提出的一種話者分離方法的邏輯示意圖；
55.圖5是本技術一實施例提出的一種話者分離裝置的結構框圖。
具體實施方式
56.下面將結合本技術實施例中的附圖，對本技術實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例是本技術一部分實施例，而不是全部的實施例。基于本技術中的實施例，本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例，都屬于本技術保護的范圍。
57.請參閱圖1，本技術實施例提供一種話者分離方法，所述方法包括以下步驟：
58.步驟101：獲取多個待處理語音片段，將所述多個待處理語音片段劃分為兩種語音堆。
59.本技術實施例中，待處理語音片段是從待處理音頻中劃分而來，將待處理音頻劃分成多個待處理語音片段時，可以將待處理音頻劃分為多個待處理語音片段，使得每個待處理語音片段中只包括一個說話者的語音，或者只包括噪音等環境語音，從而提高后續二次聚類的準確度。
60.其中，在將待處理音頻劃分成多個待處理語音片段之后，由于待處理語音片段中包括了兩個話者的語音片段，所以需要對多個待處理語音片段進行初步的劃分，以劃分為兩種語音堆，來初步分離出兩個不同的話者。
61.本技術實施例可以應用于需要分離兩個不同話者輸入語音的場景，其中，話者可以為電話會議、視頻會議下的發言人。
62.具體應用于雙人說話場景中時，先獲取到雙人說話的待處理視頻，再通過語音分幀技術，將待處理音頻劃分成多個待處理語音片段，例如劃分成“喂”、“你好”、“最近過的還好嗎”、“我過的挺好的你呢”等等多個待處理語音片段，再將“喂”、“最近過的還好嗎”這兩個待處理語音片段劃分為第一個語音堆，將“你好”、“我過的挺好的你呢”這兩個待處理語音片段劃分為第二個語音堆。
63.如此，在劃分為兩個語音堆之后，可以初步識別出第一個語音堆是用戶a所發出的，第二個語音堆是用戶b所發出的，從而初步實現對話者的識別。
64.步驟102：從兩種語音堆中分別篩選出語音時長在第一預設時長以上的兩組第一長語音片段。
65.本技術實施例中，兩種語音堆中所包含的待處理語音片段的時長各有不同。具體地，兩種語音堆中包含有長語音片段與短語音片段，而在“嗯”、“你好”等短語音片段中，短語音片段所包含的的信息量比較少，語句表示的信息不太明確，所以若將短語音片段連同“最近過的還好嗎”、“我過的挺好的你呢”等長語音片段一起進行聲紋注冊之后，所注冊得到的聲紋樣本之中則會包含信息量較少的短語音片段，而由于注冊的短語音片段的聲紋樣本本身信息量較少，若再將話者所發出的短語音與本身信息量較少的聲紋樣本進行聲紋匹配，會導致所識別出的話者的準確度較低。
66.因此，本技術實施例中，在注冊第一長語音片段之前，會進行第一長語音片段的篩選。具體地，從第一個語音堆中篩選出語音時長在第一預設時長以上的第一長語音片段，從第二個語音堆中篩選出語音時長在第一預設時長以上的第一長語音片段，而位于第一個語音堆與第二個語音堆中的長語音片段組合成兩組第一長語音片段。
67.具體應用時，從“喂”、“最近過的還好嗎”所對應的第一個語音堆中篩選出在1s以上的“最近過的還好嗎”這一第一長語音片段；從“你好”、“我過的挺好的你呢”對應的第二
個語音堆中篩選出“我過的挺好的你呢”這一第一長語音片段，如此，使得篩選出的第一長語音片段均是語音時長較長的、語義明確的、信息量較多的語音片段，其不會受到較少的語音時長較短的短語音片段的影響，從而提升了聲紋識別的準確性。
68.其中，第一預設時長可以為1-2s中的任意預設時長。
69.其中，聲紋注冊指的是將多個說話人的語音特征進行注冊保存，再對一段有一人說話的語音進行識別，識別其屬于多個說話人中的哪一人，其運用于聲紋密碼場景。例如，在手機中注冊保存有用戶a、用戶b與用戶c的語音特征，用戶a是手機的持有者，當用戶a面對手機說話時，由于手機中注冊有用戶a的語音特征，所以可以對手機進行解鎖。
70.步驟103：將所述兩組第一長語音片段分別注冊成兩種聲紋樣本，其中，不同的聲紋樣本表征不同的語音用戶。
71.本技術實施例中，在獲取到提前錄制的待處理語音之后，立即將待處理語音劃分為多個待處理語音片段，再將多個待處理語音片段劃分為兩種語音堆，并將兩種語音堆中語音時長在第一預設時長以上的兩組第一長語音片段注冊成兩種聲紋樣本，從而使得客戶端中存儲有不同用戶的聲紋樣本。
72.傳統的聲紋注冊識別技術中，是事先在客戶端注冊好用戶在一種語音環境下(例如圖書館等安靜場所)的語音片段，在進行聲紋解鎖時，同一用戶在另一種環境下(例如菜市場等嘈雜場所)發出語音，即可對客戶端進行聲紋解鎖。
73.而本技術中，相較于傳統的聲紋注冊識別技術而言，所獲取到的是完整的待處理語音，因此，需要在獲取到待處理語音之后，是實時地將待處理語音處理成兩組第一長語音片段進行注冊，而非事先將用戶的語音片段進行注冊，因此本技術可以實時地識別出一段待處理語音中的不同話者。
74.另外，本技術是將用戶在同一語音環境下(例如圖書館等安靜場所)所發出的待處理語音劃分為短語音片段與第一長語音片段，因此，將同一語音環境下的短語音片段與的第一長語音片段進行匹配，可以減少不同語音環境所帶來的差異性，減少不同語音環境所帶來的話者識別的干擾，提升話者識別的準確性。
75.其中，兩種聲紋樣本中包含了兩個不同用戶大量的第一長語音片段，所以兩種聲紋樣本可以表征不同的語音用戶的語音特征。
76.步驟104：將所述兩種聲紋樣本，與語音時長小于第二預設時長的兩組短語音片段分別進行匹配，以確定所述兩組短語音片段各自所屬的聲紋樣本，其中，所述第二預設時長小于或等于所述第一預設時長。
77.本技術實施例中，可以語音時長在第一預設時長以上的兩組長語音片段注冊成兩種聲紋樣本，以提升聲紋識別的準確性；再將語音時長小于第二預設時長的兩組短語音片段分別與兩種樣本進行匹配，以確定兩組短語音片段各自所屬的聲紋樣本。如此，由于本技術實施例將短語音片段與去除短語音片段后信息量較為豐富、語音時長較長、信息含義明確的聲紋樣本進行聲紋匹配，而非是將短語音片段與用戶所有的聲紋樣本進行匹配，從而提高了識別不同話者的準確度。
78.其中，用戶所有的聲紋樣本包括語音時長在第一預設時長以上的聲紋樣本，以及語音時長小于第二預設時長的聲紋樣本。
79.其中，第二預設時長小于或等于第一預設時長，例如第二預設時長與第一預設時
長可以均為1s，或者第一預設時長為2s，第二預設時長為1s。
80.具體應用時，將第一個語音堆中的第一長語音片段“最近過的還好嗎”與第二個語音堆中的第一長語音片段“我過的挺好的你呢”分別注冊成兩種樣本，第一個語音堆是用戶a所發出的，第二個語音堆是用戶b所發出的。
81.再將第一個語音堆中的“喂”分別與兩種樣本進行匹配，確定“喂”所對應的短語音片段的語音特征與用戶a發出的“最近過的還好嗎”的語音特征相適配，則可以確定“喂”所對應的話者是用戶a。
82.再將第二個語音堆中的“你好”分別與兩種樣本進行匹配，確定“你好”所對應的短語音片段的語音特征與用戶b發出的“我過的挺好的你呢”相適配，則可以確定“你好”所對應的話者是用戶b。
83.如此，本技術實施例中，可以在獲取到待處理語音之后，將待處理語音劃分成多個語音片段，并將多個語音片段劃分成兩種語音堆，再將兩種語音堆中的第一長語音片段進行注冊，將兩種語音堆中的短語音片段分別與第一長語音片段進行匹配，來識別不同話者。
84.在這個過程中，由于所注冊的聲紋樣本是兩組第一長語音片段，并非多個待處理語音片段的所有聲紋樣本，也非多個待處理語音片段的短語音片段，所以所注冊的聲紋樣本中并不包括短語音片段，所注冊的聲紋樣本中包含的是信息量豐富且含義明確的第一長語音片段，其不會受到短語音片段的影響，因此可以提高聲紋識別的準確性，相應地，即使將語音時長較短的短語音片段與兩組第一長語音片段進行匹配時，也能夠準確地識別出短語音片段所對應的話者。
85.另外，本技術實施例中，將先注冊聲紋樣本，再將聲紋樣本與話者語音進行匹配所對應的聲紋識別技術應用到話者分離的場景之中，相較于現有技術中將聲紋識別技術應用至聲紋解鎖場景中而言，是將用戶在同一語音環境下短語音片段與的第一長語音片段進行匹配，而非將一種語音環境下的語音片段注冊成樣本，將另一種語音環境下的語音片段與該樣本進行匹配，從而減少了不同的語音環境所帶來的干擾，進一步提升了話者識別分離的準確性。
86.請參閱圖2示出了本技術實施例提供的一種話者分離方法，以及圖4提供的一種話者分離方法的邏輯示意圖，所述方法包括以下步驟：
87.步驟201：對所述多個待處理語音片段分別進行特征提取，得到所述多個待處理語音片段各自的mfcc特征。
88.本技術實施例中，請參閱圖3，可以先使用語音分幀技術，將待處理語音劃分為多個待處理語音片段，再將待處理語音片段依次經過加窗、快速傅里葉變換、三角帶通濾波器、計算每個帶通濾波器組輸出的對數能量、離散余弦變換等等步驟來得到mfcc特征(mel-scale frequency cepstral coefficients，梅爾倒譜系數)。
89.其中，mfcc特征為計算機可以識別的語音特征。
90.步驟202：根據所述多個待處理語音片段各自的mfcc特征，對所述多個待處理語音片段進行一次聚類，以將所述多個待處理語音片段劃分成兩種語音堆。
91.本技術實施例中，在得到兩張語音堆的過程中，是通過一次聚類過程來實現的，一次聚類為層次聚類(agglomerative-cluster)中的自底向上的聚類算法。請參閱圖3，具體包括以下子步驟：
92.子步驟2021：對所述多個待處理語音片段的mfcc特征進行vad靜音檢測，提取出所述待處理語音片段中，多個語音活動片段的mfcc特征。
93.在本步驟中，由于待處理語音中不僅僅包括說話者的語音，還可能出現說話者的停頓、切換不同的說話者所帶來的靜音期，因此可以通過vad靜音檢測技術(voice activity detection，vad)，又稱語音端點檢測或語音邊界檢測等等，來從待處理語音片段中消除長時間的靜音期，提取出多個語音活動片段。
94.其中，語音活動片段指的是待處理語音片段中說話者說話的語音片段，而非并不存在說話者說話的語音片段。
95.通過從待處理語音片段中提取出語音活動片段，可以對靜音期進行識別與消除，以獲得更加準確的語音片段。
96.子步驟2022：根據所述多個語音活動片段的mfcc特征，對所述多個語音活動片段進行一次聚類，以將所述多個語音活動片段劃分成兩種語音堆。
97.在本步驟中，請參閱圖3，首先采取訓練好的ubm模型對多個語音活動片段的mfcc特征進行處理，提取多個語音活動片段的ivector特征；其次可以采取訓練好的plda模型對多個語音活動片段中，每兩個語音活動片段的ivector特征進行打分，得到plda分數，依據plda分數，對多個語音活動片段進行一次聚類，得到兩種語音堆。
98.其中，ivector特征是語音活動片段中提取的能夠代表語音特征的信息，具體可以包括語音活動片段的短時平均能量、短時平均幅度、短時平均過零率、共振峰、聲門波、語速等等，只要能夠代表不同語音活動片段的語音特征即可。
99.其中，plda分數指的是各個ivector特征之間的維度距離，plda分數越大，兩個ivector特征之間的差別越大，plda分數越小，兩個ivector特征之間的差別越小。
100.具體地，在依據plda分數，對多個語音活動片段進行一次聚類時，可以利用plda模型對多個語音活動片段中的每兩個語音活動片段分別進行打分，將得分小于閾值的兩個語音活動片段聚類到一種語音堆中，將得分大于或等于閾值的兩個語音活動片段聚類到不同的語音堆中。閾值可以為10分、20分等等，本技術在此不做限制。
101.具體運用時，例如有語音活動片段1、2、3、4、5，由于打分是將每兩個語音活動片段進行打分，因此上面5個語音活動片段則會有(1與2)、(1與3)、(1與4)、(1與5)、(2與3)、(2與4)、(2與5)、(3與4)、(3與5)這7個組合。
102.在進行一次聚類時，先利用plda模型對上面7個組合分別進行打分，最后得到(1與2)、(1與5)、(2與5)的plda分數均小于10分；(3與5)的plda分數小于10分，(1與4)、(2與3)、(2與4)、(3與4)的plda分數均大于90分，則可以將語音活動片段1、2、5初步劃分為第一個語音堆；將語音活動片段3與4初步劃分為第二個語音堆。
103.如此，第一個語音堆中的語音活動片段1、2、5初步確定為用戶a所發出的語音片段；第二個語音堆中語音活動片段3與4初步確定為用戶b發出的語音片段。
104.步驟203：從兩種語音堆中分別篩選出語音時長在第一預設時長以上的兩組第一長語音片段。
105.在本技術實施例中，由于在進行一次聚類之后，第一個語音堆與第二個語音堆中均可能會包含短語音片段，而將短語音片段注冊成聲紋樣本無疑會降低聲紋識別的準確率。
106.因此，可以從第一個語音堆中篩選出語音時長在第一預設時長以上的第一長語音片段，例如第一長語音片段2與5；還會從第二個語音堆中篩選出語音時長在第一預設時長以上的第一長語音片段，例如第一長語音片段3與4。
107.通過步驟203步驟的篩選，可以從第一個語音堆與第二個語音堆中初步篩選出兩組第一長語音片段，使得注冊成樣本的第一長語音片段盡可能不包含短語音片段，如此來提高聲紋識別的準確率。
108.其中，由于會從兩種語音堆中初步篩選出語音時長在第一預設時長以上的兩組第一長語音片段的過程中，第一預設時長的大小會影響后續步驟204二次聚類的準確性以及聲紋注冊的質量，因此，需要對第一預設時長的大小進行設置。
109.具體地，當第一預設時長較大時，被篩選出注冊成聲紋樣本的第一長語音片段的數量更少。如此，雖然使得聲紋注冊的樣本中能夠包含語音時長更長的第一長語音片段，來保證了二次聚類的準確性；但是由于注冊成樣本的第一長語音片段的數量較小，所以會導致聲紋注冊的質量下降。
110.當第一預設時長較小時，被篩選出注冊成聲紋樣本的第一長語音片段的數量更多。如此，雖然使得注冊成聲紋樣本的第一長語音片段的數量較多，提升了聲紋注冊質量；但是所注冊的聲紋樣本中包含了更多的語音時長較短的第一長語音片段，會導致二次聚類的準確性下降。
111.因此，本技術實施例中，是根據所述二次聚類的準確度，設置所述第一預設時長；其中，所述第一預設時長與所述二次聚類的準確度之間呈正比關系。
112.例如，將第一預設時長設置在1-2s之內，如此，可以使得篩選出的第一長語音片段不會導致聲紋注冊的質量下降，也不會導致二次聚類的準確性下降。
113.步驟204：根據所述兩組第一長語音片段各自的ivector特征，對所述兩組第一長語音片段進行二次聚類，以得到兩組第二長語音片段。
114.其中，在步驟202中進行一次聚類時，由于一次聚類的過程中會受到短語音片段的影響，導致聚類的準確性較低，那么所劃分出的第一個語音堆中可能會包含本屬于第二個語音堆中的待處理語音片段，同理，第二個語音堆中也可能會包含本屬于第一個語音堆中的待處理語音片段，相應地，從第二個語音堆演變而來的兩組第一長語音片段中，也會存在相互混合的情況，進而導致所注冊的兩種聲紋樣本相互混合，影響了聲紋識別的準確性。因此，為了使得兩組第一長語音片段的劃分能夠更加準確，本技術實施例還進行了二次聚類。
115.具體進行二次聚類時，包括以下子步驟：
116.子步驟2041：利用plda模型，對每兩個第一長語音片段的ivector特征進行打分，以得到每兩個第一長語音片段之間的plda分數。
117.在本步驟中，與子步驟2022類似，可以采取訓練好的plda模型，對第一個語音堆中的每兩個第一長語音片段的ivector特征進行打分；對第二個語音堆中的每兩個第一長語音片段的ivector特征進行打分。
118.例如，再次利用plda模型對步驟203中利用第一預設時長所篩選出的第一長語音片段2、3、4、5進行打分時，4個第一長語音片段可以有(2與3)、(2與4)、(2與5)、(3與4)、(3與5)這5個組合。
119.利用plda模型對每兩個第一長語音片段的ivector特征進行打分之后，得到(2與
3)、(2與4)、(3與4)的plda分數小于10分，(2與5)、(3與5)的plda分數大于90分。
120.子步驟2042：依據所述plda分數，對所述第一長語音片段進行二次聚類，以得到兩組第二長語音片段。
121.在本步驟中，在對兩種語音堆中的每兩個第一長語音片段的ivector特征進行打分之后，則可以將分數低于閾值的兩個第一長語音片段再次聚類成一個語音堆，而將分數高于閾值的兩個第一長語音片段再次劃分到不同的語音堆中。
122.例如，將第一長語音片段(2與3)、(2與4)、(3與4)聚類成第一個語音堆，將第一長語音片段5聚類成第二個語音堆。
123.通過二次聚類的設置，可以將兩組第一長語音片段進行二次劃分，以劃分成兩組第二長語音片段，從而使得兩組第一長語音片段中所劃分的語音片段不會相互混合，即，不會使得第一個語音堆中的第一長語音片段中的語音片段，被劃分至第二個語音堆中的第一長語音片段中，反之亦然，從而使得所注冊得到的兩種聲紋樣本是能夠精準地屬于兩個不同用戶的，自然，在后續將短語音片段與兩個樣本分別進行匹配時，也能夠基于準確的聲紋樣本，來提升聲紋識別的準確性。
124.其中，兩組所述第二長語音片段為兩組所述第一長語音片段通過二次聚類得到。
125.步驟205：將所述兩組第二長語音片段分別注冊成兩種聲紋樣本。
126.步驟206：將所述兩種聲紋樣本，與語音時長小于第二預設時長的兩組短語音片段分別進行匹配，以確定所述兩組短語音片段各自所屬的聲紋樣本，其中，所述第二預設時長小于或等于所述第一預設時長。
127.通過本技術實施例提供的一種話者分離方法，可以將篩選出的兩組第一長語音片段進行二次聚類，以劃分出兩組第二長語音片段，在利用準確的第二長語音片段分別注冊成兩種聲紋樣本之后，可以提升聲紋識別的準確性。
128.基于同一發明構思，本技術實施例還提供一種話者分離裝置，所述裝置包括：
129.劃分模塊，用于獲取多個待處理語音片段，將所述多個待處理語音片段劃分為兩種語音堆；
130.篩選模塊，用于從兩種語音堆中分別篩選出語音時長在第一預設時長以上的兩組第一長語音片段；
131.注冊模塊，用于將所述兩組第一長語音片段分別注冊成兩種聲紋樣本，其中，不同的聲紋樣本表征不同的語音用戶；
132.匹配模塊，用于將所述兩種聲紋樣本，與語音時長小于第二預設時長的兩組短語音片段分別進行匹配，以確定所述兩組短語音片段各自所屬的聲紋樣本，其中，所述第二預設時長小于或等于所述第一預設時長。
133.可選地，所述注冊模塊包括：
134.二次聚類模塊，用于根據所述兩組第一長語音片段各自的ivector特征，對所述兩組第一長語音片段進行二次聚類，以得到兩組第二長語音片段；
135.第一注冊子模塊，用于將所述兩組第二長語音片段分別注冊成兩種聲紋樣本。
136.可選地，所述二次聚類模塊包括：
137.第一打分模塊，用于利用plda模型，對每兩個第一長語音片段的ivector特征進行打分，以得到每兩個第一長語音片段之間的plda分數；
138.二次聚類子模塊，用于依據所述plda分數，對所述第一長語音片段進行二次聚類，以得到兩組第二長語音片段。
139.可選地，所述劃分模塊包括：
140.特征提取模塊，用于對所述多個待處理語音片段分別進行特征提取，得到所述多個待處理語音片段各自的mfcc特征；
141.一次聚類模塊，用于根據所述多個待處理語音片段各自的mfcc特征，對所述多個待處理語音片段進行一次聚類，以將所述多個待處理語音片段劃分成兩種語音堆。
142.可選地，所述一次聚類模塊包括：
143.靜音檢測模塊，用于對所述多個待處理語音片段的mfcc特征進行vad靜音檢測，提取出所述待處理語音片段中，多個語音活動片段的mfcc特征；
144.一次聚類子模塊，用于根據所述多個語音活動片段的mfcc特征，對所述多個語音活動片段進行一次聚類，以將所述多個語音活動片段劃分成兩種語音堆。
145.可選地，所述裝置還包括：
146.設置模塊，用于根據所述二次聚類的準確度，設置所述第一預設時長；其中，所述第一預設時長與所述二次聚類的準確度之間呈正比關系。
147.基于同一發明構思，本技術實施例還提供一種電子設備，包括：
148.一個或多個處理器；和
149.其上存儲有指令的一個或多個機器可讀介質，當由所述一個或多個處理器執行時，使得所述電子設備執行如上述的一種話者分離方法。
150.基于同一發明構思，本技術實施例還提供一個或多個機器可讀存儲介質，其特征在于，其上存儲有指令，當由一個或多個處理器執行時，使得所述處理器執行如上述的一種話者分離方法。
151.對于裝置實施例而言，由于其與方法實施例基本相似，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。
152.本說明書中的各個實施例均采用遞進的方式描述，每個實施例重點說明的都是與其他實施例的不同之處，各個實施例之間相同相似的部分互相參見即可。
153.本領域內的技術人員應明白，本技術實施例的實施例可提供為方法、裝置、或計算機程序產品。因此，本技術實施例可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實施例的形式。而且，本技術實施例可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器、cd-rom、光學存儲器等)上實施的計算機程序產品的形式。
154.本技術實施例是參照根據本技術實施例的方法、終端設備(系統)、和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理終端設備的處理器以產生一個機器，使得通過計算機或其他可編程數據處理終端設備的處理器執行的指令產生用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
155.這些計算機程序指令也可存儲在能引導計算機或其他可編程數據處理終端設備
以特定方式工作的計算機可讀存儲器中，使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的制造品，該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
156.這些計算機程序指令也可裝載到計算機或其他可編程數據處理終端設備上，使得在計算機或其他可編程終端設備上執行一系列操作步驟以產生計算機實現的處理，從而在計算機或其他可編程終端設備上執行的指令提供用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
157.盡管已描述了本技術實施例的優選實施例，但本領域內的技術人員一旦得知了基本創造性概念，則可對這些實施例做出另外的變更和修改。所以，所附權利要求意欲解釋為包括優選實施例以及落入本技術實施例范圍的所有變更和修改。
158.最后，還需要說明的是，在本文中，諸如第一和第二等之類的關系術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來，而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關系或者順序。而且，術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、物品或者終端設備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、物品或者終端設備所固有的要素。在沒有更多限制的情況下，由語句“包括一個
……”
限定的要素，并不排除在包括所述要素的過程、方法、物品或者終端設備中還存在另外的相同要素。
159.以上對本技術所提供的一種話者分離方法、裝置、電子設備與存儲介質，進行了詳細介紹，本文中應用了具體個例對本技術的原理及實施方式進行了闡述，以上實施例的說明只是用于幫助理解本技術的方法及其核心思想；同時，對于本領域的一般技術人員，依據本技術的思想，在具體實施方式及應用范圍上均會有改變之處，綜上所述，本說明書內容不應理解為對本技術的限制。

當前第1頁1 2

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：劉羽辰;李健;武衛東;陳明
技術所有人：北京捷通華聲科技股份有限公司
我是此專利的發明人

上一篇：一種停車收費方法及系統與流程
下一篇：一種芯片級光伏電站信息安全防御系統及方法與流程

網友詢問留言留言:0條

還沒有人留言評論。精彩留言會獲得點贊！

文明留言，給您點贊！

同類技術