一種話者分離方法、裝置、電子設備和存儲介質與流程

文檔序號：29352875發布日期：2022-03-22 22:38閱讀：330來源：國知局

1.本公開涉及人工智能技術領域，尤其涉及語音技術領域和智能客服領域，具體涉及一種話者分離方法、裝置、電子設備和存儲介質。

背景技術：

2.在智能客服、會議討論、訪談對話、公安審訊、綜藝節目等場景中，單個聲道上通常有多個說話人、即話者，通常需要對錄制下來的音頻進行話者分離，得到每個人說話的音頻數據，然后再進行針對性的分析。

技術實現要素：

3.本公開提供了一種話者分離的方法、裝置、電子設備以及存儲介質。
4.根據本公開的一方面，提供了一種話者分離方法，包括：
5.對目標音頻進行分幀，得到多個連續的音頻幀；
6.根據當前音頻幀的音頻特征和上一個音頻幀的語義信息，通過變化點預測模型預測當前音頻幀的語義信息和話者變化點信息；
7.根據所述語義信息和所述話者變化點信息對所述目標音頻進行分割，得到多個音頻片段；
8.確定音頻片段對應的第一相似性矩陣；
9.根據所述話者變化點信息和所述第一相似性矩陣構建音頻片段對應的第二相似性矩陣；
10.對所述第二相似性矩陣進行聚類，得到所述音頻片段按照話者分類的結果。
11.其中，若所述當前幀為所述多個連續的音頻幀中的第一個音頻幀，則所述通過變化點預測模型預測當前音頻幀的語義信息和話者變化點信息，包括：
12.根據所述當前幀的音頻特征和起始符，通過變化點預測模型預測當前音頻幀的語義信息和話者變化點信息。
13.其中，根據所述語義信息和所述話者變化點信息對所述目標音頻進行分割，包括：
14.若連續的兩個音頻幀中的一個音頻幀的語義信息為空，則所述兩個音頻幀之間為分割點；
15.若一個音頻幀對應的話者變化點信息滿足設定條件，則該音頻幀和前一個音頻幀之間為分割點；
16.按照所述分割點對所述目標音頻進行分割。
17.其中，所述按照所述分割點對所述目標音頻進行分割，得到多個音頻片段后，該方法還包括：從所述多個音頻片段中選擇語義信息不為空的所有音頻片段；
18.相應的，所述確定音頻片段對應的第一相似性矩陣，包括：確定語義信息不為空的所有音頻片段的第一相似性矩陣。
19.其中，所述確定所有音頻片段對應的第一相似性矩陣，包括：
20.通過特征編碼模型預測每個所述音頻片段的話者特征；
21.基于所述話者特征，計算兩兩音頻片段之間的相似度，得到第一相似性矩陣。
22.其中，所述根據所述話者變化點信息和所述第一相似性矩陣構建音頻片段對應的第二相似性矩陣，包括：
23.根據話者變化點信息構建第一約束矩陣，并對所述第一相似性矩陣進行標準化處理，得到標準化相似性矩陣；
24.基于所述標準化相似性矩陣和所述第一約束矩陣構建第二約束矩陣；
25.根據所述第二約束矩陣和所述第一相似性矩陣構建第二相似性矩陣。
26.其中，所述第一約束矩陣的行數和列數均為語義信息不為空的音頻片段的數量，所述第一約束矩陣中的元素用于表示兩個音頻片段之間是否連接和/或是否相鄰。
27.其中，所述根據話者變化點信息構建第一約束矩陣，包括：
28.若當前音頻片段和相鄰的下一個音頻片段之間存在語義為空的音頻片段，則判斷語義為空的音頻片段對應的話者變化點信息是否滿足所述設定條件，若不滿足所述設定條件，確定所述當前音頻片段和下一個音頻片段之間連接，若滿足所述設定條件，確定當前音頻片段和下一個音頻片段之間不連接；
29.若當前音頻片段和相鄰的下一個音頻片段之間不存在語義為空的音頻片段，則確定當前音頻片段和下一個音頻片段之間不連接；
30.根據兩個相鄰音頻片段之間是否連接，構建所述第一約束矩陣。
31.根據本公開的另一方面，提供了一種模型的訓練方法，包括：
32.采集多條樣本音頻數據；
33.獲取每條所述樣本音頻數據的音頻特征，并對每條所述樣本音頻數據進行話者變化點標注；
34.對每條所述樣本音頻數據進行轉化，得到對應的樣本文本數據，并對所述樣本文本數據進行語義標注；
35.根據所述語義標注的樣本文本數據、所述音頻特征和所述標注的話者變化點對變化點預測模型進行訓練直至收斂。
36.其中，所述根據所述語義標注的樣本文本數據、所述音頻特征和所述標注的話者變化點對變化點預測模型進行訓練，包括：
37.根據所述語義標注的樣本文本數據和所述音頻特征，通過變化點預測模型對所述樣本音頻數據進行話者變化點預測；
38.根據標注的話者變化點和預測到的話者變化點計算損失值；
39.依據所述損失值對所述變化點預測模型的參數進行調整。
40.根據本公開的另一方面，提供了一種話者分離裝置，包括：
41.分幀模塊，用于對目標音頻進行分幀，得到多個連續的音頻幀；
42.變化點預測模塊，用于根據當前音頻幀的音頻特征和上一個音頻幀的語義信息，通過變化點預測模型預測當前音頻幀的語義信息和話者變化點信息；
43.切分模塊，用于根據所述語義信息和所述話者變化點信息對所述目標音頻進行分割，得到多個音頻片段；
44.相似性計算模塊，用于確定音頻片段對應的第一相似性矩陣；
45.約束模塊，用于根據所述話者變化點信息和所述第一相似性矩陣構建音頻片段對應的第二相似性矩陣；
46.聚類模塊，對所述第二相似性矩陣進行聚類，得到所述音頻片段按照話者分類的結果。
47.根據本公開的另一方面，提供了一種模型訓練裝置，包括：
48.數據采集模塊，用于采集多條樣本音頻數據；
49.特征提取模塊，用于獲取每條所述樣本音頻數據的音頻特征；
50.第一標注模塊，用于對每條所述樣本音頻數據進行話者變化點標注；
51.第二標注模塊，用于對每條所述樣本音頻數據進行轉化，得到對應的樣本文本數據，并對所述樣本文本數據進行語義標注；
52.訓練模塊，用于根據所述語義標注的樣本文本數據、所述音頻特征和所述標注的話者變化點對變化點預測模型進行訓練直至收斂。
53.根據本公開的另一方面，提供了一種電子設備，包括：
54.至少一個處理器；以及
55.與所述至少一個處理器通信連接的存儲器；其中，
56.所述存儲器存儲有可被所述至少一個處理器執行的指令，所述指令被所述至少一個處理器執行，以使所述至少一個處理器能夠執行上述的話者分離方法和/或模型訓練方法。
57.根據本公開的另一方面，提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質，其中，所述計算機指令用于使所述計算機執行上述的話者分離方法和/或模型訓練方法。
58.根據本公開的另一方面，提供了一種計算機程序產品，包括計算機程序，所述計算機程序在被處理器執行時實現上述的話者分離方法和/或模型訓練方法。
59.上述的話者分離方案，結合語音信息對話者變化點進行預測，根據語音信息和話者變化點對音頻進行分割，得到音頻片段；通過話者變化點對音頻片段的相似性矩陣進行約束，可以提高音頻片段按照話者進行分類的準確性。
60.應當理解，本部分所描述的內容并非旨在標識本公開的實施例的關鍵或重要特征，也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
附圖說明
61.附圖用于更好地理解本方案，不構成對本公開的限定。其中：
62.圖1是根據本公開一實施例的話者分離方法示意圖；
63.圖2是根據本公開一實施例的第一相似性矩陣確定方法示意圖；
64.圖3是根據本公開一實施例的第二相似性矩陣確定方法示意圖；
65.圖4是根據本公開一實施例的模型的訓練方法示意圖；
66.圖5是根據本公開一實施例的話者分離裝置結構示意圖；
67.圖6是根據本公開另一實施例的話者分離裝置結構示意圖；
68.圖7是是根據本公開另一實施例的模型的訓練裝置結構示意圖；
69.圖8是用來實現本公開實施例的話者分離方法和/或模型訓練方法的電子設備的
框圖。
具體實施方式
70.以下結合附圖對本公開的示范性實施例做出說明，其中包括本公開實施例的各種細節以助于理解，應當將它們認為僅僅是示范性的。因此，本領域普通技術人員應當認識到，可以對這里描述的實施例做出各種改變和修改，而不會背離本公開的范圍和精神。同樣，為了清楚和簡明，以下的描述中省略了對公知功能和結構的描述。
71.在智能客服、會議討論、訪談對話、公安審訊、綜藝節目等場景中，對錄制下來的音頻進行話者分離的過程大致包括：音頻進行預處理，去除靜音噪音等非人聲，然后將音頻切割成等長的片段，進行音頻特征提取，如mfcc(梅爾倒譜系數，mel-scale frequency cepstral coefficients)特征、plp(感知線性預測系數，perceptual linear predictive)特征或fbank(filterbank)特征等，然后再進行話者特征提取，如x-vector特征或d-vector特征，再將話者特征進行聚類，如k-means，譜聚類，分層次聚類等，從而得到每個話者的音頻。
72.上述過程中，均勻切割得到的等長片段一般比較短，數量多，由此計算量大，而且每個片段含有的有效信息比較少、且零碎，不完整；另外，由于現有的話者分離方案中沒有較好的對話者變化點進行檢測，而是假設均勻切割得到的每個片段只有一個話者，這與實際情況存在一定的誤差；再者，采用上述傳統的聚類方法對話者特征進行聚類時，沒有增加額外的約束，準確性有所限制。
73.為此，本公開一示例提供了一種話者分離方法，如圖1所示，該方法包括：
74.步驟101，對目標音頻進行分幀，得到多個連續的音頻幀。
75.在該示例中，目標音頻包含了多個話者的語音，在進行話者分離時，事先并不知道各話者的身份。
76.音頻數據和視頻數據不同，沒有幀的概念，但是為了傳輸與存儲，采集的音頻數據都是一段一段的。為了計算機程序能夠進行批量處理，可根據指定的長度(時間段或者采樣數)進行分段，結構化為編程的數據結構，即分幀。本公開中，對目標音頻進行分幀所采用的每幀的時長和幀移不做限制。
77.進行分幀后，得到多個連續的音頻幀。
78.步驟102，根據當前音頻幀的音頻特征和上一個音頻幀的語義信息，通過變化點預測模型預測當前音頻幀的語義信息和話者變化點信息。
79.本公開示例中，提供了一種變化點預測模型，可結合音頻數據的語義信息進行話者變化點的預測。變化點預測模型可采用transformer transducer、gmm-hmm、lstm-ctc或chain等模型來實現話者變化點的預測。變化點預測模型的輸入為上一幀的語義信息和當前幀的音頻特征，輸出為當前幀的語義信息和話者變化點信息。
80.上述，音頻特征可以為mfcc特征、plp特征或fbank特征等。
81.話者變化點信息可包括話者變化點的概率，還可包括話者變化點對應的時間信息。由于目標音頻持續的時長、每幀的時長、幀移是已知的，話者變化點是與音頻幀對應的，那么話者變化點對應的時間信息即為該音頻幀的時間信息，包括開始時間、持續時長和/或結束時間等。
82.語義信息可為音素、單詞、詞組或句子等信息。
83.在示例中，由于話者變化點是根據語義信息預測得到的，因此，話者變化點的預測結果的準確性得到了提升。
84.步驟103，根據語義信息和話者變化點信息對目標音頻進行分割，得到多個音頻片段。
85.通過變化點預測模型預測得到每個音頻幀的語義信息和話者變化點信息，基于此，可以實現對目標音頻進行分割。分割得到的音頻片段的長短不一，每個音頻片段僅包含一個話者的語音。
86.由于話者變化點是根據語義信息預測得到的，且音頻片段的分割也依據了語義信息，所以，音頻頻段的分割結果更合理，更符合實際情況，有助于后續提升音頻片段分類的準確性。
87.步驟104，確定音頻片段對應的第一相似性矩陣。
88.步驟105，根據話者變化點信息和第一相似性矩陣構建音頻片段對應的第二相似性矩陣。
89.步驟106，對第二相似性矩陣進行聚類，得到音頻片段按照話者分類的結果。
90.通過步驟104-106可知，本公開再次使用話者變化點信息對音頻片段的相似性矩陣進行了約束，將第一相似性矩陣優化為第二相似性矩陣，基于第二相似性矩陣進行聚類，由此得到的分類結果更加的準確。
91.本公開上述的示例中，基于語義信息進行話者變化點的預測，基于預測得到的話者變化點，再結合語義信息進行音頻的分割，由此，音頻片段被合理分割，每個音頻片段僅包含了一個話者的語音，更加符合實際情況，有利于提高按照話者對音頻片段進行分類的準確性，而非現有技術的均勻分割方式去假設每個音頻片段僅包含一個話者語音；且，相比現有技術中均勻分割把一個話者的語音拆分到不同的音頻片段中而言，本公開每個音頻片段被有監督的合理分割，其包含的話者語音數據更加的完整，有助于提取更為準確的話者特征，且減少了音頻片段數量，節省了計算量。另外，在對音頻片段進行聚類時，采用話者變化點信息進行約束，進一步的提高了分類的準確性。
92.在一個示例中，上述步驟102在進行當前音頻幀的語義信息和話者變化點信息預測時，若當前幀為多個連續的音頻幀中的第一個音頻幀，則根據當前幀的音頻特征和起始符，通過變化點預測模型預測當前音頻幀的語義信息和話者變化點信息。
93.因為當前幀為第一個音頻幀，所以不存在歷史的語義信息，那么在輸入變化點預測模型時，采用起始符和當前幀的音頻特征即可。這里的起始符為目標音頻開始的標識。
94.在一個示例中，上述步驟103根據語義信息和話者變化點信息對目標音頻進行分割，可采用如下的方式：
95.若連續的兩個音頻幀中的一個音頻幀的語義信息為空，則兩個音頻幀之間為分割點；
96.若一個音頻幀對應的話者變化點信息滿足設定條件，則該音頻幀和前一個音頻幀之間為分割點；這里，變化點信息滿足設定條件可為話者變化點的概率滿足閾值，通常，概率越高表示此處為兩個話者語音切換的幾率越高。
97.按照分割點對目標音頻進行分割。
98.例如，一段目標音頻分幀為10個音頻幀，編號為1-10。對幀進行遍歷，幀1-幀3有預測的語義信息，幀4預測的語義信息為空，那么，幀3和幀4之間為第1個分割點；幀5預測的語義信息為空，幀6有預測的語義信息，那么幀5和幀6之間為第2個分割點；幀7-幀10均有預測的語義信息，但是幀9對應的話者變化點的概率滿足了閾值，那么幀8和幀9之間為第3個分割點，由此可得到4個音頻片段：片段1(幀1-幀3)，片段2(幀4-幀5)，片段3(幀6-幀8)和片段4(幀9-幀10)。其中，只有片段2不包含語義信息。
99.綜上，當出現不包含語義信息的音頻幀時，不考慮話者變化點信息，即可進行分割；當包含語義信息的音頻幀的話者變化點滿足設定條件，則進行分割。
100.由于話者變化點是根據語義信息預測得到的，且音頻片段的分割也依據了語義信息，所以，音頻頻段的分割結果更合理，更符合實際情況，有助于后續提升音頻片段分類的準確性。
101.在一個示例中，按照分割點對目標音頻進行分割，得到多個音頻片段后，可從分割得到的多個音頻片段中選擇語義信息不為空的所有音頻片段，以確定語義信息不為空的所有音頻片段的第一相似性矩陣。例如，選擇上述的片段1、3和4進行第一相似性矩陣的計算。這是因為，第一相似性矩陣是用于對音頻片段進行分類，以將同一個話者的所有音頻片段找出來，而語義信息為空的片段即是不包含任何語音的片段，不需要進行聚類分析，因此，進行相似性矩陣的計算時，需要將不包含語音的片段濾除。
102.在一個示例中，上述步驟104確定所有音頻片段對應的第一相似性矩陣，如圖2所示，包括：
103.步驟201，通過特征編碼模型預測每個音頻片段的話者特征；
104.步驟202，基于話者特征，計算兩兩音頻片段之間的相似度，得到第一相似性矩陣。
105.在本公開中，提供了另一種特征編碼模型，以對音頻片段進行話者特征預測。首先，針對每個音頻片段，先進行分幀，進行音頻特征提取，將該音頻片段包含的所有音頻幀的音頻特征輸入特征編碼模型，預測得到該音頻片段對應的話者特征。
106.這里，話者特征可為x-vector特征或d-vector特征，每個音頻片段得到一個話者特征(向量)。n個音頻片段即可得到n個話者特征，計算兩兩之間的相似度，從而可構建一個nxn的相似性矩陣。以上述片段1、3、4為例，構建的3x3的第一相似性矩陣為：其中，a
11
表示片段1和片段1的相似度，a
13
表示片段1和片段3的相似度，a
14
表示片段1和片段4的相似度，以此類推。
107.本公開每個音頻片段被有監督的合理分割，其包含的話者語音數據更加的完整，基于此提取出的話者特征更加精準。
108.上述對每個音頻片段進行分幀，進行音頻特征提取的方式可與步驟101中對目標音頻進行分幀、進行音頻特征提取的方式相同。還可以直接復用對目標音頻的分幀結果和音頻特征提取結果，這取決于話者變化點預測模型和特征編碼模型在訓練時采用的分幀方式和音頻特征提取方式也相同，否則采用各自適用的分幀方式和音頻特征方式。
109.在一個示例中，上述根據話者變化點信息和第一相似性矩陣構建音頻片段對應的第二相似性矩陣，如圖3所示，包括：
110.步驟301，根據話者變化點信息構建第一約束矩陣，并對第一相似性矩陣進行標準化處理，得到標準化相似性矩陣。
111.在一個示例中，第一約束矩陣記為q，第一約束矩陣的行數和列數均為語義信息不為空的音頻片段的數量，第一約束矩陣中的元素用于表示兩個音頻片段之間是否連接和/或是否相鄰。如上所述，片段1、3和4的語義信息不為空，則針對片段1、3和4構建一個3x3的第一約束矩陣為：q
11
表示片段1和片段1是否相鄰和/或是否連接，q
13
表示片段1和片段3是否相鄰和/或是否連接，q
14
表示片段1和片段4是否相鄰和/或是否連接，以此類推。
112.該示例中，將第一相似性矩陣記為a，對a進行標準化得到標準化相似性矩陣，記為矩陣標準化可采用如下的公式：其中，d為a的度矩陣。
113.步驟302，基于標準化相似性矩陣和第一約束矩陣構建第二約束矩陣。
114.可采用如下公式計算第二約束矩陣記為q
*
：
115.其中，i為單位矩陣，α是系數因子，一般可取0.4，本公開對于α的取值不做限制。
116.步驟303，根據第二約束矩陣和第一相似性矩陣構建第二相似性矩陣。
117.可采用如下公式計算第二相似性矩陣
[0118][0119]
其中i為矩陣中的第i行，j為矩陣中的第j列。
[0120]
在一個示例中，根據話者變化點信息構建第一約束矩陣q，包括：
[0121]
若當前音頻片段和相鄰的下一個音頻片段之間存在語義為空的音頻片段，則判斷語義為空的音頻片段對應的話者變化點信息是否滿足設定條件，若不滿足設定條件，確定當前音頻片段和下一個音頻片段之間連接，若滿足設定條件，確定當前音頻片段和下一個音頻片段之間不連接；
[0122]
若當前音頻片段和相鄰的下一個音頻片段之間不存在語義為空的音頻片段，則確定當前音頻片段和下一個音頻片段之間不連接；
[0123]
根據兩個相鄰音頻片段之間是否連接，構建第一約束矩陣。
[0124]
需要指出的是，判斷語義為空的音頻片段對應的話者變化點信息是否滿足設定條件，該設定條件與上述在確定分割點時所采用的設定條件相同。在一個示例中，話者變化點概率滿足閾值，可確定為滿足設定條件，話者變化點概率不滿足閾值，可確定為不滿足設定條件。
[0125]
以上述矩陣第一約束矩陣為例，其中，將片段2從4個片段中
剔除后，片段1和片段3相鄰，片段3和片段4相鄰，片段1和片段3之間存在語義信息為空的片段2，那么計算片段2的話者變化點概率，片段2包括2個音頻幀(幀4和幀5)，在一個示例中，取幀4和幀5的話者變化點概率的平均值，將該平均值作為片段2的話者變化點概率，假設不滿足閾值，則認為片段1和片段3需要連接，相應的，q
13
和q
31
的值設置為1；片段3和片段4之間本身就是連續的，不存在語義為空的音頻片段，則認為片段3和片段4不需要連接，這是因為片段3和片段4在分割時是依據幀9的話者變化點概率進行的，由于幀9的話者變化點概率滿足了閾值，相當于片段3和片段4不屬于一個話者，相應的q
34
和q
43
的值可設置為-1。而片段1和片段4不相鄰，則q
14
和q
41
的值可設置為0。另外，q
11
、q
33
和q
44
分別表示片段1自身、片段3自身、片段4自身，則可分別設置為1，從而得到的第一約束矩陣為：
[0126]
需要指出的是，第一約束矩陣q中各元素的值有三種情況，連接(1)、不連接(-1)和不相鄰(0)。而在對第一約束矩陣q進行優化得到的第二約束矩陣q
*
中，各元素的值滿足q
*ij
≥0或q
*ij
《0，其中大于等于0的情況不僅限于1，小于0的情況也不僅限于-1。
[0127]
上述示例中，基于話者變化點構建約束矩陣，對音頻片段的相似性矩陣進行優化，實際是將相似度高的音頻片段之間的相似度進一步擴大，將相似度低的音頻片段之間的相似度進一步縮小，從而得到了第二相似性矩陣。基于此第二相似性矩陣得到的分類結果更加的準確。
[0128]
在一個示例中，步驟106對第二相似性矩陣進行聚類的過程可采用譜聚類、k-means、分層次聚類等方式，本公開對此不再贅述。
[0129]
為了實現上述的話者變化點預測，如圖4所示，本公開提供一種模型的訓練方法，用于得到變化點預測模型，該方法包括：
[0130]
步驟401，采集多條樣本音頻數據。
[0131]
這些樣本音頻數據可為不同話者的語音，每條樣本音頻數據至少包含2個話者的語音。
[0132]
步驟402，獲取每條樣本音頻數據的音頻特征，并對每條樣本音頻數據進行話者變化點標注。
[0133]
對每條樣本音頻數據進行分幀，并提取音頻特征，具體的可采用上述的分幀方式和音頻特征提取方式，此處不再贅述。
[0134]
對每條樣本音頻數據進行話者變化點標注，這里話者變化點表示話者發生了切換。
[0135]
步驟403，對每條樣本音頻數據進行轉化，得到對應的樣本文本數據，并對樣本文本數據進行語義標注。
[0136]
本公開結合音頻數據的語義信息進行話者變化點模型的訓練，需要對樣本音頻數據進行轉化，得到對應的樣本文本數據，并對樣本文本數據進行語義標注，作為話者變化點模型的輸入。
[0137]
本公開對于語義標注和話者變化點標注的方式不做限制。
[0138]
步驟404，根據語義標注的樣本文本數據、音頻特征和標注的話者變化點對變化點預測模型進行訓練直至收斂。
[0139]
針對一條樣本音頻數據的訓練過程包括：
[0140]
1、根據語義標注的樣本文本數據和音頻特征，通過變化點預測模型對樣本音頻數據進行話者變化點預測；
[0141]
2、根據標注的話者變化點和預測到的話者變化點計算損失值，這里損失值的計算可以采用損失函數可采用rnn-t(recurrent neural network transducer)；
[0142]
3、依據損失值對變化點預測模型的參數進行調整。
[0143]
重復該訓練過程，直至模型收斂。
[0144]
該模型訓練過程中，數據的標注成本降低，傳統的端到端話者變化點檢測模型，需要標注各個人的每個片段的起始終止時間，而本公開中結合語義信息來識別變化點，只需要標注文本的語義信息以及說話人變化點即可。
[0145]
為了實現上述的話者特征提取，本公開還提供了一種特征編碼模型的訓練方法，包括，采集不同話者的語音作為樣本音頻數據，每條樣本音頻數據僅包含1名話者的語音。對樣本音頻數據進行預處理，包括去除噪聲(包括環境噪聲，忙音，彩鈴聲，靜音等)，得到干凈的音頻，再對音頻進行分幀，每幀提取低級特征(即上述的mfcc等音頻特征)，輸入到特征編碼模型。特征編碼模型包括多層lstm(long-short term memory，長短時記憶模型)、linear映射層和fc(fullconnection，全連接層)。通過lstm和linear映射層可提取出話者特征(x-vector或d-vector)，再通過fc層進行前向計算，預測出話者的概率；然后，根據交叉熵計算話者預測的損失值，反向根據sgd(隨機梯度下降)準則更新特征編碼模型的參數，對每條樣本音頻數據該過程，使模型迭代至收斂。
[0146]
在上述的話者分離方法中，通過收斂的特征編碼模型對音頻片段進行話者特征提取，僅利用lstm和linear映射層即可。
[0147]
為了實現上述話者分離方法，如圖5所示，本公開還提供了一種話者分離裝置，包括：
[0148]
分幀模塊10，用于對目標音頻進行分幀，得到多個連續的音頻幀；
[0149]
變化點預測模塊20，用于根據當前音頻幀的音頻特征和上一個音頻幀的語義信息，通過變化點預測模型預測當前音頻幀的語義信息和話者變化點信息；
[0150]
切分模塊30，用于根據語義信息和話者變化點信息對目標音頻進行分割，得到多個音頻片段；
[0151]
相似性計算模塊40，用于確定音頻片段對應的第一相似性矩陣；
[0152]
約束模塊50，用于根據話者變化點信息和第一相似性矩陣構建音頻片段對應的第二相似性矩陣；
[0153]
聚類模塊60，對第二相似性矩陣進行聚類，得到音頻片段按照話者分類的結果。
[0154]
根據權利要求1所述的方法，其中，若所述當前幀為所述多個連續的音頻幀中的第一個音頻幀，則根據所述當前幀的音頻特征和起始符，通過變化點預測模型預測當前音頻幀的語義信息和話者變化點信息。
[0155]
在一個示例中，變化點預測模塊20還用于，若所述當前幀為所述多個連續的音頻幀中的第一個音頻幀，則根據所述當前幀的音頻特征和起始符，預測當前音頻幀的語義信息和話者變化點信息。
[0156]
在一個示例中，切分模塊30還用于，若連續的兩個音頻幀中的一個音頻幀的語義
信息為空，則所述兩個音頻幀之間為分割點；若一個音頻幀對應的話者變化點信息滿足設定條件，則該音頻幀和前一個音頻幀之間為分割點；按照所述分割點對所述目標音頻進行分割。
[0157]
在一個示例中，切分模塊30還用于，按照所述分割點對所述目標音頻進行分割，得到多個音頻片段后，選擇語義信息不為空的所有音頻片段；
[0158]
相應的，相似性計算模塊40，還用于確定語義信息不為空的所有音頻片段的第一相似性矩陣。
[0159]
在一個示例中，如圖6所示，該裝置還包括：特征提取模塊70，用于通過特征編碼模型提取每個所述音頻片段的話者特征；
[0160]
相似性計算模塊40還用于，基于所述話者特征，計算兩兩音頻片段之間的相似度，得到第一相似性矩陣。
[0161]
在一個示例中，約束模塊50，還用于根據話者變化點信息構建第一約束矩陣，并對所述第一相似性矩陣進行標準化處理，得到標準化相似性矩陣；基于所述標準化相似性矩陣和所述第一約束矩陣構建第二約束矩陣；根據所述第二約束矩陣和所述第一相似性矩陣構建第二相似性矩陣。
[0162]
其中，所述第一約束矩陣的行數和列數均為語義信息不為空的音頻片段的數量，所述第一約束矩陣中的元素用于表示兩個音頻片段之間是否可以連接以及是否相鄰。
[0163]
在一個示例中，約束模塊50，構建第一約束矩陣時，還用于若當前音頻片段和相鄰的下一個音頻片段之間存在語義為空的音頻片段，則判斷語義為空的音頻片段對應的話者變化點信息是否滿足設定條件，若不滿足設定條件，確定所述當前音頻片段和下一個音頻片段之間連接，若滿足設定條件，確定當前音頻片段和下一個音頻片段之間不連接，
[0164]
若當前音頻片段和相鄰的下一個音頻片段之間不存在語義為空的音頻片段，則確定當前音頻片段和下一個音頻片段之間不連接；
[0165]
根據兩個相鄰音頻片段之間是否連接，構建所述第一約束矩陣。
[0166]
為了實現上述模型的訓練方法，本公開一示例提供了一種模型的訓練裝置，如圖7所示包括：
[0167]
數據采集模塊701，用于采集多條樣本音頻數據；
[0168]
特征提取模塊702，用于獲取每條所述樣本音頻數據的音頻特征；
[0169]
第一標注模塊703，用于對每條所述樣本音頻數據進行話者變化點標注；
[0170]
第二標注模塊704，用于對每條所述樣本音頻數據進行轉化，得到對應的樣本文本數據，并對所述樣本文本數據進行語義標注；
[0171]
訓練模塊705，用于根據所述語義標注的樣本文本數據、所述音頻特征和所述標注的話者變化點對變化點預測模型進行訓練直至收斂。
[0172]
其中，根據所述語義標注的樣本文本數據、所述音頻特征和所述標注的話者變化點對變化點預測模型進行訓練時，訓練模塊705，還用于根據所述語義標注的樣本文本數據和所述音頻特征，通過變化點預測模型對所述樣本音頻數據進行話者變化點預測；根據標注的話者變化點和預測到的話者變化點計算損失值；依據所述損失值對所述變化點預測模型的參數進行調整。
[0173]
本公開的技術方案中，所涉及的用戶個人信息的獲取，存儲和應用等，均符合相關
法律法規的規定，且不違背公序良俗。
[0174]
根據本公開的實施例，本公開還提供了一種電子設備，包括
[0175]
至少一個處理器；以及
[0176]
與所述至少一個處理器通信連接的存儲器；其中，
[0177]
所述存儲器存儲有可被所述至少一個處理器執行的指令，所述指令被所述至少一個處理器執行，以使所述至少一個處理器能夠執行上述的話者分離方法和/或模型的訓練方法。
[0178]
根據本公開的實施例，本公開還提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質，其中，所述計算機指令用于使所述計算機執行上述的話者分離方法和/或模型的訓練方法。
[0179]
根據本公開的實施例，本公開還提供了一種計算機程序產品，包括計算機程序，所述計算機程序在被處理器執行上述的話者分離方法和/或模型的訓練方法。
[0180]
圖8示出了可以用來實施本公開的實施例的示例電子設備800的示意性框圖。電子設備旨在表示各種形式的數字計算機，諸如，膝上型計算機、臺式計算機、工作臺、個人數字助理、服務器、刀片式服務器、大型計算機、和其它適合的計算機。電子設備還可以表示各種形式的移動裝置，諸如，個人數字處理、蜂窩電話、智能電話、可穿戴設備和其它類似的計算裝置。本文所示的部件、它們的連接和關系、以及它們的功能僅僅作為示例，并且不意在限制本文中描述的和/或者要求的本公開的實現。
[0181]
如圖8所示，設備800包括計算單元801，其可以根據存儲在只讀存儲器(rom)802中的計算機程序或者從存儲單元808加載到隨機訪問存儲器(ram)803中的計算機程序，來執行各種適當的動作和處理。在ram 803中，還可存儲設備800操作所需的各種程序和數據。計算單元801、rom 802以及ram 803通過總線804彼此相連。輸入/輸出(i/o)接口805也連接至總線804。
[0182]
設備800中的多個部件連接至i/o接口805，包括：輸入單元806，例如鍵盤、鼠標等；輸出單元807，例如各種類型的顯示器、揚聲器等；存儲單元808，例如磁盤、光盤等；以及通信單元809，例如網卡、調制解調器、無線通信收發機等。通信單元809允許設備800通過諸如因特網的計算機網絡和/或各種電信網絡與其他設備交換信息/數據。
[0183]
計算單元801可以是各種具有處理和計算能力的通用和/或專用處理組件。計算單元801的一些示例包括但不限于中央處理單元(cpu)、圖形處理單元(gpu)、各種專用的人工智能(ai)計算芯片、各種運行機器學習模型算法的計算單元、數字信號處理器(dsp)、以及任何適當的處理器、控制器、微控制器等。計算單元801執行上文所描述的各個方法和處理，例如話者分離方法和/或模型的訓練方法。例如，在一些實施例中，話者分離方法和/或模型的訓練方法可被實現為計算機軟件程序，其被有形地包含于機器可讀介質，例如存儲單元808。在一些實施例中，計算機程序的部分或者全部可以經由rom 802和/或通信單元809而被載入和/或安裝到設備800上。當計算機程序加載到ram 803并由計算單元801執行時，可以執行上文描述的話者分離方法和/或模型的訓練方法的一個或多個步驟。備選地，在其他實施例中，計算單元801可以通過其他任何適當的方式(例如，借助于固件)而被配置為執行上述的話者分離方法和/或模型的訓練方法。
[0184]
本文中以上描述的系統和技術的各種實施方式可以在數字電子電路系統、集成電
路系統、場可編程門陣列(fpga)、專用集成電路(asic)、專用標準產品(assp)、芯片上系統的系統(soc)、負載可編程邏輯設備(cpld)、計算機硬件、固件、軟件、和/或它們的組合中實現。這些各種實施方式可以包括：實施在一個或者多個計算機程序中，該一個或者多個計算機程序可在包括至少一個可編程處理器的可編程系統上執行和/或解釋，該可編程處理器可以是專用或者通用可編程處理器，可以從存儲系統、至少一個輸入裝置、和至少一個輸出裝置接收數據和指令，并且將數據和指令傳輸至該存儲系統、該至少一個輸入裝置、和該至少一個輸出裝置。
[0185]
用于實施本公開的方法的程序代碼可以采用一個或多個編程語言的任何組合來編寫。這些程序代碼可以提供給通用計算機、專用計算機或其他可編程數據處理裝置的處理器或控制器，使得程序代碼當由處理器或控制器執行時使流程圖和/或框圖中所規定的功能/操作被實施。程序代碼可以完全在機器上執行、部分地在機器上執行，作為獨立軟件包部分地在機器上執行且部分地在遠程機器上執行或完全在遠程機器或服務器上執行。
[0186]
在本公開的上下文中，機器可讀介質可以是有形的介質，其可以包含或存儲以供指令執行系統、裝置或設備使用或與指令執行系統、裝置或設備結合地使用的程序。機器可讀介質可以是機器可讀信號介質或機器可讀儲存介質。機器可讀介質可以包括但不限于電子的、磁性的、光學的、電磁的、紅外的、或半導體系統、裝置或設備，或者上述內容的任何合適組合。機器可讀存儲介質的更具體示例會包括基于一個或多個線的電氣連接、便攜式計算機盤、硬盤、隨機存取存儲器(ram)、只讀存儲器(rom)、可擦除可編程只讀存儲器(eprom或快閃存儲器)、光纖、便捷式緊湊盤只讀存儲器(cd-rom)、光學儲存設備、磁儲存設備、或上述內容的任何合適組合。
[0187]
為了提供與用戶的交互，可以在計算機上實施此處描述的系統和技術，該計算機具有：用于向用戶顯示信息的顯示裝置(例如，crt(陰極射線管)或者lcd(液晶顯示器)監視器)；以及鍵盤和指向裝置(例如，鼠標或者軌跡球)，用戶可以通過該鍵盤和該指向裝置來將輸入提供給計算機。其它種類的裝置還可以用于提供與用戶的交互；例如，提供給用戶的反饋可以是任何形式的傳感反饋(例如，視覺反饋、聽覺反饋、或者觸覺反饋)；并且可以用任何形式(包括聲輸入、語音輸入或者、觸覺輸入)來接收來自用戶的輸入。
[0188]
可以將此處描述的系統和技術實施在包括后臺部件的計算系統(例如，作為數據服務器)、或者包括中間件部件的計算系統(例如，應用服務器)、或者包括前端部件的計算系統(例如，具有圖形用戶界面或者網絡瀏覽器的用戶計算機，用戶可以通過該圖形用戶界面或者該網絡瀏覽器來與此處描述的系統和技術的實施方式交互)、或者包括這種后臺部件、中間件部件、或者前端部件的任何組合的計算系統中。可以通過任何形式或者介質的數字數據通信(例如，通信網絡)來將系統的部件相互連接。通信網絡的示例包括：局域網(lan)、廣域網(wan)和互聯網。
[0189]
計算機系統可以包括客戶端和服務器。客戶端和服務器一般遠離彼此并且通常通過通信網絡進行交互。通過在相應的計算機上運行并且彼此具有客戶端-服務器關系的計算機程序來產生客戶端和服務器的關系。服務器可以是云服務器，也可以為分布式系統的服務器，或者是結合了區塊鏈的服務器。
[0190]
應該理解，可以使用上面所示的各種形式的流程，重新排序、增加或刪除步驟。例如，本發公開中記載的各步驟可以并行地執行也可以順序地執行也可以不同的次序執行，
只要能夠實現本公開公開的技術方案所期望的結果，本文在此不進行限制。
[0191]
上述具體實施方式，并不構成對本公開保護范圍的限制。本領域技術人員應該明白的是，根據設計要求和其他因素，可以進行各種修改、組合、子組合和替代。任何在本公開的精神和原則之內所作的修改、等同替換和改進等，均應包含在本公開保護范圍之內。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：趙情恩
技術所有人：北京百度網訊科技有限公司
我是此專利的發明人

上一篇：一種HPLC智能表計高級功能檢測平臺的制作方法
下一篇：一種神經外科部分癱瘓患者自主清洗裝置的制作方法

網友詢問留言留言:0條

還沒有人留言評論。精彩留言會獲得點贊！

文明留言，給您點贊！

同類技術