本發明涉及人工智能的聲紋識別領域,尤其涉及一種聲紋識別方法、裝置、設備及存儲介質。
背景技術:
聲紋識別是生物識別技術的一種,也稱為說話人識別,分為說話對象識別和說話對象辨認。目前常用的聲紋識別系統包括傳統的基于特征工程的i-vector淺層網絡系統和x-vector深度網絡系統,以及近年來主流的的端到端d-vector深度網絡系統等。這些系統基本上都是通過捕捉說話對象聲音的長時特征,將其編碼到低維向量表示來有效解決識別問題。具體來說,將說話隨想的語音信息通過網絡的逐層嵌入最終獲得具有固定維度的向量(如512維),然后計算不同說話對象的向量表示間的余弦相似度,進而完成說話對象的辨認和確認等操作。
目前端到端的聲紋識別系統,諸如google的ge2e系統,雖然可以完美實現端到端的聲紋任務的訓練和推理,但是這些系統的損失函數并沒有對聲音對聲音的信道信息中的噪聲進行處理,導致深度網絡在訓練過程中無法感知到信道的相關信息,進而深度網絡在訓練過后識別到聲紋信息的準確度低下。
技術實現要素:
本發明的主要目的在于解決在聲紋識別過程中識別準確度低下的問題。
本發明第一方面提供了一種聲紋識別方法,包括:獲取待識別的目標語音信息集合,所述目標語音信息集合包括至少一個對象所對應的語音信息,所述語音信息是經過預處理過后得到的;利用預置算法在所述目標語音信息集合中抽取目標特征信息,并根據第一損失函數優化所述目標特征信息,得到第一聲紋識別結果;獲取目標語音信道的目標語音信道信息,所述目標語音信道信息包括信道噪聲信息,所述目標語音信道用于傳輸所述目標語音信息集合;抽取所述信道噪聲信息中的目標特征向量,并根據第二損失函數優化所述目標特征向量,得到第二聲紋識別結果;將所述第一聲紋識別結果與所述第二聲紋識別結果融合,確定最終的聲紋識別結果。
可選的,在本發明第一方面的第一種實現方式中,所述目標語音信息集合存儲于區塊鏈中,所述利用預置算法在所述目標語音信息集合中抽取目標特征信息,并根據第一損失函數優化所述目標特征信息,得到第一聲紋識別結果包括:利用預置算法在所述目標語音信息集合中抽取目標特征信息;根據預置公式計算所述目標特征信息的相似度矩陣,得到所述目標特征信息的映射信息;基于所述映射信息與第一損失函數優化所述目標語音信息集合的損失,得到第一聲紋識別結果。
可選的,在本發明第一方面的第二種實現方式中,所述利用預置算法在所述目標語音信息集合中抽取目標特征信息包括:利用預置算法采集所述目標語音信息集合中的語音序列,并獲取所述語音序列的幅度譜;通過濾波器對所述語音序列的幅度譜進行濾波,得到語音序列的濾波輸出結果;對所述語音序列的濾波輸出結果進行離散余弦變換,得到目標特征信息。
可選的,在本發明第一方面的第三種實現方式中,所述根據預置公式計算所述目標特征信息的相似度矩陣,得到所述目標特征信息的映射信息包括:將目標特征信息轉化為低維向量,所述低維向量為采用低維度表示所述目標特征信息的向量;基于所述低維向量與預置公式計算所述目標特征信息的相似度矩陣,得到所述目標特征信息的映射信息。
可選的,在本發明第一方面的第四種實現方式中,所述抽取所述信道噪聲信息中的目標特征向量,并根據第二損失函數優化所述目標特征向量,得到第二聲紋識別結果包括:抽取所述信道噪聲信息中的目標特征向量,并計算所述目標特征向量的均值;根據所述目標特征向量的均值與第二損失函數計算信道噪聲信息的最小均方誤差矩陣,得到第二聲紋識別結果。
可選的,在本發明第一方面的第五種實現方式中,所述抽取所述目標語音信道信息中的目標特征向量,并根據第二損失函數優化所述目標特征向量,得到第二聲紋識別結果包括:獲取所述第一聲紋識別結果以及所述第二聲紋識別結果;利用融合公式將所述第一聲紋識別結果與所述第二聲紋識別結果融合,確定最終的聲紋識別結果,融合公式為:
在式中,l表示融合后的最終的聲紋識別結果,l1表示第一聲紋識別結果,l2表示第二聲紋識別結果,k表示聲紋識別對象,n表示每個聲紋識別對象的語音信息條數,γ表示調節因子。
可選的,在本發明第一方面的第六種實現方式中,所述獲取待識別的目標語音信息集合,所述目標語音信息集合包括至少一個對象所對應的語音信息,所述語音信息是經過預處理過后得到的包括:獲取待處理的語音信息,并利用預置處理公式對所述待處理的語音信息s(n)進行預加重,得到處理后的語音信息s'(n),所述預置處理公式為s'(n)=s(n)-as(n-1),其中a為預加重系數,s(n-1)為待處理的語音信息的上一條語音信息;將所述處理后的語音信息進行分幀處理,并對每幀所述處理后的語音信息進行加窗處理,得到目標語音信息集合,所述目標語音信息集合包括至少一個對象所對應的語音信息。
本發明第二方面提供了一種聲紋識別裝置,包括:第一獲取模塊,用于獲取待識別的目標語音信息集合,所述目標語音信息集合包括至少一個對象所對應的語音信息,所述語音信息是經過預處理過后得到的;第一優化模塊,用于利用預置算法在所述目標語音信息集合中抽取目標特征信息,并根據第一損失函數優化所述目標特征信息,得到第一聲紋識別結果;第二獲取模塊,用于獲取目標語音信道的目標語音信道信息,所述目標語音信道信息包括信道噪聲信息,所述目標語音信道用于傳輸所述目標語音信息集合;第二優化模塊,用于抽取所述信道噪聲信息中的目標特征向量,并根據第二損失函數優化所述目標特征向量,得到第二聲紋識別結果;融合模塊,用于將所述第一聲紋識別結果與所述第二聲紋識別結果融合,確定最終的聲紋識別結果。
可選的,在本發明第二方面的第一種實現方式中,所述第一優化模塊包括:抽取單元,用于利用預置算法在所述目標語音信息集合中抽取目標特征信息;計算單元,用于根據預置公式計算所述目標特征信息的相似度矩陣,得到所述目標特征信息的映射信息;優化單元,用于基于所述映射信息與第一損失函數優化所述目標語音信息集合的損失,得到第一聲紋識別結果。
可選的,在本發明第二方面的第二種實現方式中,所述抽取單元具體用于:利用預置算法采集所述目標語音信息集合中的語音序列,并獲取所述語音序列的幅度譜;通過濾波器對所述語音序列的幅度譜進行濾波,得到語音序列的濾波輸出結果;對所述語音序列的濾波輸出結果進行離散余弦變換,得到目標特征信息。
可選的,在本發明第二方面的第三種實現方式中,計算單元具體用于:將目標特征信息轉化為低維向量,所述低維向量為采用低維度表示所述目標特征信息的向量;基于所述低維向量與預置公式計算所述目標特征信息的相似度矩陣,得到所述目標特征信息的映射信息。
可選的,在本發明第二方面的第四種實現方式中,第二優化模塊具體用于:抽取所述信道噪聲信息中的目標特征向量,并計算所述目標特征向量的均值;根據所述目標特征向量的均值與第二損失函數計算信道噪聲信息的最小均方誤差矩陣,得到第二聲紋識別結果。
可選的,在本發明第二方面的第五種實現方式中,融合模塊具體用于:獲取所述第一聲紋識別結果以及所述第二聲紋識別結果;利用融合公式將所述第一聲紋識別結果與所述第二聲紋識別結果融合,確定最終的聲紋識別結果,融合公式為:
在式中,l表示融合后的最終的聲紋識別結果,l1表示第一聲紋識別結果,l2表示第二聲紋識別結果,k表示聲紋識別對象,n表示每個聲紋識別對象的語音信息條數,γ表示調節因子。
可選的,在本發明第二方面的第六種實現方式中,第一獲取模塊具體用于:獲取待處理的語音信息,并利用預置處理公式對所述待處理的語音信息s(n)進行預加重,得到處理后的語音信息s'(n),所述預置處理公式為s'(n)=s(n)-as(n-1),其中a為預加重系數,s(n-1)為待處理的語音信息的上一條語音信息;將所述處理后的語音信息進行分幀處理,并對每幀所述處理后的語音信息進行加窗處理,得到目標語音信息集合,所述目標語音信息集合包括至少一個對象所對應的語音信息。
本發明第三方面提供了一種聲紋識別設備,包括:存儲器和至少一個處理器,所述存儲器中存儲有指令,所述存儲器和所述至少一個處理器通過線路互連;所述至少一個處理器調用所述存儲器中的所述指令,以使得所述聲紋識別設備執行上述的聲紋識別方法。
本發明的第四方面提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質中存儲有指令,當其在計算機上運行時,使得計算機執行上述的聲紋識別方法。
本發明提供的技術方案中,獲取待識別的目標語音信息集合,所述目標語音信息集合包括至少一個對象所對應的語音信息,所述語音信息是經過預處理過后得到的;
利用預置算法在所述目標語音信息集合中抽取目標特征信息,并根據第一損失函數優化所述目標特征信息,得到第一聲紋識別結果;獲取目標語音信道的目標語音信道信息,所述目標語音信道信息包括信道噪聲信息,所述目標語音信道用于傳輸所述目標語音信息集合;抽取所述信道噪聲信息中的目標特征向量,并根據第二損失函數優化所述目標特征向量,得到第二聲紋識別結果;將所述第一聲紋識別結果與所述第二聲紋識別結果融合,確定最終的聲紋識別結果。本發明實施例中,服務器分別對目標語音信息集合和目標語音信道信息進行損失優化處理,再將損失優化處理后的第一聲紋識別結果以及第二聲紋識別結果融合在一起,使得深度網絡學習到語音信道噪聲消除的方法,提高聲紋識別準確度。
附圖說明
圖1為本發明實施例中聲紋識別方法的一個實施例示意圖;
圖2為本發明實施例中聲紋識別方法的另一個實施例示意圖;
圖3為本發明實施例中聲紋識別裝置的一個實施例示意圖;
圖4為本發明實施例中聲紋識別裝置的另一個實施例示意圖;
圖5為本發明實施例中聲紋識別設備的一個實施例示意圖。
具體實施方式
本發明實施例提供了一種聲紋識別方法、裝置、設備及存儲介質,通過分別對目標語音信息集合和目標語音信道信息進行損失優化處理,再將損失優化處理后的第一聲紋識別結果以及第二聲紋識別結果融合在一起,使得深度網絡學習到語音信道噪聲消除的方法,提高聲紋識別準確度。
本發明的說明書和權利要求書及上述附圖中的術語“第一”、“第二”、“第三”、“第四”等(如果存在)是用于區別類似的對象,而不必用于描述特定的順序或先后次序。應該理解這樣使用的數據在適當情況下可以互換,以便這里描述的實施例能夠以除了在這里圖示或描述的內容以外的順序實施。此外,術語“包括”或“具有”及其任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統、產品或設備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或對于這些過程、方法、產品或設備固有的其它步驟或單元。
為便于理解,下面對本發明實施例的具體流程進行描述,請參閱圖1,本發明實施例中聲紋識別方法的一個實施例包括:
101、獲取待識別的目標語音信息集合,目標語音信息集合包括至少一個對象所對應的語音信息,語音信息是經過預處理過后得到的;
可以理解的是,本發明的執行主體可以為聲紋識別裝置,還可以是終端或者服務器,具體此處不做限定。本發明實施例以服務器為執行主體為例進行說明。
服務器獲取待識別的目標語音信息集合,這里的目標語音信息集合中包括至少一個對象所對應的語音信息,一個對象的語音信息可以為一條或多條,這里并不對目標對象的數量以及目標對象的語音信息數量進行限定。此外這里的語音信息是經過預處理之后得到的。需要強調的是,為進一步保證上述目標語音信息集合的私密和安全性,上述目標語音信息集合還可以存儲于一區塊鏈的節點中。
需要說明的是,服務器在接收到一個對象的語音信號后需要對該語音信號進行預處理,經過預處理后的信號才能夠被更好的分析,令服務器最終識別到更精準的信息。這里的預處理指的是預加重、分幀以及加窗。這些操作的目的是消除因為人類發聲器官本身和由于采集語音信號的設備所帶來的混疊、高次諧波失真、高頻等等因素,對語音信號質量的影響。盡可能保證后續語音處理得到的信號更均勻、平滑,為信號參數提取提供優質的參數,提高語音處理質量。
102、利用預置算法在目標語音信息集合中抽取目標特征信息,并根據第一損失函數優化目標特征信息,得到第一聲紋識別結果;
服務器在獲取到預處理過后的目標語音信息集合后,利用預置算法在目標語音信息集合中抽取語音信息的目標特征信息,并根據第一損失函數優化抽取到的目標特征信息,從而得到第一聲紋識別結果。
可以理解的是,在語音信號中,包含著非常豐富的特征參數,不同的特征向量表征著不同的物理和聲學意義。服務器抽取的特征參數對聲紋識別系統的成敗意義重大,如果選擇了適合的特征參數,將有助于提高識別率。抽取目標特征信息就是要盡量取出或削減語音信號中與識別無關的信息的影響,減少后續識別階段需處理的數據量,生成表征語音信號中攜帶的聲紋識別對象信息的特征參數。根據語音特征的不同用途,需要提取不同的特征參數,從而保證識別的準確率。待抽取目標特征信息之后,服務器需要對該目標特征信息進行相似度矩陣的計算,得到相應的映射信息,令聲紋識別更加的精確,最后服務器利用映射信息與第一損失函數對損失進行優化,得到第一聲紋識別結果。
103、獲取目標語音信道的目標語音信道信息,目標語音信道信息包括信道噪聲信息,目標語音信道用于傳輸目標語音信息集合;
服務器獲取目標語音信道的目標語音信道信息,這里的目標語音信道是傳輸目標語音信息集合的通道,在傳輸的過程中信道中會產生一定的目標語音信道信息,也就是噪聲信息。
可以理解的是,聲紋識別對象的語音信息在信道中傳輸的過程中會有一定的噪聲影響,也就是信道噪聲,信道噪聲能夠干擾通信的效果,降低通信的可靠性,對聲紋識別結果造成重大的影響。因此在本申請中,在進行聲紋識別過程中對傳輸語音信息的通道進行處理,以減少噪聲的干擾。
104、抽取信道噪聲信息中的目標特征向量,并根據第二損失函數優化目標特征向量,得到第二聲紋識別結果;
服務器在獲取到目標語音信道中的目標語音信道信息后,也就是在目標語音信道的信道噪聲信息中抽取目標特征向量,并根據第二損失函數優化目標特征向量,從而得到第二聲紋識別結果。
需要說明的是,在進行優化目標語音信道信息時,大多數信號處理理論中將目標語音信道信息中的信道噪聲信息歸結為高斯白噪聲,這是語音信道的先驗信息,因此,這里利用的第二損失函數是最小均方誤差(minimummeansquarederror,mmse),mmse是將預測值和真值的誤差的平方的期望(均值)最小化,以使得預測值盡量逼近真值,和真值差距盡可能小,這種算法可以使預測模型在含噪數據中有好的精度(概率最大模型),達到f(x)=y。本申請中通過對目標語音信道信息中的信道噪聲進行優化,使得深度網絡學習到語音噪聲消除的方法,獲得更加精確的聲紋識別信息,即第二聲紋識別結果。
105、將第一聲紋識別結果與第二聲紋識別結果融合,確定最終的聲紋識別結果。
服務器將得到的第一聲紋識別結果與第二聲紋識別結果融合在一起,確定最終的聲紋識別結果。服務器將經過兩次優化的聲紋信息進行融合,得到更加精確的聲紋識別結果。
服務器在優化目標信道語音信息以及聲紋識別對象的語音信息后,基本上消除了識別聲紋信息時所產生的噪聲,服務器可以清晰的識別聲紋識別對象的語音信息,將兩者融合到一起,便可以得到最終的聲紋識別結果。
本發明實施例中,服務器分別對目標語音信息集合和目標語音信道信息進行損失優化處理,再將損失優化處理后的第一聲紋識別結果以及第二聲紋識別結果融合在一起,使得深度網絡學習到語音信道噪聲消除的方法,提高聲紋識別準確度。
請參閱圖2,本發明實施例中聲紋識別方法的另一個實施例包括:
201、獲取待識別的目標語音信息集合,目標語音信息集合包括至少一個對象所對應的語音信息,語音信息是經過預處理過后得到的;
服務器獲取待識別的目標語音信息集合,這里的目標語音信息集合中包括至少一個對象所對應的語音信息,一個對象的語音信息可以為一條或多條,這里并不對目標對象的數量以及目標對象的語音信息數量進行限定。此外這里的語音信息是經過預處理之后得到的。具體的:
首先,服務器獲取待處理的語音信息,并利用預置處理公式對待處理的語音信息s(n)進行預加重,得到處理后的語音信息s'(n),預置處理公式為s'(n)=s(n)-as(n-1),其中a為預加重系數,s(n-1)為待處理的語音信息的上一條語音信息;然后服務器對處理后的語音信息進行分幀處理,最后服務器對每幀處理后的語音信息進行加窗處理,最終得到目標語音信息集合,這里的目標語音信息集合中包括至少一個對象所對應的語音信息,一個對象的語音信息可以為一條或多條。
需要說明的是,服務器在接收到一個對象的語音信號后需要對該語音信號進行預處理,經過預處理后的信號才能夠被更好的分析,令服務器最終識別到更精準的信息。這里的預處理指的是預加重、分幀以及加窗。這些操作的目的是消除因為人類發聲器官本身和由于采集語音信號的設備所帶來的混疊、高次諧波失真、高頻等等因素,對語音信號質量的影響。盡可能保證后續語音處理得到的信號更均勻、平滑,為信號參數提取提供優質的參數,提高語音處理質量。
進一步說明的是,這里的預加重指的是,當語音信號s(n)的平均功率譜受聲門激勵和口鼻輻射的影響,高頻端大約在800hz以上按6db/oct(倍頻程)衰減,頻率越高相應的成分越小,為此要在對語音信號s(n)進行分析之前對其高頻部分加以提升。通常的措施是用數字濾波器實現預加重,預加重網絡的輸出和輸入的語音信號可以利用預置處理公式進行表示:s'(n)=s(n)-as(n-1),其中a為預加重系數,一般取0.9,s(n-1)為待處理的語音信息的上一條語音信息,s'(n)為處理后的語音信息。當語音信號經過加重處理后,由于語音信號具有時變特性,但是在一個短時間范圍內,其特性基本保持不變即相對穩定,因而可以將其看作是一個準穩態過程,即語音信號具有短時平穩性。所以任何語音信號的分析和處理必須建立在“短時”的基礎上,即進行“短時分析”,將語音信號分段來分析其特征參數,其中每一段稱為一“幀”,幀長一般取為10-30ms。這樣,對于整體的語音信號來講,分析出的是由每一幀特征參數組成的特征參數時間序列。服務器在進行分幀處理過后,還需要對語音信號進行加窗處理,加窗的目的是對抽樣n附近的語音波形加以強調而對波形的其余部分加以減弱。對語音信號的各個短段進行處理,實際上就是對各個短段進行某種變換或施以某種運算。用得最多的三種窗函數是矩形窗、漢明窗和漢寧窗,在本申請中,并不對所采用的窗函數進行限定,可以根據實際情況對窗函數進行選擇。
202、利用預置算法在目標語音信息集合中抽取目標特征信息;
服務器在獲取到目標語音信息集合后,在目標語音信息集合中抽取目標特征信息。具體的:
首先,服務器采用預置算法采集目標語音信息集合中的語音序列,同時獲取到語音序列的幅度譜;然后,服務器通過濾波器對語音序列的幅度譜進行濾波,得到語音序列的濾波輸出結果;最后,服務器對語音序列的濾波輸出結果進行離散余弦變換,最終得到目標特征信息。
這里服務器利用到的是頻率倒譜系數(melfrequencycepstrumcoefficient,mfcc)提取特征信息,依據mel頻率倒譜系數模擬人耳對不同頻率語音的感知,將語音信號中的目標特征信息提取出來。mel頻率是基于人耳聽覺特性提出來的,它與hz頻率成非線性對應關系,人耳分辨聲音頻率的過程就像一種取對數的操作,例如:在mel頻域內,人對音調的感知能力為線性關系,如果兩段語音的mel頻率差兩倍,則人在感知上也差兩倍。mfcc則是利用這種關系,計算得到的hz頻譜特征。mfcc參數是基于人的聽覺特性利用人聽覺的臨界帶效應,在mel標度頻率域提取出來的倒譜特征參數。
舉例來說,服務器首先利用預置算法采集目標語音信息集合中的語音序列x[n](n=1,2,…,n-1),并對語音序列作快速傅里葉變換:
其中n為幀長,j為虛數,x[k]為n點的復數系列,之后服務器再對x[k]取模得到語音序列的幅度譜;然后服務器配置一個三角形濾波器組,并計算每一個三角形濾波器對信號幅度譜濾波后的輸出,得到語音序列的濾波輸出結果:
wl(k)為對應
其中,q為目標特征信息的階數,一般取13,l為濾波器總數,l為濾波器的編號,n為幀長,f(l)為語音序列的濾波輸出結果,這樣就得到了目標特征信息。
203、根據預置公式計算目標特征信息的相似度矩陣,得到目標特征信息的映射信息;
服務器待獲取到目標語音信息集合中抽取目標特征信息之后,根據預置公式計算目標特征信息的相似度矩陣,從而得到目標特征信息的映射信息。
具體的:
服務器將獲取到的目標特征信息轉化為低維向量,低維向量為采用低維度表示目標特征信息的向量,服務器根據轉化的低維向量與預置公式計算目標特征信息的相似度矩陣,這里的相似度矩陣有多個,且計算相似度矩陣的對象可以相同也可不同,最終得到目標特征信息的映射信息。
服務器待提取完目標特征信息之后,會通過lstm或者其他神經網絡將目標特征信息轉化為低維向量,利用低維向量表示對應的目標特征信息,這樣將目標特征信息轉化為低維向量的方式,有利于相似度矩陣的計算。這里服務器計算的目標特征信息的相似度矩陣為對同一個聲紋識別對象不同語音信息之間的相似度矩陣,以及不同聲紋識別對象之間的相似度矩陣,服務器進行多個相似度矩陣的計算后就可以通過每個聲紋識別對象的相似度矩陣進行損失的優化。
204、基于映射信息與第一損失函數優化目標語音信息集合的損失,得到第一聲紋識別結果;
服務器根據目標特征信息的映射信息以及第一損失函數對目標語音信息集合進行損失優化,從而得到第一聲紋識別結果。
舉例來說,服務器獲取到三個不同聲紋識別對象,每個聲紋識別對象均有三條不同的語音信息,分別對語音信息進行預處理,得到目標語音信息集合,然后服務器利用預置公式計算目標特征信息的相似度矩陣,得到目標特征信息的映射信息,其中預置公式如下:
在式中,sji,k表示聲紋識別對象k的第j個聲紋識別對象的第i條語音信息的目標特征信息相似度矩陣,k表示聲紋識別對象,eji表示第j個聲紋識別對象的第i條語音信息,也就是目標特征信息轉化的低維向量,ω以及b是通過大量訓練得到的變量,m表示聲紋識別對象的數量,cj表示第j個聲紋識別對象除去第i條語音信息之后,其余語音信息的質心(平均值),其計算公式為:
在式中,m表示聲紋識別對象的數量,ejm表示第j個聲紋識別對象的第m條語音信息,最后服務器將第一損失函數與映射信息優化損失進行計算,這里的第一損失函數為:
在式中,sji,j是聲紋識別對象的第i條語音信息與該聲紋識別對象其他語音信息之間的相似度矩陣,sji,k表示聲紋識別對象的語音信息與其他聲紋識別對象的語音信息之間的相似度矩陣,n表示每個聲紋識別對象的語音信息條數,這樣服務器就計算得到了第一聲紋識別結果。
205、獲取目標語音信道的目標語音信道信息,目標語音信道信息包括信道噪聲信息,目標語音信道用于傳輸目標語音信息集合;
服務器獲取目標語音信道的目標語音信道信息,這里的目標語音信道是傳輸目標語音信息集合的通道,在傳輸的過程中信道中會產生一定的目標語音信道信息,也就是噪聲信息。
可以理解的是,聲紋識別對象的語音信息在信道中傳輸的過程中會有一定的噪聲影響,也就是信道噪聲,信道噪聲能夠干擾通信的效果,降低通信的可靠性,對聲紋識別結果造成重大的影響。因此在本申請中,在進行聲紋識別過程中對傳輸語音信息的通道進行處理,以減少噪聲的干擾。
206、抽取信道噪聲信息中的目標特征向量,并根據第二損失函數優化目標特征向量,得到第二聲紋識別結果;
服務器在獲取到目標語音信道中的目標語音信道信息后,也就是在目標語音信道信息的信道噪聲信息中抽取目標特征向量,并根據第二損失函數優化目標特征向量,從而得到第二聲紋識別結果。具體的:
服務器抽取目標語音信道信息中的目標特征向量,并計算多個目標特征向量的均值;然后服務器根據目標特征向量的均值與第二損失函數計算目標語音信道信息的最小均方誤差矩陣,進而得到第二聲紋識別結果。
需要說明的是,優化目標信道語音信息的步驟是在優化目標語音信息集合之后,因在開始進行優化目標語音信息集合的步驟時,網絡訓練的均值隨機性較強,優化目標信道語音信息的均值項無法被捕捉到,因此需要訓練多個優化目標語音信息集合的步驟之后再進行優化目標信道語音信息的步驟,這時的訓練網絡才會穩定下來,可以更好的進行信道噪聲的捕捉,具體進行多少步優化目標語音信息集合的步驟,需要根據具體情況進行分析。例如:當進行聲紋識別過程中,所有的訓練數據需要10w個訓練步驟完成時,可以在進行6w個訓練步驟后再開始進行目標信道語音信息的優化。
舉例說明,服務器在抽取目標語音信道信息中的目標特征向量之后,利用目標特征向量計算目標特征向量的均值,計算目標特征向量的均值公式為:
在式中,lcj,t為t步驟時的目標特征向量的均值,eji表示第j個聲紋識別對象的第i條語音信息,也就是目標特征向量,β表示加權系數,m表示每個聲紋識別對象的語音信息的條數,lcj,t-1為t-1步驟時的目標特征向量的均值;服務器在計算目標特征向量的均值后,再計算目標語音信道信息的最小均方誤差矩陣,計算最小均方誤差矩陣的公式如下:
在式中,mmsej表示最小均方差矩陣,lcj,t為t步驟時的目標特征向量的均值,m表示每個聲紋識別對象的語音信息的條數,eji表示第j個聲紋識別對象的第i條語音信息,μ表示縮放系數,θ表示偏置系數,兩者均是通過訓練得到的,一般的μ的初始值為1,θ的初始值為0,得到第二聲紋識別結果。
207、將第一聲紋識別結果與第二聲紋識別結果融合,確定最終的聲紋識別結果。
服務器將得到的第一聲紋識別結果與第二聲紋識別結果融合在一起,確定最終的聲紋識別結果。服務器將經過兩次優化的聲紋信息進行融合,得到更加精確的聲紋識別結果。具體的:
服務器分別獲取第一聲紋識別結果以及第二聲紋識別結果;然后服務器利用融合公式將第一聲紋識別結果與第二聲紋識別結果融合,確定最終的聲紋識別結果,融合公式為:
在式中,l表示聲紋識別融合后的結果,l1表示第一聲紋識別結果,l2表示第二聲紋識別結果,k表示聲紋識別對象,n表示每個聲紋識別對象的語音信息條數。
服務器在優化目標信道語音信息以及聲紋識別對象的語音信息后,基本上消除了識別聲紋信息時所產生的噪聲,服務器可以清晰的識別聲紋識別對象的語音信息,將兩者融合到一起,便可以得到最終的聲紋識別結果。
舉例說明,待服務器得到第一聲紋識別結果與第二聲紋識別結果之后,通過融合公式將兩者融合在一起,融合公式為:
在式中,l表示融合后的最終的聲紋識別結果,l1表示第一聲紋識別結果,l2表示第二聲紋識別結果,k表示聲紋識別對象,n表示每個聲紋識別對象的語音信息條數,γ表示調節因子。根據步驟204與步驟206分別得知,第一聲紋識別結果l1與第二聲紋識別結果l2的表達式,將兩者帶入融合公式中可得到:
在式中,l(eji)表示第j個聲紋識別對象的第i條語音信息的聲紋識別結果,sji,j表示聲紋識別對象的第i條語音信息與該聲紋識別對象其他語音信息的之間相似度矩陣,sji,k表示聲紋識別對象的語音信息與其他聲紋識別對象的語音信息之間的相似度矩陣,其中:
在式中,k表示聲紋識別對象,eji表示第j個聲紋識別對象的第i條語音信息,也就是目標特征信息轉化的低維向量,ω以及b是通過大量訓練得到的變量,cj表示第j個聲紋識別對象除去第i條語音信息之后,其余語音信息的質心(平均值),其計算公式為:
在式中,m表示聲紋識別對象的數量,ejm表示第j個聲紋識別對象的第m條語音信息,n表示每個聲紋識別對象的語音信息條數;γ表示調節因子,用來調節整體mmsej損失函數部分的大小;mmsej表示最小均方誤差矩陣,且mmsej的表達式如下:
在式中,μ表示縮放系數,θ表示偏置系數,m表示每個聲紋識別對象的語音信息的條數,eji表示第j個聲紋識別對象的第i條語音信息,lcj,t為t步驟時的目標特征向量的均值,其中lcj,t的表達式如下:
在式中,eji表示第j個聲紋識別對象的第i條語音信息,也就是目標特征向量,β表示加權系數,m表示每個聲紋識別對象的語音信息的條數,lcj,t-1為t步驟時的目標特征向量的均值,這樣就得到了最終的聲紋識別結果,進一步的優化了語音信息,從而識別到更精確的語音信息。
本發明實施例中,服務器分別對目標語音信息集合和目標語音信道信息進行損失優化處理,再將損失優化處理后的第一聲紋識別結果以及第二聲紋識別結果融合在一起,使得深度網絡學習到語音信道噪聲消除的方法,提高聲紋識別準確度。
上面對本發明實施例中聲紋識別方法進行了描述,下面對本發明實施例中聲紋識別裝置進行描述,請參閱圖3,本發明實施例中聲紋識別裝置一個實施例包括:
第一獲取模塊301,用于獲取待識別的目標語音信息集合,目標語音信息集合包括至少一個對象所對應的語音信息,語音信息是經過預處理過后得到的;
第一優化模塊302,用于利用預置算法在目標語音信息集合中抽取目標特征信息,并根據第一損失函數優化目標特征信息,得到第一聲紋識別結果;
第二獲取模塊303,用于獲取目標語音信道的目標語音信道信息,目標語音信道信息包括信道噪聲信息,目標語音信道用于傳輸目標語音信息集合;
第二優化模塊304,用于抽取信道噪聲信息中的目標特征向量,并根據第二損失函數優化目標特征向量,得到第二聲紋識別結果;
融合模塊305,用于將第一聲紋識別結果與第二聲紋識別結果融合,確定最終的聲紋識別結果。
本發明實施例中,服務器分別對目標語音信息集合和目標語音信道信息進行損失優化處理,再將損失優化處理后的第一聲紋識別結果以及第二聲紋識別結果融合在一起,使得深度網絡學習到語音信道噪聲消除的方法,提高聲紋識別準確度。需要強調的是,為進一步保證上述目標語音信息集合的私密和安全性,上述目標語音信息集合還可以存儲于一區塊鏈的節點中。
請參閱圖4,本發明實施例中聲紋識別裝置的另一個實施例包括:
第一獲取模塊301,用于獲取待識別的目標語音信息集合,目標語音信息集合包括至少一個對象所對應的語音信息,語音信息是經過預處理過后得到的;
第一優化模塊302,用于利用預置算法在目標語音信息集合中抽取目標特征信息,并根據第一損失函數優化目標特征信息,得到第一聲紋識別結果;
第二獲取模塊303,用于獲取目標語音信道的目標語音信道信息,目標語音信道信息包括信道噪聲信息,目標語音信道用于傳輸目標語音信息集合;
第二優化模塊304,用于抽取信道噪聲信息中的目標特征向量,并根據第二損失函數優化目標特征向量,得到第二聲紋識別結果;
融合模塊305,用于將第一聲紋識別結果與第二聲紋識別結果融合,確定最終的聲紋識別結果。
可選的,第一優化模塊302包括:
抽取單元3021,用于利用預置算法在目標語音信息集合中抽取目標特征信息;
計算單元3022,用于根據預置公式計算目標特征信息的相似度矩陣,得到目標特征信息的映射信息;
優化單元3023,用于基于映射信息與第一損失函數優化目標語音信息集合的損失,得到第一聲紋識別結果。
可選的,抽取單元3021還可以具體用于:
利用預置算法采集目標語音信息集合中的語音序列,并獲取語音序列的幅度譜;
通過濾波器對語音序列的幅度譜進行濾波,得到語音序列的濾波輸出結果;
對語音序列的濾波輸出結果進行離散余弦變換,得到目標特征信息。
可選的,計算單元3022還可以具體用于:
將目標特征信息轉化為低維向量,低維向量為采用低維度表示目標特征信息的向量;
基于低維向量與預置公式計算目標特征信息的相似度矩陣,得到目標特征信息的映射信息。
可選的,第二優化模塊304還可以具體用于:
抽取信道噪聲信息中的目標特征向量,并計算目標特征向量的均值;
根據目標特征向量的均值與第二損失函數計算信道噪聲信息的最小均方誤差矩陣,得到第二聲紋識別結果。
可選的,融合模塊305還可以具體用于:
獲取第一聲紋識別結果以及第二聲紋識別結果;
利用融合公式將第一聲紋識別結果與第二聲紋識別結果融合,確定最終的聲紋識別結果,融合公式為:
在式中,l表示融合后的最終的聲紋識別結果,l1表示第一聲紋識別結果,l2表示第二聲紋識別結果,k表示聲紋識別對象,n表示每個聲紋識別對象的語音信息條數,γ表示調節因子。
可選的,第一獲取模塊301還可以具體用于:
獲取待處理的語音信息,并利用預置處理公式對待處理的語音信息s(n)進行預加重,得到處理后的語音信息s'(n),預置處理公式為s'(n)=s(n)-as(n-1),其中a為預加重系數,s(n-1)為待處理的語音信息的上一條語音信息;
將處理后的語音信息進行分幀處理,并對每幀處理后的語音信息進行加窗處理,得到目標語音信息集合,目標語音信息集合包括至少一個對象所對應的語音信息。
本發明實施例中,服務器分別對目標語音信息集合和目標語音信道信息進行損失優化處理,再將損失優化處理后的第一聲紋識別結果以及第二聲紋識別結果融合在一起,使得深度網絡學習到語音信道噪聲消除的方法,提高聲紋識別準確度。
上面圖3和圖4從模塊化功能實體的角度對本發明實施例中的聲紋識別裝置進行詳細描述,下面從硬件處理的角度對本發明實施例中聲紋識別設備進行詳細描述。
圖5是本發明實施例提供的一種聲紋識別設備的結構示意圖,該聲紋識別設備500可因配置或性能不同而產生比較大的差異,可以包括一個或一個以上處理器(centralprocessingunits,cpu)510(例如,一個或一個以上處理器)和存儲器520,一個或一個以上存儲應用程序533或數據532的存儲介質530(例如一個或一個以上海量存儲設備)。其中,存儲器520和存儲介質530可以是短暫存儲或持久存儲。存儲在存儲介質530的程序可以包括一個或一個以上模塊(圖示沒標出),每個模塊可以包括對聲紋識別設備500中的一系列指令操作。更進一步地,處理器510可以設置為與存儲介質530通信,在聲紋識別設備500上執行存儲介質530中的一系列指令操作。
聲紋識別設備500還可以包括一個或一個以上電源540,一個或一個以上有線或無線網絡接口550,一個或一個以上輸入輸出接口560,和/或,一個或一個以上操作系統531,例如windowsserve,macosx,unix,linux,freebsd等等。本領域技術人員可以理解,圖5示出的聲紋識別設備結構并不構成對聲紋識別設備的限定,可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件布置。
本發明還提供一種計算機可讀存儲介質,該計算機可讀存儲介質可以為非易失性計算機可讀存儲介質,該計算機可讀存儲介質也可以為易失性計算機可讀存儲介質,所述計算機可讀存儲介質中存儲有指令,當所述指令在計算機上運行時,使得計算機執行所述聲紋識別方法的步驟。
所屬領域的技術人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統,裝置和單元的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。
本發明所指區塊鏈是分布式數據存儲、點對點傳輸、共識機制、加密算法等計算機技術的新型應用模式。區塊鏈(blockchain),本質上是一個去中心化的數據庫,是一串使用密碼學方法相關聯產生的數據塊,每一個數據塊中包含了一批次網絡交易的信息,用于驗證其信息的有效性(防偽)和生成下一個區塊。區塊鏈可以包括區塊鏈底層平臺、平臺產品服務層以及應用服務層等。
所述集成的單元如果以軟件功能單元的形式實現并作為獨立的產品銷售或使用時,可以存儲在一個計算機可讀取存儲介質中。基于這樣的理解,本發明的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟件產品的形式體現出來,該計算機軟件產品存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網絡設備等)執行本發明各個實施例所述方法的全部或部分步驟。而前述的存儲介質包括:u盤、移動硬盤、只讀存儲器(read-onlymemory,rom)、隨機存取存儲器(randomaccessmemory,ram)、磁碟或者光盤等各種可以存儲程序代碼的介質。
以上所述,以上實施例僅用以說明本發明的技術方案,而非對其限制;盡管參照前述實施例對本發明進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分技術特征進行等同替換;而這些修改或者替換,并不使相應技術方案的本質脫離本發明各實施例技術方案的精神和范圍。