本發明涉及語音處理,具體為一種智能語音處理方法及系統。
背景技術:
1、語音處理是智能設備中常用的一種處理方法,但現有的語音處理方法仍然存在不足之處,具體為:現有的語音處理方法無法去除環境噪聲影響,影響處理準確性。
2、因此,需要一種智能語音處理方法及系統來解決上述背景技術中提出的問題。
技術實現思路
1、本發明的目的在于提供一種智能語音處理方法及系統,以解決上述背景技術中提出的問題。
2、為實現上述目的,本發明提供如下技術方案:
3、一種智能語音處理方法,包括以下步驟:
4、s1,先接收周圍環境聲音,得到環境噪聲,對環境噪聲進行去除dc偏置,并在環境噪聲中減去直流分量,將去除dc偏置后的環境噪聲進行縮放,縮放后,使用ica算法對縮放噪聲信號進行分離以獲得分離噪聲信號,再將分離噪聲信號進行獨立轉化,得到環境信號;
5、s2,再獲取目標語音,對獲取的目標語音進行預處理,得到語音信號,使用環境信號來對語音信號進行除雜處理,得到純凈信號,使用純凈信號,對純凈信號進行文本轉化處理,得到語音文本數據;
6、s3,將得到的純凈信號和語音文本數據通過網絡傳輸到使用者設備中。
7、一種智能語音處理系統,包括語音輸入模塊、處理模塊以及輸出模塊,所述語音輸入模塊用于輸入語音,所述處理模塊用于處理語音數據,所述輸出模塊用于輸出處理后的語音數據。
8、作為本發明優選的方案,所述s1中直流分量通過計算環境噪聲音頻的平均值獲得,環境噪聲縮放公式為:其中β為縮放后的環境噪聲,x為去除dc偏置后的環境噪聲,μ表示去除dc偏置后的環境噪聲的均值,σ表示去除dc偏置后的環境噪聲的標準差。
9、作為本發明優選的方案,所述s1中獨立轉化公式為:s=idwt(tλdwt(β)),其中s為環境信號,dwt表示離散小波變換,idwt表示離散小波反變換,tλ表示閾值函數,tλ=argmax|kurt(x)|,kurt表示峰度函數。
10、作為本發明優選的方案,所述s2中對目標語音進行預處理的具體方法為:利用webrtc里的vad算法檢測目標語音中是否有聲音,并對沒有聲音的數據段進行標記,計算標記的數據段時長,若標記段的時長超過閾值,則將標記的數據段從目標語音中提取出,從而將目標語音分隔成若干個段數據,將得到的若干段數據重新拼接在一起,得到語音信號。
11、作為本發明優選的方案,所述s2中除雜處理的具體方法為:將環境信號和語音信號送入匹配公式中,計算出環境信號與語音信號的匹配度,當計算出的匹配度超過閾值,表明語音信號被環境噪聲嚴重干擾,將環境信號和語音信號輸入混合模型內,得到純凈信號。
12、作為本發明優選的方案,所述匹配公式為其中c為匹配概率,為語音信號的梅爾頻率倒譜系數,gc為環境信號的爾頻率倒譜系數,p為人的聲音模型參數,混合模型表達式為γ=αs-(1+α)xde,其中y為純凈信號,α表示加權系數,xde為語音信號。
13、作為本發明優選的方案,所述文本轉化處理的具體方法為:將純凈信號轉換成文本字符串,對文本字符串中字符進行遍歷組合,確定詞組位置和屬性編碼以及單字符位置和屬性編碼,利用文本字符串中不同屬性的詞組和單字符的位置關系及其關聯性確定句型特征結構,并根據句型特征結構將詞組和單字符的屬性編碼代對上下文或前后字詞的語義屬性進行邏輯關聯,替換不符合的字符串,得到語音文本數據。
14、與現有技術相比,本發明的有益效果是:
15、1、本發明中,通過先接收周圍環境聲音,得到環境噪聲,對環境噪聲進行去除dc偏置,并在環境噪聲中減去直流分量,將去除dc偏置后的環境噪聲進行縮放,縮放后,使用ica算法對縮放噪聲信號進行分離以獲得分離噪聲信號,再將分離噪聲信號進行獨立轉化,得到環境信號,再獲取目標語音,對獲取的目標語音進行預處理,得到語音信號,使用環境信號來對語音信號進行除雜處理,得到純凈信號,使用純凈信號,對純凈信號進行文本轉化處理,得到語音文本數據,將得到的純凈信號和語音文本數據通過網絡傳輸到使用者設備中,可以根據外界環境噪聲對語音信號進行處理,提高了語音信號的純凈度,提升了處理的準確性,同時通過對目標語音進行預處理,去除目標語音中空白部分數據,能夠減小處理的數據量,提高處理的效率。
1.一種智能語音處理方法,其特征在于,包括以下步驟:
2.一種智能語音處理系統,包括語音輸入模塊(1)、處理模塊(2)以及輸出模塊(3),其特征在于:所述語音輸入模塊(1)用于輸入語音,所述處理模塊(2)用于處理語音數據,所述輸出模塊(3)用于輸出處理后的語音數據。
3.根據權利要求1所述的一種智能語音處理方法,其特征在于:所述s1中直流分量通過計算環境噪聲音頻的平均值獲得,環境噪聲縮放公式為:其中β為縮放后的環境噪聲,x為去除dc偏置后的環境噪聲,μ表示去除dc偏置后的環境噪聲的均值,σ表示去除dc偏置后的環境噪聲的標準差。
4.根據權利要求1所述的一種智能語音處理方法,其特征在于:所述s1中獨立轉化公式為:s=idwt(tλdwt(β)),其中s為環境信號,dwt表示離散小波變換,idwt表示離散小波反變換,tλ表示閾值函數,tλ=argmax|kurt(x)|,kurt表示峰度函數。
5.根據權利要求1所述的一種智能語音處理方法,其特征在于:所述s2中對目標語音進行預處理的具體方法為:利用webrtc里的vad算法檢測目標語音中是否有聲音,并對沒有聲音的數據段進行標記,計算標記的數據段時長,若標記段的時長超過閾值,則將標記的數據段從目標語音中提取出,從而將目標語音分隔成若干個段數據,將得到的若干段數據重新拼接在一起,得到語音信號。
6.根據權利要求1所述的一種智能語音處理方法,其特征在于:所述s2中除雜處理的具體方法為:將環境信號和語音信號送入匹配公式中,計算出環境信號與語音信號的匹配度,當計算出的匹配度超過閾值,表明語音信號被環境噪聲嚴重干擾,將環境信號和語音信號輸入混合模型內,得到純凈信號。
7.根據權利要求4所述的一種智能語音處理方法,其特征在于:所述匹配公式為其中c為匹配概率,為語音信號的梅爾頻率倒譜系數,gc為環境信號的爾頻率倒譜系數,p為人的聲音模型參數,混合模型表達式為γ=αs-(1+α)xde,其中y為純凈信號,α表示加權系數,xde為語音信號。
8.根據權利要求1所述的一種智能語音處理方法,其特征在于:所述文本轉化處理的具體方法為:將純凈信號轉換成文本字符串,對文本字符串中字符進行遍歷組合,確定詞組位置和屬性編碼以及單字符位置和屬性編碼,利用文本字符串中不同屬性的詞組和單字符的位置關系及其關聯性確定句型特征結構,并根據句型特征結構將詞組和單字符的屬性編碼代對上下文或前后字詞的語義屬性進行邏輯關聯,替換不符合的字符串,得到語音文本數據。