本發(fā)明的實(shí)施方式涉及音頻信息處理領(lǐng)域,更具體地,本發(fā)明的實(shí)施方式涉及一種基于噪聲注入的回音處理方法、裝置、介質(zhì)和計(jì)算設(shè)備。
背景技術(shù):
本部分旨在為權(quán)利要求書中陳述的本發(fā)明的實(shí)施方式提供背景或上下文。此處的描述不因?yàn)榘ㄔ诒静糠种芯统姓J(rèn)是現(xiàn)有技術(shù)。
aec(acousticechocancellation,回音消除)是一種信號處理的技術(shù),其功能是消除在通信系統(tǒng)中的回音信號,保障對話人不被回音信號所干擾,提升通話質(zhì)量。在理想環(huán)境中,很多aec算法能夠很達(dá)到上述要求。但是由于音頻信號在實(shí)際環(huán)境中的復(fù)雜性,目前的aec算法中,如果能將回音消除的很干凈,或多或少會(huì)損傷所需要的近端信號;如果保證近端信號無損,在一些情況下則會(huì)有殘留回音出現(xiàn)。因此,如何在回音消除的處理中既能夠保證回音消除的效果,又可以保證音頻信號無損,就成為需要解決的問題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明期望提供一種回音處理方法、裝置、介質(zhì)和計(jì)算設(shè)備,以至少解決上述技術(shù)問題。
本申請實(shí)施例的第一個(gè)方面,提供一種回音處理方法,包括:
采集音頻信息;其中,音頻信息中包含參考音頻;
對音頻信息中參考音頻所在的第一頻段進(jìn)行音頻特征提取,得到音頻信息在第一頻段的音頻特征;
基于音頻信息在第一頻段的音頻特征,對回音消除器進(jìn)行控制。
在本發(fā)明的一個(gè)實(shí)施例中,所述對所述音頻信息中所述參考音頻所在的第一頻段進(jìn)行音頻特征提取,得到所述音頻信息在第一頻段的音頻特征,包括:
獲取音頻信息在所述參考音頻所在的所述第一頻段的時(shí)域特征值以及頻域特征值;
將所述時(shí)域特征值以及所述頻域特征值作為所述音頻信息在所述第一頻段的音頻特征。
在本發(fā)明的一個(gè)實(shí)施例中,所述方法還包括:
獲取第i幀音頻信息在第一頻段內(nèi)的能量峰值,以及兩個(gè)能量波谷值;
基于所述能量峰值以及所述兩個(gè)能量波谷值,確定所述第i幀音頻信息在第一頻段內(nèi)的峰谷比,將所述第i幀音頻信息在第一頻段內(nèi)的峰谷比作為所述第i幀音頻信息在所述第一頻段的頻域特征值。
在本發(fā)明的一個(gè)實(shí)施例中,所述第一頻段內(nèi)的能量峰值為:所述第一頻段中第一頻點(diǎn)所對應(yīng)的能量值;
所述兩個(gè)能量波谷值為:
在第一頻段內(nèi)以第一頻點(diǎn)為中心增加預(yù)設(shè)帶寬值得到的第一相鄰頻點(diǎn)所對應(yīng)的能量值,以及在第一頻段內(nèi)以第一頻點(diǎn)為中心減少預(yù)設(shè)帶寬值的第二相鄰頻點(diǎn)所對應(yīng)的能量值;
或者,
在第一頻段內(nèi)大于所述第一頻點(diǎn)的頻段中的第一個(gè)能量波谷值,以及在第一頻段內(nèi)小于所述第一頻點(diǎn)的頻段中的第一個(gè)能量波谷值。
在本發(fā)明的一個(gè)實(shí)施例中,所述方法還包括:
獲取l幀音頻信息;其中,所述l幀音頻信息中包括:第i幀音頻信息,以及第i幀音頻信息之前的l-1幀音頻信息;l為大于等于1的整數(shù);
確定所述l幀音頻信息的能量平均值,以及所述l幀音頻信息中的最大能量值;
基于所述l幀音頻信息的能量平均值、最大能量值、以及所述l幀音頻信息中的每一幀音頻信息在第一頻點(diǎn)的能量值,確定所述第i幀音頻信息的峰值波動(dòng)值,將所述第i幀音頻信息的峰值波動(dòng)值作為所述第i幀音頻信息在第一頻段的時(shí)域特征值。
在本發(fā)明的一個(gè)實(shí)施例中,所述方法還包括:
對l幀音頻信息進(jìn)行轉(zhuǎn)換得到所述l幀音頻信息中每一幀音頻信息的頻域信號;其中,所述l幀音頻信息中包括:第i幀音頻信息,以及第i幀音頻信息之前的l-1幀音頻信息;l為大于等于1的整數(shù);
基于所述l幀音頻信息中每一幀音頻信息的頻域信號,確定所述每一幀音頻信息的能量表示;
基于所述l幀音頻信息中每一幀音頻信息的能量表示,構(gòu)建包含所述l幀音頻信息的特征平面;
其中,所述特征平面中包含:所述l幀音頻信息中每一幀音頻信息在第一頻段內(nèi)至少一個(gè)頻點(diǎn)的能量值;所述至少一個(gè)頻點(diǎn)中包括第一頻點(diǎn)。
在本發(fā)明的一個(gè)實(shí)施例中,所述基于所述音頻信息在所述第一頻段的音頻特征,對回音消除器進(jìn)行控制,包括:
在所述音頻信息在第一頻段的時(shí)域特征值小于第一門限值、以及頻域特征值大于第二門限值的情況下,確定存在回音信息,控制開啟所述回音消除器;
和/或,
在所述音頻信息在第一頻段的時(shí)域特征值不小于第一門限值、以及頻域特征值不大于第二門限值的情況下,確定不存在回音信息,控制關(guān)閉所述回音消除器。
在本發(fā)明的一個(gè)實(shí)施例中,所述方法還包括:
將參考音頻與當(dāng)前待播放音頻信息進(jìn)行混合,得到混合后的音頻信息;播放所述混合后的音頻信息。
在本發(fā)明的一個(gè)實(shí)施例中,所述第一頻段為14850hz至15150hz的頻段。
本申請實(shí)施例的第二個(gè)方面,提供一種回電子設(shè)備,包括:
拾音器,用于采集音頻信息;其中,音頻信息中包含參考音頻;
處理器,用于對音頻信息中參考音頻所在的第一頻段進(jìn)行音頻特征提取,得到音頻信息在第一頻段的音頻特征;基于音頻信息在第一頻段的音頻特征,對回音消除器進(jìn)行控制。
在本發(fā)明的一個(gè)實(shí)施例中,所述處理器,用于獲取音頻信息在所述參考音頻所在的所述第一頻段的時(shí)域特征值以及頻域特征值;將所述時(shí)域特征值以及所述頻域特征值作為所述音頻信息在所述第一頻段的音頻特征。
在本發(fā)明的一個(gè)實(shí)施例中,所述處理器,用于獲取第i幀音頻信息在第一頻段內(nèi)的能量峰值,以及兩個(gè)能量波谷值;基于所述能量峰值以及所述兩個(gè)能量波谷值,確定所述第i幀音頻信息在第一頻段內(nèi)的峰谷比,將所述第i幀音頻信息在第一頻段內(nèi)的峰谷比作為所述第i幀音頻信息在所述第一頻段的頻域特征值。
在本發(fā)明的一個(gè)實(shí)施例中,所述第一頻段內(nèi)的能量峰值為:所述第一頻段中第一頻點(diǎn)所對應(yīng)的能量值;
所述兩個(gè)能量波谷值為:
在第一頻段內(nèi)以第一頻點(diǎn)為中心增加預(yù)設(shè)帶寬值得到的第一相鄰頻點(diǎn)所對應(yīng)的能量值,以及在第一頻段內(nèi)以第一頻點(diǎn)為中心減少預(yù)設(shè)帶寬值的第二相鄰頻點(diǎn)所對應(yīng)的能量值;
或者,
在第一頻段內(nèi)大于所述第一頻點(diǎn)的頻段中的第一個(gè)能量波谷值,以及在第一頻段內(nèi)小于所述第一頻點(diǎn)的頻段中的第一個(gè)能量波谷值。
在本發(fā)明的一個(gè)實(shí)施例中,所述拾音器,還用于
獲取l幀音頻信息;其中,所述l幀音頻信息中包括:第i幀音頻信息,以及第i幀音頻信息之前的l-1幀音頻信息;l為大于等于1的整數(shù);
所述處理器,用于確定所述l幀音頻信息的能量平均值,以及所述l幀音頻信息中的最大能量值;基于所述l幀音頻信息的能量平均值、最大能量值、以及所述l幀音頻信息中的每一幀音頻信息在第一頻點(diǎn)的能量值,確定所述第i幀音頻信息的峰值波動(dòng)值,將所述第i幀音頻信息的峰值波動(dòng)值作為所述第i幀音頻信息在第一頻段的時(shí)域特征值。
在本發(fā)明的一個(gè)實(shí)施例中,所述處理器,用于對l幀音頻信息進(jìn)行轉(zhuǎn)換得到所述l幀音頻信息中每一幀音頻信息的頻域信號;其中,所述l幀音頻信息中包括:第i幀音頻信息,以及第i幀音頻信息之前的l-1幀音頻信息;l為大于等于1的整數(shù);
基于所述l幀音頻信息中每一幀音頻信息的頻域信號,確定所述每一幀音頻信息的能量表示;
基于所述l幀音頻信息中每一幀音頻信息的能量表示,構(gòu)建包含所述l幀音頻信息的特征平面;
其中,所述特征平面中包含:所述l幀音頻信息中每一幀音頻信息在第一頻段內(nèi)至少一個(gè)頻點(diǎn)的能量值;所述至少一個(gè)頻點(diǎn)中包括第一頻點(diǎn)。
在本發(fā)明的一個(gè)實(shí)施例中,所述處理器,用于在所述音頻信息在第一頻段的時(shí)域特征值小于第一門限值、以及頻域特征值大于第二門限值的情況下,確定存在回音信息,控制開啟所述回音消除器;
和/或,
所述處理器,用于在所述音頻信息在第一頻段的時(shí)域特征值不小于第一門限值、以及頻域特征值不大于第二門限值的情況下,確定不存在回音信息,控制關(guān)閉所述回音消除器。
在本發(fā)明的一個(gè)實(shí)施例中,所述電子設(shè)備還包括:
混音器,用于將參考音頻與當(dāng)前待播放音頻信息進(jìn)行混合,得到混合后的音頻信息;
揚(yáng)聲器,用于播放所述混合后的音頻信息。
在本發(fā)明的一個(gè)實(shí)施例中,所述第一頻段為包括14850hz至15150hz的頻段。
本申請實(shí)施例的第三個(gè)方面,提供一種回音處理裝置,包括:
音頻采集單元,用于采集音頻信息;其中,音頻信息中包含參考音頻;
特征提取單元,用于對音頻信息中參考音頻所在的第一頻段進(jìn)行音頻特征提取,得到音頻信息在第一頻段的音頻特征;
回音消除aec控制單元,用于基于音頻信息在第一頻段的音頻特征,對回音消除器進(jìn)行控制。
在本發(fā)明的一個(gè)實(shí)施例中,所述特征提取單元,用于獲取音頻信息在所述參考音頻所在的所述第一頻段的時(shí)域特征值以及頻域特征值;將所述時(shí)域特征值以及所述頻域特征值作為所述音頻信息在所述第一頻段的音頻特征。
在本發(fā)明的一個(gè)實(shí)施例中,所述特征提取單元,用于獲取第i幀音頻信息在第一頻段內(nèi)的能量峰值,以及兩個(gè)能量波谷值;基于所述能量峰值以及所述兩個(gè)能量波谷值,確定所述第i幀音頻信息在第一頻段內(nèi)的峰谷比,將所述第i幀音頻信息在第一頻段內(nèi)的峰谷比作為所述第i幀音頻信息在所述第一頻段的頻域特征值。
在本發(fā)明的一個(gè)實(shí)施例中,所述第一頻段內(nèi)的能量峰值為:所述第一頻段中第一頻點(diǎn)所對應(yīng)的能量值;
所述兩個(gè)能量波谷值為:
在第一頻段內(nèi)以第一頻點(diǎn)為中心增加預(yù)設(shè)帶寬值得到的第一相鄰頻點(diǎn)所對應(yīng)的能量值,以及在第一頻段內(nèi)以第一頻點(diǎn)為中心減少預(yù)設(shè)帶寬值的第二相鄰頻點(diǎn)所對應(yīng)的能量值;
或者,
在第一頻段內(nèi)大于所述第一頻點(diǎn)的頻段中的第一個(gè)能量波谷值,以及在第一頻段內(nèi)小于所述第一頻點(diǎn)的頻段中的第一個(gè)能量波谷值。
在本發(fā)明的一個(gè)實(shí)施例中,所述特征提取單元,用于獲取l幀音頻信息;其中,所述l幀音頻信息中包括:第i幀音頻信息,以及第i幀音頻信息之前的l-1幀音頻信息;l為大于等于1的整數(shù);
確定所述l幀音頻信息的能量平均值,以及所述l幀音頻信息中的最大能量值;
基于所述l幀音頻信息的能量平均值、最大能量值、以及所述l幀音頻信息中的每一幀音頻信息在第一頻點(diǎn)的能量值,確定所述第i幀音頻信息的峰值波動(dòng)值,將所述第i幀音頻信息的峰值波動(dòng)值作為所述第i幀音頻信息在第一頻段的時(shí)域特征值。
在本發(fā)明的一個(gè)實(shí)施例中,所述特征提取單元,用于
對l幀音頻信息進(jìn)行轉(zhuǎn)換得到所述l幀音頻信息中每一幀音頻信息的頻域信號;其中,所述l幀音頻信息中包括:第i幀音頻信息,以及第i幀音頻信息之前的l-1幀音頻信息;l為大于等于1的整數(shù);
基于所述l幀音頻信息中每一幀音頻信息的頻域信號,確定所述每一幀音頻信息的能量表示;
基于所述l幀音頻信息中每一幀音頻信息的能量表示,構(gòu)建包含所述l幀音頻信息的特征平面;
其中,所述特征平面中包含:所述l幀音頻信息中每一幀音頻信息在第一頻段內(nèi)至少一個(gè)頻點(diǎn)的能量值;所述至少一個(gè)頻點(diǎn)中包括第一頻點(diǎn)。
在本發(fā)明的一個(gè)實(shí)施例中,所述aec控制單元,用于在所述音頻信息在第一頻段的時(shí)域特征值小于第一門限值、以及頻域特征值大于第二門限值的情況下,確定存在回音信息,控制開啟所述回音消除器;
和/或,
所述aec控制單元,用于在所述音頻信息在第一頻段的時(shí)域特征值不小于第一門限值、以及頻域特征值不大于第二門限值的情況下,確定不存在回音信息,控制關(guān)閉所述回音消除器。
在本發(fā)明的一個(gè)實(shí)施例中,所述裝置還包括:
混音單元,用于將參考音頻與當(dāng)前待播放音頻信息進(jìn)行混合,得到混合后的音頻信息;
音頻輸出單元,用于播放所述混合后的音頻信息。
在本發(fā)明的一個(gè)實(shí)施例中,所述第一頻段為14850hz至15150hz的頻段。
本申請實(shí)施例的第四個(gè)方面,提供一種計(jì)算設(shè)備,包括:
一個(gè)或多個(gè)處理器;
存儲(chǔ)裝置,用于存儲(chǔ)一個(gè)或多個(gè)程序;
當(dāng)一個(gè)或多個(gè)程序被一個(gè)或多個(gè)處理器執(zhí)行時(shí),使得一個(gè)或多個(gè)處理器實(shí)現(xiàn)本申請任意實(shí)施例提供的方法。
本申請實(shí)施例的第五個(gè)方面,提供一種介質(zhì),包括:
其存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)本申請任意實(shí)施例提供的方法。
根據(jù)本發(fā)明實(shí)施方式,通過對包含參考音頻的音頻信息進(jìn)行采集,進(jìn)而進(jìn)行第一頻段的音頻特征的提取,再根據(jù)提取到的音頻信息在第一頻段的音頻特征,對回音消除器進(jìn)行控制。如此,可以避免對音頻信息的除第一頻段之外的音頻產(chǎn)生影響,從而避免音頻信號受損;并且,通過對包含參考音頻所在的第一頻段進(jìn)行特征提取,可以更加準(zhǔn)確的獲取到音頻信息的特征,進(jìn)而進(jìn)行回音消除的控制的時(shí)候可以保證回音消除的準(zhǔn)確性。
附圖說明
通過參考附圖閱讀下文的詳細(xì)描述,本發(fā)明示例性實(shí)施方式的上述以及其他目的、特征和優(yōu)點(diǎn)將變得易于理解。在附圖中,以示例性而非限制性的方式示出了本發(fā)明的若干實(shí)施方式,其中:
圖1示意性地示出了根據(jù)本發(fā)明一實(shí)施方式的回音處理方法實(shí)現(xiàn)流程圖;
圖2示意性地示出了根據(jù)本發(fā)明一實(shí)施方式的人耳感知域示意圖;
圖3示意性地示出了根據(jù)本發(fā)明一實(shí)施方式的示意回音檢測方法中的特征平面示意圖;
圖4示意性地示出了根據(jù)本發(fā)明一實(shí)施方式的aec處理示意圖;
圖5示意性地示出了根據(jù)本發(fā)明一實(shí)施方式的介質(zhì)示意圖;
圖6示意性地示出了根據(jù)本發(fā)明一實(shí)施方式的電子設(shè)備結(jié)構(gòu)示意圖;
圖7示意性地示出了根據(jù)本發(fā)明一實(shí)施方式的回音檢測裝備結(jié)構(gòu)示意圖;
圖8示意性地示出了根據(jù)本發(fā)明一實(shí)施方式的計(jì)算設(shè)備結(jié)構(gòu)示意圖。
在附圖中,相同或?qū)?yīng)的標(biāo)號表示相同或?qū)?yīng)的部分。
具體實(shí)施方式
下面將參考若干示例性實(shí)施方式來描述本發(fā)明的原理和精神。應(yīng)當(dāng)理解,給出這些實(shí)施方式僅僅是為了使本領(lǐng)域技術(shù)人員能夠更好地理解進(jìn)而實(shí)現(xiàn)本發(fā)明,而并非以任何方式限制本發(fā)明的范圍。相反,提供這些實(shí)施方式是為了使本公開更加透徹和完整,并且能夠?qū)⒈竟_的范圍完整地傳達(dá)給本領(lǐng)域的技術(shù)人員。
本領(lǐng)域技術(shù)人員知道,本發(fā)明的實(shí)施方式可以實(shí)現(xiàn)為一種系統(tǒng)、裝置、設(shè)備、方法或計(jì)算機(jī)程序產(chǎn)品。因此,本公開可以具體實(shí)現(xiàn)為以下形式,即:完全的硬件、完全的軟件(包括固件、駐留軟件、微代碼等),或者硬件和軟件結(jié)合的形式。
根據(jù)本發(fā)明的實(shí)施方式,提出了一種回音處理方法、裝置、介質(zhì)和計(jì)算設(shè)備。
在本文中,附圖中的任何元素?cái)?shù)量均用于示例而非限制,以及任何命名都僅用于區(qū)分,而不具有任何限制含義。
下面參考本發(fā)明的若干代表性實(shí)施方式,詳細(xì)闡釋本發(fā)明的原理和精神。
發(fā)明概述
aec是一種信號處理的技術(shù),其功能是消除在通信系統(tǒng)中的回音信號,保障對話人不被回音信號所干擾,提升通話質(zhì)量。本發(fā)明人發(fā)現(xiàn),在理想環(huán)境中(比如在消聲室(anechoicchamber)中),很多aec算法能夠很達(dá)到上述要求。但是由于音頻信號在實(shí)際環(huán)境中的復(fù)雜性,在實(shí)際環(huán)境中,幾乎所有的aec算法,都無法同時(shí)很好的兼顧“消除回音”和“信號無損”。
有鑒于此,本發(fā)明提供一種回音處理方法、裝置、介質(zhì)和計(jì)算設(shè)備,通過對包含參考音頻的音頻信息進(jìn)行采集,進(jìn)而進(jìn)行第一頻段的音頻特征的提取,再根據(jù)提取到的音頻信息在第一頻段的音頻特征,對回音消除器進(jìn)行控制。如此,可以避免對音頻信息的除第一頻段之外的音頻產(chǎn)生影響,從而避免音頻信號受損;并且,通過對包含參考音頻所在的第一頻段進(jìn)行特征提取,可以更加準(zhǔn)確的獲取到音頻信息的特征,進(jìn)而進(jìn)行回音消除的控制的時(shí)候可以保證回音消除的準(zhǔn)確性。
在介紹了本發(fā)明的基本原理之后,下面具體介紹本發(fā)明的各種非限制性實(shí)施方式。
示例性方法
本發(fā)明的第一個(gè)方面提供一種回音處理方法,下面參考圖1來描述根據(jù)本發(fā)明示例性實(shí)施方式的回音處理方法,包括:
s101:采集音頻信息;其中,所述音頻信息中包含參考音頻;
s102:對所述音頻信息中所述參考音頻所在的第一頻段進(jìn)行音頻特征提取,得到所述音頻信息在所述第一頻段的音頻特征;
s103:基于所述音頻信息在所述第一頻段的音頻特征,對回音消除器進(jìn)行控制。
本實(shí)施例提供的方案可以應(yīng)用于電子設(shè)備,該電子設(shè)備至少需要具備麥克風(fēng)以及處理器等。進(jìn)一步地,該電子設(shè)備還可以具備音頻輸出功能或者能夠連接具備音頻輸出功能的裝置,這里,音頻輸出功能可以由揚(yáng)聲器、耳機(jī)等實(shí)現(xiàn)。一種示例中,所述電子設(shè)備可以為手機(jī)、平板電腦、筆記本電腦等任意一種。
本實(shí)施例中,所述參考音頻可以預(yù)先與待播放音頻信息混合。
該參考音頻可以為噪音,具體的可以是在第一頻段內(nèi)第一頻點(diǎn)的噪音。其中,一種優(yōu)選的示例中,所述第一頻段可以為14850hz至15150hz的頻段;當(dāng)然,實(shí)際設(shè)置中該第一頻段可以更大或更小,本實(shí)施例不做窮舉。該第一頻點(diǎn)也可以是根據(jù)實(shí)際情況選取的,一種優(yōu)選的示例中可以為15khz頻點(diǎn);當(dāng)然,根據(jù)實(shí)際情況可以選取第一頻段中的其他頻點(diǎn)作為第一頻點(diǎn),即作為注入噪音的頻點(diǎn)。
進(jìn)一步地,關(guān)于選取參考音頻的頻點(diǎn)所考慮的因素可以包括:第一,不被人耳感知到;第二,算法利用此噪聲后魯棒性強(qiáng),特征易提取,不容易受外界噪聲干擾。
具體的,15khz的單頻信號不容易被人耳發(fā)現(xiàn)。如圖2所示,縱坐標(biāo)表示聲音大小(db),橫坐標(biāo)代表頻率(hz)。人耳的感知域(auditoryfield)在淺灰色的區(qū)間內(nèi),平均的感知門限(thresholdofaudibility)是感知域下面的弧線,其含義是指在這個(gè)門限之上人耳是可以聽到的,反之能量在這條線以下,人耳無法感知。從圖2中可以看出,人耳的感知能力在1khz-2khz時(shí)候最強(qiáng),頻率在此基礎(chǔ)上持續(xù)增強(qiáng)或減弱,人耳的感知能力都在減弱。當(dāng)頻率達(dá)到15khz的時(shí)候,人耳平均感知門限已經(jīng)接近40dbspl(soundpressurelevel,聲壓級)。15khz的注入噪聲也不會(huì)影響語音質(zhì)量的客觀指標(biāo),由itu(internationaltelecommunicationunion,國際電信聯(lián)盟)設(shè)計(jì)的poqal(perceptualobjectivelisteningqualityanalysis,聆聽品質(zhì)感知客觀評估)的基本頻率是300-3400hz,它的最大帶寬(super-wideband,超寬頻檔)為50-14000hz。由此也可以看出15khz的注入噪聲對語音質(zhì)量產(chǎn)生的影響很小。
其次,算法的魯棒性和抗噪性也非常重要。頻率在很低的時(shí)候,例如在80hz以下時(shí)也很難被人耳察覺。但是環(huán)境中會(huì)包含大量的低頻噪音,這些背景噪音會(huì)嚴(yán)重影響回采注入噪聲的特征提取。相對來說,15khz的單頻信號的魯棒性就高很多,因?yàn)榄h(huán)境中在這個(gè)頻率很難有其他的背景干擾。這對特征提取的準(zhǔn)確性有了很大的提升。
最后,15khz這個(gè)頻點(diǎn),大多數(shù)耳機(jī)、移動(dòng)設(shè)備上的揚(yáng)聲器都能夠包含。但是如果頻率再升高,大多數(shù)設(shè)備的頻響曲線就會(huì)下滑,導(dǎo)致高頻聲音無法正常播出,從而會(huì)影響特征的提取。
因此,本實(shí)施例將第一頻點(diǎn)設(shè)置為15khz。需要理解的是,第一頻點(diǎn)還可以為15khz左右一定帶寬內(nèi)的其他頻點(diǎn),比如,可以是14.99khz、15.12khz等等;另外,參考音頻即噪音也可以具備一定的帶寬,比如可以為對15khz正負(fù)選取一定的頻帶寬度,參考音頻具備的一定的帶寬可以小于前述第一頻段的帶寬,這里不進(jìn)行窮舉。
進(jìn)一步地,一種場景中,上述參考音頻可以是在另外的進(jìn)行音頻輸出的電子設(shè)備中與待播放音頻信息進(jìn)行的混音。
另一種場景中,參考音頻可以是在本電子設(shè)備中與待播放音頻信息進(jìn)行的混音,其中,本電子設(shè)備指的是執(zhí)行前述s101-s103的電子設(shè)備。
在同一個(gè)電子設(shè)備進(jìn)行參考音頻與待播放音頻信息的混合的場景中,執(zhí)行s101之前,還可以包括:將參考音頻與當(dāng)前待播放音頻信息進(jìn)行混合,得到混合后的音頻信息;播放所述混合后的音頻信息。
這里,關(guān)于參考音頻的選取在前述實(shí)施例已經(jīng)說明,不做贅述;將參考音頻與待播放音頻信息進(jìn)行混合可以是通過混音器實(shí)現(xiàn),將參考音頻以及待播放音頻信息輸入至所述混音器,得到混音器輸出的混合后的音頻信息,然后播放該混合后的音頻信息。播放混合后的音頻信息可以是電子設(shè)備的音頻輸出單元實(shí)現(xiàn)的,比如手機(jī)的揚(yáng)聲器或與手機(jī)連接的耳機(jī)等。
播放的混合后的音頻信息在聲場進(jìn)行傳輸,其中,在聲場進(jìn)行傳輸?shù)倪^程中,可能會(huì)混合聲場中的其他頻率或頻段的聲音。
在前述說明的基礎(chǔ)上,本實(shí)施例s101中,采集音頻信息,該音頻信息中可包含提前設(shè)計(jì)的注入噪聲,即參考音頻。另外,在音頻信息中還可以包括上述在聲場傳輸中混合的其他頻率或頻段的聲音。
通過采用上述在第一頻段的第一頻點(diǎn)內(nèi)加入?yún)⒖家纛l的處理,由于本實(shí)施例第一頻段選取在14850hz至15150hz的頻段內(nèi),這個(gè)頻段可以對語音質(zhì)量產(chǎn)生較小的影響,即不會(huì)影響到用戶正常通話的聲音質(zhì)量,并且,由于在這段頻段進(jìn)行參考音頻的混合,可以盡可能少的引入其他背景噪音,從而可以避免其他噪音對參考音頻的干擾,保證了針對第一頻段的特征提取更加準(zhǔn)確。
當(dāng)注入噪聲(即參考音頻)被采集后,執(zhí)行前述s102-s103,即可以通過特征提取來進(jìn)行“是否有回音”的判斷。
執(zhí)行步驟s102獲取音頻特征的處理之前,需要構(gòu)建特征平面,構(gòu)建特征平面的處理可以包括:
對l幀音頻信息進(jìn)行轉(zhuǎn)換得到所述l幀音頻信息中每一幀音頻信息的頻域信號;其中,所述l幀音頻信息中包括:第i幀音頻信息,以及第i幀音頻信息之前的l-1幀音頻信息;l為大于等于1的整數(shù);
基于所述l幀音頻信息中每一幀音頻信息的頻域信號,確定所述每一幀音頻信息的能量表示;
基于所述l幀音頻信息中每一幀音頻信息的能量表示,構(gòu)建包含所述l幀音頻信息的特征平面;
對l幀音頻信息進(jìn)行轉(zhuǎn)換得到所述l幀音頻信息中每一幀音頻信息的頻域信號;其中,所述l幀音頻信息中包括:第i幀音頻信息,以及第i幀音頻信息之前的l-1幀音頻信息;l為大于等于1的整數(shù);
基于所述l幀音頻信息中每一幀音頻信息的頻域信號,確定所述每一幀音頻信息的能量表示;
基于所述l幀音頻信息中每一幀音頻信息的能量表示,構(gòu)建包含所述l幀音頻信息的特征平面;
其中,所述特征平面中包含:所述l幀音頻信息中每一幀音頻信息在第一頻段內(nèi)至少一個(gè)頻點(diǎn)的能量值;所述至少一個(gè)頻點(diǎn)中包括第一頻點(diǎn)。
這里,所述第i幀音頻信息可以為當(dāng)前采集的音頻信息,或者當(dāng)前分析的音頻信息。
l幀音頻信息可以為第i幀音頻以及第i幀音頻信息之前的l-1幀音頻信息。
對l幀音頻信息進(jìn)行轉(zhuǎn)換得到所述l幀音頻信息中每一幀音頻信息的頻域信號,可以是對當(dāng)前采集到的每一幀音頻信息均轉(zhuǎn)換為頻域信號,只是在針對第i幀音頻信息進(jìn)行后續(xù)處理時(shí),提取l幀音頻信息的頻域信號;又或者,可以是在需要進(jìn)行處理時(shí),獲取l幀音頻信息逐個(gè)進(jìn)行轉(zhuǎn)換得到每一個(gè)音頻信息的頻域信號。
其中,將音頻信息轉(zhuǎn)換為頻域信號的方式可以是通過快速傅里葉變換(fft,fastfouriertransform),將回采的音頻信息從時(shí)域變換到了頻域,用di(ω)表示(第i幀)。
基于所述l幀音頻信息中每一幀音頻信息的頻域信號,確定所述每一幀音頻信息的能量表示的計(jì)算方式可以是計(jì)算每一幀音頻信息的頻域信號在log域的能量大小,通過以下公式1以第i幀音頻信息為例進(jìn)行說明:
其中,eni(ω)表示第i幀音頻信息的頻域信號di(ω)在log域的能量大小(dbfullscale(dbfs),滿度相對電平),di(ejω)表示di(ω)的實(shí)部,di*(e-jω)表示di(ω)的虛部。
基于所述l幀音頻信息中每一幀音頻信息的能量表示,構(gòu)建包含所述l幀音頻信息的特征平面(featuresurface),說明如下:
根據(jù)l幀音頻信息每一幀音頻信息的en(ω),可以構(gòu)建一個(gè)特征平面,所述特征平面中包含:所述l幀音頻信息中每一幀音頻信息在第一頻段內(nèi)至少一個(gè)頻點(diǎn)的能量值;所述至少一個(gè)頻點(diǎn)中包括第一頻點(diǎn)。
比如,如圖3所示,特征平面包含第一頻段內(nèi)即14850-15150hz至少一個(gè)頻點(diǎn)的能量值。圖3中特征平面x軸代表頻率,y軸代表第幾幀(時(shí)間軸),z軸代表能量大小(dbfs)。
通過計(jì)算特征平面,可以得到一個(gè)頻段內(nèi)也就是前述第一頻段內(nèi)各個(gè)頻點(diǎn)在頻率和時(shí)間的維度上的能量值。
如此,通過計(jì)算特征平面可以覆蓋更多頻點(diǎn)的能量值,為后續(xù)計(jì)算提供更多的數(shù)據(jù)值,提升計(jì)算效率,并且計(jì)算特征平面也僅需要覆蓋時(shí)間上的l幀音頻信息,以及每一幀音頻信息的第一頻段內(nèi)的頻點(diǎn)對應(yīng)的能量值,因此并不會(huì)產(chǎn)生過多的計(jì)算量,也不會(huì)占用過多的計(jì)算資源。
在構(gòu)建完特征平面過后,接著會(huì)開始提取特征值。特征值包括頻域特征值和時(shí)域特征值兩個(gè)維度,分別可以對應(yīng)圖3特征平面中的x軸數(shù)據(jù)和y軸數(shù)據(jù)。
執(zhí)行步驟s102時(shí),對采集得到的音頻信息中所述參考音頻所在的第一頻段進(jìn)行音頻特征提取,得到所述音頻信息在所述第一頻段的音頻特征。可以通過以下方式實(shí)現(xiàn):
獲取音頻信息在所述參考音頻所在的所述第一頻段的時(shí)域特征值以及頻域特征值;
將所述時(shí)域特征值以及所述頻域特征值作為所述音頻信息在所述第一頻段的音頻特征。
分別來說,關(guān)于頻域特征值的確定方式可以包括:
獲取第i幀音頻信息在第一頻段內(nèi)的能量峰值,以及兩個(gè)能量波谷值;
基于所述能量峰值以及所述兩個(gè)能量波谷值,確定所述第i幀音頻信息在第一頻段內(nèi)的峰谷比(peak-to-troughratio),將所述第i幀音頻信息在第一頻段內(nèi)的峰谷比作為所述第i幀音頻信息在所述第一頻段的頻域特征值。
具體得到上述頻域特征值的方式,可以采用以下公式2進(jìn)行計(jì)算:
pti=[eni(k0)-eni(kl)]*[eni(k0)-eni(kr)]/eni(k0)2(公式2)
其中,k0表示波峰對應(yīng)的頻點(diǎn)15000hz的頻帶,kl表示第一個(gè)波谷對應(yīng)的頻點(diǎn),kr表示另一個(gè)波谷對應(yīng)的頻點(diǎn)。pti表示在第i幀的峰谷比大小。pti的范圍在(0,1)之間,越接近1代表峰值越大,越接近0代表峰值越小。
具體來說,在構(gòu)建完的特征平面上,參考圖3,x軸代表頻率變化,y軸代表時(shí)間軸,z軸代表能量大小。例如,在本實(shí)施例中取i=5,即通過y=5對應(yīng)的截面截取圖3中的特征平面,得到第5幀音頻信息能量值變化的曲線圖。在該曲線圖中,第5幀音頻信息在z軸對應(yīng)的能量值隨著x軸頻率的變化而變化,由此獲得一系列能量波峰和能量波谷,進(jìn)而根據(jù)能量峰值以及所述兩個(gè)能量波谷值,確定所述第5幀音頻信息在第一頻段內(nèi)的峰谷比,將所述第5幀音頻信息在第一頻段內(nèi)的峰谷比作為所述第5幀音頻信息在所述第一頻段的頻域特征值。
所述第一頻段內(nèi)的能量峰值為:所述第一頻段中第一頻點(diǎn)所對應(yīng)的能量值;
所述兩個(gè)能量波谷值為:
在第一頻段內(nèi)以第一頻點(diǎn)為中心增加預(yù)設(shè)帶寬值得到的第一相鄰頻點(diǎn)所對應(yīng)的能量值,以及在第一頻段內(nèi)以第一頻點(diǎn)為中心減少預(yù)設(shè)帶寬值的第二相鄰頻點(diǎn)所對應(yīng)的能量值;
或者,
在第一頻段內(nèi)大于所述第一頻點(diǎn)的頻段中的第一個(gè)能量波谷值,以及在第一頻段內(nèi)小于所述第一頻點(diǎn)的頻段中的第一個(gè)能量波谷值。
具體來說,在第一頻段內(nèi)選取一個(gè)第一頻點(diǎn),該第一頻點(diǎn)需滿足特定的條件,例如該頻點(diǎn)對應(yīng)的噪聲應(yīng)當(dāng)不容易被人耳感知,同時(shí),在本發(fā)明描述的算法下該第一頻點(diǎn)對應(yīng)的噪聲魯棒性強(qiáng),特征容易提取。例如,15000hz對應(yīng)的噪聲不容易被人感知,且在本發(fā)明對應(yīng)的算法下對應(yīng)的噪聲魯棒性強(qiáng),特征容易提取,則可以選取15000hz作為第一頻點(diǎn)。在圖3中,令x=15000,y=5,以第一頻點(diǎn)在第5幀中所對應(yīng)的能量值作為第一頻段內(nèi)的能量峰值。
以第一頻點(diǎn)為中心,選取一個(gè)特定的預(yù)設(shè)頻率帶寬,進(jìn)而得到兩個(gè)能量波谷值。例如,仍選取x=15000作為第一頻點(diǎn),預(yù)設(shè)頻率帶寬為50hz。在第一頻段內(nèi),以15000hz為中心增加預(yù)設(shè)帶寬值50hz得到第一相鄰頻點(diǎn)15050hz對應(yīng)的能量值作為一個(gè)能量波谷值,以及在第一頻段內(nèi)以第一頻點(diǎn)15000hz為中心減少預(yù)設(shè)帶寬值50hz得到第二相鄰頻點(diǎn)14950hz對應(yīng)的能量值作為另一個(gè)能量波谷值。
或者,
仍然選取50hz作為預(yù)設(shè)的帶寬,在第一頻段內(nèi),以15000hz—15050hz對應(yīng)的頻段內(nèi)的能量波谷值作為一個(gè)能量波谷值,以14950hz—15000hz對應(yīng)的頻段內(nèi)的能量波谷值作為另一個(gè)能量波谷值。
根據(jù)上述實(shí)施例中的數(shù)值,帶入上述公式(2)可以計(jì)算得到相應(yīng)的頻域特征值pti。例如,將i=5,k0=15000,kl=14950,kr=15050代入公式(2)得到:
pt5=[en5(15000)-en5(14950)]*[en5(15000)-en5(15050)]/en5(15000)2
其中,en5(15000)代表第5幀音頻信息對應(yīng)的波峰值;en5(14950)和en5(15050)代表第5幀音頻信息對應(yīng)的兩個(gè)波谷值,pt5表示在第5幀的峰谷比大小,也即使第5幀音頻信息對應(yīng)的頻域特征值。pt5的范圍在(0,1)之間,pt5的值越接近1代表頻域特征值越大;pt5的值越接近0代表頻域特征值越小。
通過計(jì)算峰谷比可以得到最高峰值以及波谷能量值的相對值,相比于單獨(dú)獲取某一個(gè)頻點(diǎn)的能量值作為音頻信息的頻域特征值,能夠更加準(zhǔn)確并穩(wěn)定的表征音頻信息的特征。
時(shí)域特征值的確定方式可以包括:
獲取l幀音頻信息;其中,所述l幀音頻信息中包括:第i幀音頻信息,以及第i幀音頻信息之前的l-1幀音頻信息;l為大于等于1的整數(shù);
確定所述l幀音頻信息的能量平均值,以及所述l幀音頻信息中的最大能量值;
基于所述l幀音頻信息的能量平均值、最大能量值、以及所述l幀音頻信息中的每一幀音頻信息在第一頻點(diǎn)的能量值,確定所述第i幀音頻信息的峰值波動(dòng)值,將所述第i幀音頻信息的峰值波動(dòng)值作為所述第i幀音頻信息在第一頻段的時(shí)域特征值。
具體來說,在構(gòu)建完的特征平面上,參考圖3,x軸代表頻率變化,y軸代表時(shí)間軸,z軸代表能量大小。例如,在本實(shí)施例中取第一頻點(diǎn)為15000hz,即通過x=15000對應(yīng)的截面截取圖3中的特征平面,得到第一頻點(diǎn)對應(yīng)的音頻信息能量值變化的曲線圖。在該曲線圖中,第一頻點(diǎn)對應(yīng)的音頻信息在z軸對應(yīng)的能量值隨著y軸頻率的變化而變化,由此獲得一系列能量波峰值,通過統(tǒng)計(jì)得到波峰最大值enmax、波峰平均值
pji的公式化表達(dá)參考公式(3):
通過引入時(shí)間上具備關(guān)聯(lián)性的l幀音頻信息的平均能量進(jìn)行計(jì)算得到的波動(dòng)值作為時(shí)域特征值,如此,可以避免僅采用頻域特征值作為是否存在回音的判定標(biāo)準(zhǔn)可能出現(xiàn)的誤判的情況,避免頻域特征值突然變化而產(chǎn)生的回音誤判的情況,提升系統(tǒng)的穩(wěn)定性,使得系統(tǒng)的魯棒性更強(qiáng)。
檢測完成后,執(zhí)行步驟s103。在有回音的情況下,正常打開回音消除器,在沒有回音的情況下關(guān)閉回音消除器,從而減小音頻損傷。
特征值包括頻域特征值和時(shí)域特征值兩個(gè)維度,上述頻域特征值pti表征回音大小,而時(shí)域特征值pji表示第i幀在l幀范圍內(nèi)的峰值波動(dòng)。pji的值越小,代表波動(dòng)越小,進(jìn)而表示回音檢測的可信度越高。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,執(zhí)行步驟s103時(shí),基于所述音頻信息在所述第一頻段的音頻特征,對回音消除器進(jìn)行控制,包括:
在所述音頻信息在第一頻段的時(shí)域特征值小于第一門限值、以及頻域特征值大于第二門限值的情況下,確定存在回音信息,控制開啟所述回音消除器;
和/或,
在所述音頻信息在第一頻段的時(shí)域特征值不小于第一門限值、以及頻域特征值不大于第二門限值的情況下,確定不存在回音信息,控制關(guān)閉所述回音消除器。
具體的,通過大量的實(shí)驗(yàn)數(shù)據(jù)分析,可以得到兩個(gè)門限值tp(第二門限值)和tj(第一門限值),分別對應(yīng)于頻域特征值pti和時(shí)域特征值pji,回音檢測標(biāo)準(zhǔn)由公式(4)決定:
也就是說,當(dāng)提取得到的頻域特征值pti大于門限值tp,且提取的到的時(shí)域值pji小于門限值tj時(shí),回音檢測結(jié)果(decision)為確認(rèn)存在噪聲,decision的結(jié)果會(huì)被送到aec模塊中,去動(dòng)態(tài)打開aec的開關(guān)。除此之外,當(dāng)提取得到的頻域特征值pti不大于門限值tp,或者提取的到的時(shí)域值pji不小于門限值tj時(shí),回音檢測結(jié)果為確認(rèn)不存在噪聲,或者噪聲在容忍限度內(nèi),或者噪聲較小,decision的結(jié)果會(huì)被送到aec模塊中,去動(dòng)態(tài)關(guān)閉aec的開關(guān)。
由于大部分aec只有開或關(guān)的處理,因此通過采用門限值進(jìn)行判斷是否將aec打開或關(guān)閉,能夠適用于大部分aec的處理。并且,結(jié)合前述通過峰谷比作為頻域特征值,以及波動(dòng)值作為時(shí)域特征值,可以使得音頻信息的特征較為穩(wěn)定,因此,上述時(shí)域特征值以及頻域特征值結(jié)合相應(yīng)的門限值進(jìn)行判斷也可以較為準(zhǔn)確的控制aec的開或關(guān)。
上述aec(acousticechocancellation)是一種信號處理的技術(shù),其功能是消除在通信系統(tǒng)中的回音信號,保障對話人不被回音信號所干擾,提升通話質(zhì)量。
具體來說,回音消除器的回音消除的處理可以包括:
圖4展示了在一個(gè)一對一的rtc(real-timecommunication)場景中,aec模塊的結(jié)構(gòu)。x代表了遠(yuǎn)端信號(far-endsignal),表示通過網(wǎng)絡(luò)從另一個(gè)設(shè)備發(fā)送過來的信號。d代表了近端信號(near-endsignal),亦是麥克風(fēng)所采集到的信號。這個(gè)信號里不僅包含了本端聲場中的信號(語音信號加上噪聲),也包含了本端揚(yáng)聲器播放出來的遠(yuǎn)端信號。aec模塊的目的是,在不損傷本端聲場信號的情況下,將信號d中的回音部分y消除掉。其核心是利用一個(gè)自適應(yīng)濾波器(adaptivefilter)去估計(jì)y信號,然后用其抵消掉信號d中的回音部分。
回音消除中的算法實(shí)現(xiàn)是自適應(yīng)濾波器設(shè)計(jì)的核心部分。該處理中將已經(jīng)轉(zhuǎn)換成數(shù)字信號的主通道和參考通道信號在高速信號處理器中按照自適應(yīng)濾波算法進(jìn)行處理,處理完成以后送到系統(tǒng)的輸出模塊。在信號的輸出模塊,通過數(shù)模轉(zhuǎn)換器得到模擬信號,再經(jīng)過低通濾波,送給揚(yáng)聲器輸出,由此得到經(jīng)過回聲消除以后的語音信號。
再具體來說,自適應(yīng)濾波器是一個(gè)對輸入信號進(jìn)行處理并不停學(xué)習(xí),直到其達(dá)到期望值的器件。自適應(yīng)濾波器在輸入信號非平穩(wěn)條件下,也可以根據(jù)環(huán)境不斷調(diào)節(jié)濾波器權(quán)值向量,使算法達(dá)到特定的收斂條件,從而實(shí)現(xiàn)自適應(yīng)濾波過程。自適應(yīng)濾波器按輸入信號類型可分為模擬濾波器和離散濾波器,比如,離散濾波器可以使用數(shù)字濾波器(數(shù)字濾波器按結(jié)構(gòu)可劃分為輸入不僅與過去和當(dāng)前的輸入有關(guān)、還與過去的輸出有關(guān)的無限沖激響應(yīng)濾波器(iir),以及輸出與有限個(gè)過去和當(dāng)前的輸入有關(guān)的有限沖激響應(yīng)濾波器(fir))為了使得自適應(yīng)濾波器具有更強(qiáng)的穩(wěn)定性,并且具有足夠的濾波器系數(shù)可以用來調(diào)整以達(dá)到特定的收斂準(zhǔn)則,一般選取橫向的fir濾波器進(jìn)行來進(jìn)行回聲的消除。
另外,回音消除的算法可以包括有l(wèi)sm算法、歸一化最小均方(nlms)算法等等,本實(shí)施例中不對其進(jìn)行窮舉。
示例性介質(zhì)
在介紹了本發(fā)明示例性實(shí)施方式的方法之后,接下來,參考圖5對本發(fā)明示例性實(shí)施方式的介質(zhì)進(jìn)行說明。
在一些可能的實(shí)施方式中,本發(fā)明的各個(gè)方面還可以實(shí)現(xiàn)為一種計(jì)算機(jī)可讀介質(zhì),其上存儲(chǔ)有程序,當(dāng)所述程序被處理器執(zhí)行時(shí)用于實(shí)現(xiàn)本說明書上述“示例性方法”部分中描述的根據(jù)本發(fā)明各種示例性實(shí)施方式的回音處理方法中的步驟。
具體地,上述處理器執(zhí)行上述程序時(shí)用于實(shí)現(xiàn)如下步驟:
采集音頻信息;其中,所述音頻信息中包含參考音頻;
對所述音頻信息中所述參考音頻所在的第一頻段進(jìn)行音頻特征提取,得到所述音頻信息在所述第一頻段的音頻特征;
基于所述音頻信息在所述第一頻段的音頻特征,對回音消除器進(jìn)行控制。
需要說明的是:上述的介質(zhì)可以是可讀信號介質(zhì)或者可讀存儲(chǔ)介質(zhì)。可讀存儲(chǔ)介質(zhì)例如可以是但不限于:電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。可讀存儲(chǔ)介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式盤、硬盤、隨機(jī)存取存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、可擦式可編程只讀存儲(chǔ)器(eprom或閃存)、光纖、便攜式緊湊盤只讀存儲(chǔ)器(cd-rom)、光存儲(chǔ)器件、磁存儲(chǔ)器件、或者上述的任意合適的組合。
如圖5所示,描述了根據(jù)本發(fā)明的實(shí)施方式的介質(zhì)50,其可以采用便攜式緊湊盤只讀存儲(chǔ)器(cd-rom)并包括程序,并可以在設(shè)備上運(yùn)行。然而,本發(fā)明不限于此,在本文件中,可讀存儲(chǔ)介質(zhì)可以是任何包含或存儲(chǔ)程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。
可讀信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了可讀程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括但不限于:電磁信號、光信號或上述的任意合適的組合。可讀信號介質(zhì)還可以是可讀存儲(chǔ)介質(zhì)以外的任何可讀介質(zhì),該可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。
可以以一種或多種程序設(shè)計(jì)語言的任意組合來編寫用于執(zhí)行本發(fā)明操作的程序代碼,上述程序設(shè)計(jì)語言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語言—諸如java、c++等,還包括常規(guī)的過程式程序設(shè)計(jì)語言—諸如“c”語言或類似的程序設(shè)計(jì)語言。程序代碼可以完全地在用戶計(jì)算設(shè)備上執(zhí)行、部分在用戶計(jì)算設(shè)備上部分在遠(yuǎn)程計(jì)算設(shè)備上執(zhí)行、或者完全在遠(yuǎn)程計(jì)算設(shè)備或服務(wù)器上執(zhí)行。在涉及遠(yuǎn)程計(jì)算設(shè)備的情形中,遠(yuǎn)程計(jì)算設(shè)備可以通過任意種類的網(wǎng)絡(luò)—包括局域網(wǎng)(lan)或廣域網(wǎng)(wan)—連接到用戶計(jì)算設(shè)備
示例性電子設(shè)備
在介紹了本發(fā)明示例性實(shí)施方式的方法之后,接下來,參考圖6本發(fā)明示例性實(shí)施方式的電子設(shè)備進(jìn)行說明。
本發(fā)明的第二個(gè)方面提供一種有關(guān)回音處理的電子設(shè)備100,如圖6所示,包括:
拾音器101,用于采集音頻信息;其中,所述音頻信息中包含參考音頻;
處理器102,用于對所述音頻信息中所述參考音頻所在的第一頻段進(jìn)行音頻特征提取,得到所述音頻信息在所述第一頻段的音頻特征;基于所述音頻信息在所述第一頻段的音頻特征,對回音消除器進(jìn)行控制。
在一種實(shí)施方式中,電子設(shè)備中的處理器102用于獲取音頻信息在所述參考音頻所在的所述第一頻段的時(shí)域特征值以及頻域特征值;將所述時(shí)域特征值以及所述頻域特征值作為所述音頻信息在所述第一頻段的音頻特征。
在一種實(shí)施方式中,電子設(shè)備中的處理器102用于獲取第i幀音頻信息在第一頻段內(nèi)的能量峰值,以及兩個(gè)能量波谷值;基于所述能量峰值以及所述兩個(gè)能量波谷值,確定所述第i幀音頻信息在第一頻段內(nèi)的峰谷比,將所述第i幀音頻信息在第一頻段內(nèi)的峰谷比作為所述第i幀音頻信息在所述第一頻段的頻域特征值。
在一種實(shí)施方式中,電子設(shè)備中中的第一頻段內(nèi)的能量峰值為:所述第一頻段中第一頻點(diǎn)所對應(yīng)的能量值;
所述兩個(gè)能量波谷值為:
在第一頻段內(nèi)以第一頻點(diǎn)為中心增加預(yù)設(shè)帶寬值得到的第一相鄰頻點(diǎn)所對應(yīng)的能量值,以及在第一頻段內(nèi)以第一頻點(diǎn)為中心減少預(yù)設(shè)帶寬值的第二相鄰頻點(diǎn)所對應(yīng)的能量值;
或者,
在第一頻段內(nèi)大于所述第一頻點(diǎn)的頻段中的第一個(gè)能量波谷值,以及在第一頻段內(nèi)小于所述第一頻點(diǎn)的頻段中的第一個(gè)能量波谷值。
在一種實(shí)施方式中,電子設(shè)備中的拾音器101,還用于:
獲取l幀音頻信息;其中,所述l幀音頻信息中包括:第i幀音頻信息,以及第i幀音頻信息之前的l-1幀音頻信息;l為大于等于1的整數(shù);
所述處理器102,用于確定所述l幀音頻信息的能量平均值,以及所述l幀音頻信息中的最大能量值;基于所述l幀音頻信息的能量平均值、最大能量值、以及所述l幀音頻信息中的每一幀音頻信息在第一頻點(diǎn)的能量值,確定所述第i幀音頻信息的峰值波動(dòng)值,將所述第i幀音頻信息的峰值波動(dòng)值作為所述第i幀音頻信息在第一頻段的時(shí)域特征值。
在一種實(shí)施方式中,電子設(shè)備中的處理器102用于對l幀音頻信息進(jìn)行轉(zhuǎn)換得到所述l幀音頻信息中每一幀音頻信息的頻域信號;其中,所述l幀音頻信息中包括:第i幀音頻信息,以及第i幀音頻信息之前的l-1幀音頻信息;l為大于等于1的整數(shù);
基于所述l幀音頻信息中每一幀音頻信息的頻域信號,確定所述每一幀音頻信息的能量表示;
基于所述l幀音頻信息中每一幀音頻信息的能量表示,構(gòu)建包含所述l幀音頻信息的特征平面;
其中,所述特征平面中包含:所述l幀音頻信息中每一幀音頻信息在第一頻段內(nèi)至少一個(gè)頻點(diǎn)的能量值;所述至少一個(gè)頻點(diǎn)中包括第一頻點(diǎn)。
在一種實(shí)施方式中,電子設(shè)備中的處理器102用于在所述音頻信息在第一頻段的時(shí)域特征值小于第一門限值、以及頻域特征值大于第二門限值的情況下,確定存在回音信息,控制開啟所述回音消除器;
和/或,
所述處理器102,用于在所述音頻信息在第一頻段的時(shí)域特征值不小于第一門限值、以及頻域特征值不大于第二門限值的情況下,確定不存在回音信息,控制關(guān)閉所述回音消除器。
在一種實(shí)施方式中,電子設(shè)備還包括:
混音器103,用于將參考音頻與當(dāng)前待播放音頻信息進(jìn)行混合,得到混合后的音頻信息;
揚(yáng)聲器104,用于播放所述混合后的音頻信息。
所述第一頻段為包括14850hz至15150hz的頻段。
示例性裝置
在介紹了本發(fā)明示例性電子設(shè)備之后,接下來,參考圖7本發(fā)明示例性實(shí)施方式的裝置進(jìn)行說明。
本發(fā)明實(shí)施例的第三個(gè)方面提供一種有關(guān)回音處理裝置200,如圖7所示,包括:
音頻采集單元201,用于采集音頻信息;其中,所述音頻信息中包含參考音頻;
特征提取單元202,用于對所述音頻信息中所述參考音頻所在的第一頻段進(jìn)行音頻特征提取,得到所述音頻信息在所述第一頻段的音頻特征;
回音消除aec控制單元203,用于基于所述音頻信息在所述第一頻段的音頻特征,對回音消除器進(jìn)行控制。
在一種實(shí)施方式中,特征提取單元202用于獲取音頻信息在所述參考音頻所在的所述第一頻段的時(shí)域特征值以及頻域特征值;將所述時(shí)域特征值以及所述頻域特征值作為所述音頻信息在所述第一頻段的音頻特征。
在一種實(shí)施方式中,特征提取單元202用于獲取第i幀音頻信息在第一頻段內(nèi)的能量峰值,以及兩個(gè)能量波谷值;基于所述能量峰值以及所述兩個(gè)能量波谷值,確定所述第i幀音頻信息在第一頻段內(nèi)的峰谷比,將所述第i幀音頻信息在第一頻段內(nèi)的峰谷比作為所述第i幀音頻信息在所述第一頻段的頻域特征值。
在一種實(shí)施方式中,所述第一頻段內(nèi)的能量峰值為:
所述第一頻段中第一頻點(diǎn)所對應(yīng)的能量值;
所述兩個(gè)能量波谷值為:
在第一頻段內(nèi)以第一頻點(diǎn)為中心增加預(yù)設(shè)帶寬值得到的第一相鄰頻點(diǎn)所對應(yīng)的能量值,以及在第一頻段內(nèi)以第一頻點(diǎn)為中心減少預(yù)設(shè)帶寬值的第二相鄰頻點(diǎn)所對應(yīng)的能量值;
或者,
在第一頻段內(nèi)大于所述第一頻點(diǎn)的頻段中的第一個(gè)能量波谷值,以及在第一頻段內(nèi)小于所述第一頻點(diǎn)的頻段中的第一個(gè)能量波谷值。
在一種事實(shí)方式中,特征提取單元202,用于獲取l幀音頻信息;其中,所述l幀音頻信息中包括:第i幀音頻信息,以及第i幀音頻信息之前的l-1幀音頻信息;l為大于等于1的整數(shù);
確定所述l幀音頻信息的能量平均值,以及所述l幀音頻信息中的最大能量值;
基于所述l幀音頻信息的能量平均值、最大能量值、以及所述l幀音頻信息中的每一幀音頻信息在第一頻點(diǎn)的能量值,確定所述第i幀音頻信息的峰值波動(dòng)值,將所述第i幀音頻信息的峰值波動(dòng)值作為所述第i幀音頻信息在第一頻段的時(shí)域特征值。
在一種實(shí)施方式中,特征提取單元202,用于:
對l幀音頻信息進(jìn)行轉(zhuǎn)換得到所述l幀音頻信息中每一幀音頻信息的頻域信號;其中,所述l幀音頻信息中包括:第i幀音頻信息,以及第i幀音頻信息之前的l-1幀音頻信息;l為大于等于1的整數(shù);
基于所述l幀音頻信息中每一幀音頻信息的頻域信號,確定所述每一幀音頻信息的能量表示;
基于所述l幀音頻信息中每一幀音頻信息的能量表示,構(gòu)建包含所述l幀音頻信息的特征平面;
其中,所述特征平面中包含:所述l幀音頻信息中每一幀音頻信息在第一頻段內(nèi)至少一個(gè)頻點(diǎn)的能量值;所述至少一個(gè)頻點(diǎn)中包括第一頻點(diǎn)。
在一種事實(shí)方式中,所述aec控制單元203,用于在所述音頻信息在第一頻段的時(shí)域特征值小于第一門限值、以及頻域特征值大于第二門限值的情況下,確定存在回音信息,控制開啟所述回音消除器;
和/或,
所述aec控制單元203,用于在所述音頻信息在第一頻段的時(shí)域特征值不小于第一門限值、以及頻域特征值不大于第二門限值的情況下,確定不存在回音信息,控制關(guān)閉所述回音消除器。
在一種實(shí)施方式中,所述裝置還包括:
混音單元204,用于將參考音頻與當(dāng)前待播放音頻信息進(jìn)行混合,得到混合后的音頻信息;
音頻輸出單元205,用于播放所述混合后的音頻信息。
在一種實(shí)施方式中,所述第一頻段為14850hz至15150hz的頻段。
示例性計(jì)算設(shè)備
在介紹了本發(fā)明示例性實(shí)施方式的方法、電子設(shè)備和裝置之后,接下來,參考圖8本發(fā)明示例性實(shí)施方式的計(jì)算設(shè)備進(jìn)行說明。
所屬技術(shù)領(lǐng)域的技術(shù)人員能夠理解,本發(fā)明的各個(gè)方面可以實(shí)現(xiàn)為系統(tǒng)、方法或程序產(chǎn)品。因此,本發(fā)明的各個(gè)方面可以具體實(shí)現(xiàn)為以下形式,即:完全的硬件實(shí)施方式、完全的軟件實(shí)施方式(包括固件、微代碼等),或硬件和軟件方面結(jié)合的實(shí)施方式,這里可以統(tǒng)稱為“電路”、“模塊”或“系統(tǒng)”。
在一些可能的實(shí)施方式中,根據(jù)本發(fā)明實(shí)施方式的計(jì)算設(shè)備可以至少包括至少一個(gè)處理單元以及至少一個(gè)存儲(chǔ)單元。其中,存儲(chǔ)單元存儲(chǔ)有程序代碼,當(dāng)程序代碼被處理單元執(zhí)行時(shí),使得處理單元執(zhí)行本說明書上述“示例性方法”部分中描述的根據(jù)本發(fā)明的各種示例性實(shí)施方式的特征處理方法中的步驟。
下面參照圖8來描述根據(jù)本發(fā)明的這種實(shí)施方式的計(jì)算設(shè)備90。圖8顯示的計(jì)算設(shè)備90僅僅是一個(gè)示例,不應(yīng)對本發(fā)明實(shí)施例的功能和使用范圍帶來任何限制。
如圖8所示,計(jì)算設(shè)備90以通用計(jì)算設(shè)備的形式表現(xiàn)。計(jì)算設(shè)備90的組件可以包括但不限于:上述至少一個(gè)處理單元901、上述至少一個(gè)存儲(chǔ)單元902,連接不同系統(tǒng)組件(包括處理單元901和存儲(chǔ)單元902)的總線903。
總線903包括數(shù)據(jù)總線、控制總線和地址總線。
存儲(chǔ)單元902可以包括易失性存儲(chǔ)器形式的可讀介質(zhì),例如隨機(jī)存取存儲(chǔ)器(ram)9021和/或高速緩存存儲(chǔ)器9022,可以進(jìn)一步包括非易失性存儲(chǔ)器形式的可讀介質(zhì),例如只讀存儲(chǔ)器(rom)9023。
存儲(chǔ)單元902還可以包括具有一組(至少一個(gè))程序模塊9024的程序/實(shí)用工具9025,這樣的程序模塊9024包括但不限于:操作系統(tǒng)、一個(gè)或者多個(gè)應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個(gè)或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實(shí)現(xiàn)。
計(jì)算設(shè)備90也可以與一個(gè)或多個(gè)外部設(shè)備904(例如鍵盤、指向設(shè)備等)通信。這種通信可以通過輸入/輸出(i/o)接口905進(jìn)行。并且,計(jì)算設(shè)備90還可以通過網(wǎng)絡(luò)適配器906與一個(gè)或者多個(gè)網(wǎng)絡(luò)(例如局域網(wǎng)(lan),廣域網(wǎng)(wan)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖7所示,網(wǎng)絡(luò)適配器906通過總線903與計(jì)算設(shè)備90的其它模塊通信。應(yīng)當(dāng)理解,盡管圖中未示出,可以結(jié)合計(jì)算設(shè)備90使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū)動(dòng)器、冗余處理單元、外部磁盤驅(qū)動(dòng)陣列、raid系統(tǒng)、磁帶驅(qū)動(dòng)器以及數(shù)據(jù)備份存儲(chǔ)系統(tǒng)等。
應(yīng)當(dāng)注意,盡管在上文詳細(xì)描述中提及了特征處理裝置的若干單元/模塊或子單元/模塊,但是這種劃分僅僅是示例性的并非強(qiáng)制性的。實(shí)際上,根據(jù)本發(fā)明的實(shí)施方式,上文描述的兩個(gè)或更多單元/模塊的特征和功能可以在一個(gè)單元/模塊中具體化。反之,上文描述的一個(gè)單元/模塊的特征和功能可以進(jìn)一步劃分為由多個(gè)單元/模塊來具體化。
此外,盡管在附圖中以特定順序描述了本發(fā)明方法的操作,但是,這并非要求或者暗示必須按照該特定順序來執(zhí)行這些操作,或是必須執(zhí)行全部所示的操作才能實(shí)現(xiàn)期望的結(jié)果。附加地或備選地,可以省略某些步驟,將多個(gè)步驟合并為一個(gè)步驟執(zhí)行,和/或?qū)⒁粋€(gè)步驟分解為多個(gè)步驟執(zhí)行。
雖然已經(jīng)參考若干具體實(shí)施方式描述了本發(fā)明的精神和原理,但是應(yīng)該理解,本發(fā)明并不限于所公開的具體實(shí)施方式,對各方面的劃分也不意味著這些方面中的特征不能組合以進(jìn)行受益,這種劃分僅是為了表述的方便。本發(fā)明旨在涵蓋所附權(quán)利要求的精神和范圍內(nèi)所包括的各種修改和等同布置。