本實現方式一般涉及音頻信號處理,并且具體地涉及單麥克風聲學回聲和噪聲抑制技術。
背景技術:
1、許多免提通信裝置(諸如互聯網協議語音(voip)電話、揚聲器電話和配置成以免提模式操作的移動電話)包括以相對緊密接近于彼此而定位的麥克風和揚聲器。麥克風配置成將來自周圍環境的聲波轉換成音頻信號(也稱為“麥克風信號”),該音頻信號可通過通信信道傳送到遠端裝置。揚聲器配置成將從遠端裝置接收的音頻信號轉換成可由近端用戶聽到的聲波。由于揚聲器與麥克風接近,因此麥克風信號可包括語音成分(表示源自近端用戶的音頻)、回聲成分(表示由揚聲器發出的音頻)以及噪聲成分(表示來自背景環境的環境音頻)。
2、聲學回聲消除(aec)是指嘗試消除或抑制麥克風信號的回聲成分的各種技術。許多現有的aec技術依賴線性傳遞函數,該線性傳遞函數近似揚聲器和麥克風之間的脈沖響應。例如,可使用對揚聲器和麥克風之間的聲學耦合(或信道)建模的自適應濾波器(諸如歸一化最小均方(nlms)算法)來確定該線性傳遞函數。然而,nlms算法的收斂速率可取決于雙講(double-talk?)狀態(諸如近端用戶和遠端用戶同時說話的情況)和對回聲路徑的改變。此外,此類線性傳遞函數不能考慮到由放大器和揚聲器的各種機械組件沿回聲路徑引入的非線性。因此,存在對于進一步改進麥克風信號中的語音的質量的需要。
技術實現思路
1、提供這個概述以用簡化的形式介紹下文中在詳細描述中進一步描述的概念的選擇。這個概述既不旨在標識所要求保護的主題的關鍵特征或必要特征,也不旨在限制所要求保護的主題的范圍。
2、本公開的主題的一個創新方面可以以語音增強的方法被實現。所述方法包括以下步驟:經由麥克風接收第一音頻信號;接收用于經由揚聲器輸出的第二音頻信號;基于第一音頻信號與第二音頻信號之間的延遲來估計參考音頻信號;基于第一音頻信號和參考音頻信號來確定多個掩碼,其中多個掩碼包括與第一音頻信號的語音成分關聯的語音掩碼,與第一音頻信號的回聲成分關聯的回聲掩碼以及與第一音頻信號的噪聲成分關聯的噪聲掩碼;以及至少部分基于多個掩碼來抑制第一音頻信號的回聲成分和噪聲成分。
3、本公開的主題的另一創新方面可以以語音增強系統被實現,所述系統包括處理系統和存儲器。存儲器存儲指令,所述指令當由處理系統執行時使語音增強系統:經由麥克風接收第一音頻信號;接收用于經由揚聲器輸出的第二音頻信號;基于第一音頻信號與第二音頻信號之間的延遲來估計參考音頻信號;基于第一音頻信號和參考音頻信號來確定多個掩碼,其中多個掩碼包括與第一音頻信號的語音成分關聯的語音掩碼、與第一音頻信號的回聲成分關聯的回聲掩碼以及與第一音頻信號的噪聲成分關聯的噪聲掩碼;以及至少部分基于多個掩碼來抑制第一音頻信號的回聲成分和噪聲成分。
1.一種語音增強的方法,包括:
2.如權利要求1所述的方法,其中,所述語音成分包括源自與所述麥克風關聯的近端用戶的音頻,所述回聲成分包括由所述揚聲器基于所述第二音頻信號輸出的音頻,并且所述噪聲成分包括不源自所述近端用戶并且不由所述揚聲器輸出的音頻。
3.如權利要求1所述的方法,還包括:
4.如權利要求3所述的方法,其中,所述aec操作與線性濾波器關聯。
5.如權利要求1所述的方法,其中,對所述多個掩碼的所述確定包括:
6.如權利要求5所述的方法,其中,對所述多個掩碼的所述確定還包括:
7.如權利要求6所述的方法,其中,對所述語音掩碼的所述估計包括:
8.如權利要求6所述的方法,其中,對所述回聲掩碼的所述估計包括:
9.如權利要求6所述的方法,其中,對所述回聲掩碼的所述估計包括:
10.如權利要求9所述的方法,其中,對所述回聲掩碼的所述估計還包括:
11.?一種語音增強系統,包括:
12.如權利要求11所述的語音增強系統,其中,所述語音成分包括源自與所述麥克風關聯的近端用戶的音頻,所述回聲成分包括由所述揚聲器基于所述第二音頻信號輸出的音頻,并且所述噪聲成分包括不源自所述近端用戶并且不由所述揚聲器輸出的音頻。
13.如權利要求11所述的語音增強系統,其中,所述指令的執行還使所述語音增強系統:
14.如權利要求13所述的語音增強系統,其中,所述aec操作與線性濾波器關聯。
15.如權利要求11所述的語音增強系統,其中,對所述多個掩碼的所述確定包括:
16.如權利要求15所述的語音增強系統,其中,對所述多個掩碼的所述確定還包括:
17.如權利要求16所述的語音增強系統,其中,對所述語音掩碼的所述估計包括:
18.如權利要求16所述的語音增強系統,其中,對所述回聲掩碼的所述估計包括:
19.如權利要求16所述的語音增強系統,其中,對所述回聲掩碼的所述估計包括:
20.如權利要求19所述的語音增強系統,其中,對所述回聲掩碼的所述估計還包括: