語音數據處理方法、裝置、電子設備及可讀存儲介質與流程

文檔序號：14912871發布日期：2018-07-10 23:54閱讀：244來源：國知局

技術簡介：
本專利針對傳統語音變調過程中語速與時長改變導致音質失真的問題，提出基于目標MIDI音頻頻域參數的相位替換方案。通過提取目標音高對應的語音頻域特征，利用OLA算法實現相位連續的音高變換，在保持原語速與時長的前提下完成自然變調，有效消除機械音和噪音，適用于音樂音高修正及人聲轉歌聲等場景。
關鍵詞：語音變調,頻域參數

本發明涉及數據處理技術領域，具體而言，涉及一種語音數據處理方法、裝置、電子設備及可讀存儲介質。

背景技術：

語音變調是在不改變音頻文件語速的情況下，通過一定算法實現說話人語調的改變，包括語調的平移及將語音變換到特定的音調上。現有的變調處理會出現相位不連續，并且會產生噪音的問題。

技術實現要素：

有鑒于此，本發明提供了一種語音數據處理方法、裝置、電子設備及可讀存儲介質，可以解決上述問題，實現變調后的語音相位連續。

本發明提供的技術方案如下：

一種語音數據處理方法，包括：

獲取語音數據及目標MIDI音頻，所述語音數據包括與所述目標MIDI音頻對齊后的語音；

獲得所述語音數據的初始頻域參數；

獲得與預設的目標MIDI音頻對應的目標頻域參數，其中所述初始頻域參數包括所述語音數據的初始相位，所述目標頻域參數包括與所述目標MIDI音頻對應的目標相位；

根據所述目標頻域參數對所述初始頻域參數進行修改，將所述語音數據中的音高變換到所述目標MIDI音頻中的目標音高，得到變調后的語音數據。

進一步的，獲得語音數據的初始頻域參數的步驟包括：

獲取所述語音數據中與所述目標音高對應時間上的語音數據；

對與所述目標音高對應時間上的語音數據進行去零點漂移和預加重處理；

對經過去零點漂移和預加重處理的語音數據進行時頻轉換，得到所述語音數據每一幀的頻域參數。

進一步的，對經過去零點漂移和預加重處理的語音數據進行時頻轉換的步驟包括：

計算所述語音數據中每一幀的幀移；

根據計算得到的幀移及預設的窗函數對所述語音數據進行分幀、加窗；

將分幀、加窗后的每一幀語音數據進行傅里葉變換，得到所述語音數據中每一幀的頻域參數。

進一步的，計算所述語音數據中每一幀的幀移的步驟包括：

利用采樣率除以目標頻率得到每一幀的幀移，其中所述目標頻率為所述目標MIDI音頻的頻率，目標頻率采用以下公式計算得到：

其中，F為所述目標MIDI音頻的目標頻率，MIDINote為所述目標MIDI音頻包括的音高值。

進一步的，所述目標MIDI音頻記錄有聲音的目標頻率，獲得與預設的目標MIDI音頻對應的目標頻域參數的步驟包括：

生成與所述目標頻率相同音高的，且與該目標頻率對應的語音數據等時長的目標波形；

提取所述目標波形的相位值，作為所述目標頻域參數；

相應的，根據所述目標MIDI音頻的頻域參數對所述語音數據的頻域參數進行修改的步驟包括：

將所述語音數據中與該目標波形對應位置的語音數據的相位值替換為所述目標波形的相位值，得到變調后的語音數據的頻域參數；

對變調后的語音數據的頻域參數進行逆傅里葉變換，并通過OLA重疊疊加算法處理后得到變調后的語音數據。

本發明還提供了一種語音數據處理裝置，包括：

數據獲取模塊，用于獲取語音數據及目標MIDI音頻，所述語音數據包括與所述目標MIDI音頻對齊后的語音；

語音數據處理模塊，用于獲得所述語音數據的初始頻域參數；

目標MIDI音頻處理模塊，獲得與預設的目標MIDI音頻對應的目標頻域參數，其中所述初始頻域參數包括所述語音數據的初始相位，所述目標頻域參數包括與所述目標MIDI音頻對應的目標相位；

變調模塊，用于根據所述目標頻域參數對所述初始頻域參數進行修改，將所述語音數據中的音高變換到所述目標MIDI音頻中的目標音高，得到變調后的語音數據。

進一步的，所述語音數據處理模塊獲得語音數據的初始頻域參數的方法包括：

對所述語音數據進行去零點漂移和預加重處理；

對經過去零點漂移和預加重處理的語音數據進行時頻轉換，得到所述語音數據每一幀的頻域參數。

進一步的，所述語音數據處理模塊對經過去零點漂移和預加重處理的語音數據進行時頻轉換的步驟包括：

計算所述語音數據中每一幀的幀移；

根據計算得到的幀移及預設的窗函數對所述語音數據進行分幀、加窗；

將分幀、加窗后的每一幀語音數據進行傅里葉變換，得到所述語音數據中每一幀的頻域參數。

進一步的，所述語音數據處理模塊計算所述語音數據中每一幀的幀移的步驟包括：

利用采樣率除以目標頻率得到每一幀的幀移，其中所述目標頻率為所述目標MIDI音頻的頻率，目標頻率采用以下公式計算得到：

其中F為所述目標MIDI音頻的目標頻率，MIDINote為所述目標MIDI音頻包括的音高值。

進一步的，所述目標MIDI音頻記錄有聲音的目標頻率，所述目標MIDI音頻處理模塊獲得與預設的目標MIDI音頻對應的目標頻域參數的方法包括：

生成與所述目標頻率相同音高的，且與該目標頻率對應的語音數據等時長的目標波形；

提取所述目標波形的相位值，作為所述目標頻域參數；

相應的，所述變調模塊根據所述目標MIDI音頻的頻域參數對所述語音數據的頻域參數進行修改的方法包括：

將所述語音數據中與該目標波形對應位置的語音數據的相位值替換為所述目標波形的相位值，得到變調后的語音數據的頻域參數；

對變調后的語音數據的頻域參數進行逆傅里葉變換，并通過OLA重疊疊加算法處理后得到變調后的語音數據。

本發明還提供了一種電子設備，所述電子設備包括：處理器以及存儲器，所述存儲器耦接到所述處理器，所述存儲器存儲指令，當所述指令由所述處理器執行時使所述電子設備執行以下操作：

獲取語音數據及目標MIDI音頻，所述語音數據包括與所述目標MIDI音頻對齊后的語音；

獲得所述語音數據的初始頻域參數；

根據所述目標頻域參數對所述初始頻域參數進行修改，將所述語音數據中的音高變換到所述目標MIDI音頻中的目標音高，得到變調后的語音數據。

本發明還提供了一種可讀存儲介質，所述可讀存儲介質包括計算機程序，所述計算機程序運行時控制所述可讀存儲介質所在電子設備執行權利要求1-5中任意一項所述的語音數據處理方法。

本申請實施例可以使語音數據中的語音具有目標MIDI音頻的頻域參數，使變調后的語音數據可以具有目標MIDI音頻的音高特征，實現對語音數據的變調操作，可以實現不改變語音數據中語速和語音時長的情況下，對語音數據進行變調。變調后的語音數據的相位連續，不會出現噪音，同時能夠避免出現機械音，變調效果更好。可以應用于歌曲中音高的修正，或人聲到歌聲的轉換等，在聲音處理領域具有較高的應用前景。

為使本發明的上述目的、特征和優點能更明顯易懂，下文特舉較佳實施例，并配合所附附圖，作詳細說明如下。

附圖說明

為了更清楚地說明本發明實施例的技術方案，下面將對實施例中所需要使用的附圖作簡單地介紹，應當理解，以下附圖僅示出了本發明的某些實施例，因此不應被看作是對范圍的限定，對于本領域普通技術人員來講，在不付出創造性勞動的前提下，還可以根據這些附圖獲得其他相關的附圖。

圖1是本發明實施例提供的電子設備的方框示意圖。

圖2為本發明實施例提供的一種語音數據處理方法的流程示意圖。

圖3為本發明實施例提供的一種語音數據處理方法中步驟S102的子步驟的流程示意圖。

圖4為本發明實施例提供的一種語音數據處理方法中步驟S103的子步驟的流程示意圖。

圖5為本發明實施例提供的一種語音數據處理裝置的功能模塊示意圖。

圖標：100-電子設備；111-存儲器；112-存儲控制器；113-處理器；300-語音數據處理裝置；310-數據獲取模塊；320-語音數據處理模塊；330-目標MIDI音頻處理模塊；340-變調模塊。

具體實施方式

下面將結合本發明實施例中附圖，對本發明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發明一部分實施例，而不是全部的實施例。通常在此處附圖中描述和示出的本發明實施例的組件可以以各種不同的配置來布置和設計。因此，以下對在附圖中提供的本發明的實施例的詳細描述并非旨在限制要求保護的本發明的范圍，而是僅僅表示本發明的選定實施例。基于本發明的實施例，本領域技術人員在沒有做出創造性勞動的前提下所獲得的所有其他實施例，都屬于本發明保護的范圍。

應注意到：相似的標號和字母在下面的附圖中表示類似項，因此，一旦某一項在一個附圖中被定義，則在隨后的附圖中不需要對其進行進一步定義和解釋。同時，在本發明的描述中，術語“第一”、“第二”等僅用于區分描述，而不能理解為指示或暗示相對重要性。

目前已有的變調方法主要可以分為兩大類：一類是時域插值拼接的方法，例如同步累疊相加固定合成法(synchronized overlap-add fixed synthesis，SOLA-FS)；另一類是頻域處理法，常被稱為相位聲碼器(phase vocoder)。時域處理方法的優點是計算量小，而且變調結果的自然度較好，但由于拼接處理會帶來相位的不連續，產生噪音；頻域方法需要進行時頻轉換、相位估計等，需要較大的運算量且變調后的語音會存在機械音。

請參照圖1，是本發明較佳實施例提供的的一種電子設備100的方框示意圖。所述電子設備100可以包括語音數據處理裝置300、存儲器111、存儲控制器112及處理器113。

所述存儲器111、存儲控制器112及處理器113各元件相互之間直接或間接地電性連接，以實現數據的傳輸或交互。例如，這些元件相互之間可通過一條或多條通訊總線或信號線實現電性連接。所述語音數據處理裝置300可以包括至少一個可以軟件或固件(firmware)的形式存儲于所述存儲器111中或固化在所述電子設備100的操作系統(operating system，OS)中的軟件功能模塊。所述處理器113用于執行所述存儲器111中存儲的可執行模塊，例如所述語音數據處理裝置300所包括的軟件功能模塊及計算機程序等。

其中，所述存儲器111可以是，但不限于，隨機存取存儲器(Random Access Memory，RAM)，只讀存儲器(Read Only Memory，ROM)，可編程只讀存儲器(Programmable Read-Only Memory，PROM)，可擦除只讀存儲器(Erasable Programmable Read-Only Memory，EPROM)，電可擦除只讀存儲器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存儲器111用于存儲程序，所述處理器113在接收到執行指令后，執行所述程序。所述處理器113以及其他可能的組件對存儲器111的訪問可在所述存儲控制器112的控制下進行。

所述處理器113可能是一種集成電路芯片，具有信號的處理能力。上述的處理器113可以是通用處理器，包括中央處理器(Central Processing Unit，CPU)、網絡處理器(Network Processor，NP)等；還可以是數字信號處理器(DSP)、專用集成電路(ASIC)、現成可編程門陣列(FPGA)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件。可以實現或者執行本發明實施例中的公開的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或者該處理器也可以是任何常規的處理器等。

本申請實施例提供了一種語音數據處理方法，可以實現對語音數據的變調，可以應用于上述電子設備100，如圖2所示，該方法包括以下步驟。

步驟S101，獲取語音數據及目標MIDI音頻，所述語音數據包括與所述目標MIDI音頻對齊后的語音。

步驟S102，獲得語音數據的初始頻域參數。

本申請實施例中的語音數據可以是一段語音，也可以是一段歌曲，本申請實施例并不限定語音數據的時長和內容，該語音數據可以根據實際需要選擇確定。本申請實施例通過對語音數據的處理實現對語音數據中語音的變調，計算得到的初始頻域參數可以是語音數據中每一幀數據的初始頻域參數，也可以僅計算需要變調的幀的頻域參數，在本申請實施例中，語音數據的初始頻域參數可以包括語音數據中聲音的相位和幅度。

本申請實施例中的變調是指改變語音數據中聲音的音高，將某一幀語音的音高改變為需要的音高。

如圖3所示，獲得語音數據的初始頻域參數的步驟可以包括以下子步驟。

子步驟S1021，對所述語音數據進行去零點漂移和預加重處理。

子步驟S1022，對經過去零點漂移和預加重處理的語音數據進行時頻轉換，得到所述語音數據每一幀的頻域參數。

由于語音數據會存在零點漂移的情況，通過去零點漂移可以改善零點漂移的情況。同時語音數據會受口唇輻射的影響，通過預加重可以對語音的高頻部分進行加重，去除口唇輻射的影響，增加語音的高頻分辨率。去零點漂移和預加重處理可以采用以下公式進行計算。

x(n)＝x(n)-mean_x

其中x(n)為第n點對應的采樣值，為去零點漂移后的輸出值，mean_x為計算得到的該段語音的時域幅度的均值。

預加重可以通過一階FIR高通濾波器來實現。具體計算公式如下。

y(n)＝x(n)-ax(n-1)

其中y(n)為預處理后的輸出，x(n)為未經預處理的音頻，a為預加重系數，一般取0.9～1.0，可選的，a取0.98。

對經過去零點漂移和預加重處理的語音數據進行時頻轉換的方法可以包括以下三個步驟。

首先，計算所述語音數據中每一幀的幀移。

再次，根據計算得到的幀移及預設的窗函數對所述語音數據進行分幀、加窗。

然后，將分幀、加窗后的每一幀語音數據進行傅里葉變換，得到所述語音數據中每一幀的頻域參數。

計算所述語音數據中每一幀的幀移可以利用采樣率除以目標頻率得到每一幀的幀移，其中所述目標頻率為所述目標MIDI音頻的頻率，采用以下公式計算得到：

其中F為對應的頻率音高，MIDINote為目標MIDI音頻文件包括的音高值。要想提高一個八度可以將數值110替換成220。

語音信號是一種隨時間而變化的信號，然而發聲器官的狀態變化速度較聲音振動的速度要緩慢的多。我們可以認為在很短的時間內語音信號是平穩的，即短時平穩性。這樣我們可以將語音進行分幀然后進行分析。一般幀長為10～30毫秒，幀與幀之間有幀疊。加窗主要有兩個作用：一是使信號全局更加連續，避免出現吉布斯效應。二是使原本沒有周期性的語音信號呈現出周期函數的部分特征。可以采用窗函數進行加窗處理，下面列舉幾種窗函數。

矩形窗函數如下：

漢明窗函數如下：

漢寧窗函數如下：

其中N為窗長。通過上述窗函數實現對語音數據的加窗處理。

通過上述方法可以獲得語音數據的初始頻域參數。

步驟S103，獲得與預設的目標MIDI音頻對應的目標頻域參數。

本申請實施例中的目標MIDI音頻可以包括語音數據需要變調后的音高信息，該目標MIDI音頻可以是一段與語音數據等時長的數據，該目標MIDI音頻可以作為語音數據變調的基準。可以理解的是，可以先確定需要變調的語音數據，再確定作為變調基準的目標MIDI音頻。也可以先確定目標MIDI音頻，再根據目標MIDI音頻的時長選擇等時長的語音數據。

在本申請實施例中，目標MIDI音頻可以是MIDI(Musical instrument Digital Interface)格式的文件，其中包含有以時間為基準不同時間點的音高信息，及不同音高持續的時長，以及不同音高的起始和終止時間點。通過確定目標MIDI音頻的音高信息，可以確定語音數據需要變調到的音高。并且根據音高和頻率的轉換關系，可以確定不同音高對應的頻率。

可以理解的是，在獲得語音數據和目標MIDI音頻的過程中，可以先確定需要變調的起始位置和對應的需要變調到的目標音高。

詳細的，如圖4所示，目標MIDI音頻的目標頻域參數可以通過以下子步驟確定。

子步驟S1031，生成與所述目標頻率相同音高的，且與該目標頻率對應的語音數據等時長的目標波形。

所述目標波形的頻率與所述目標MIDI音頻中的預設目標頻率的頻率相同，所述目標波形的時長與該預設目標頻率對應的語音數據的時長相等。

如前所述，目標MIDI音頻中包含有不同的音高信息，通過音高和頻率的轉換關系，可以確定不同的音高對應的頻率，這些頻率即為目標MIDI音頻包含的預設目標頻率。生成的目標波形的頻率與目標MIDI音頻中的預設目標頻率的頻率相同，在一個目標MIDI音頻中可以包含有多個預設目標頻率，可以分別生成與多個預設目標頻率相對應的目標波形，并且目標波形的時長與語音數據中相應位置的語音的時長分別相等。

目標波形可以根據實際需要確定，例如可以生成正弦波或者正弦波的變形作為目標波形。由于人類的聲帶是直接生成正弦波的聲音，且在說話時聲帶的振動與弦類的波形類似。在對語音數據中的所有進行變調操作時，可以針對不同時間點的語音進行針對性的波形選擇。可以選擇正弦波作為所有時間點的語音變調的目標波形，也可以針對不同時間點的語音數據生成不同的目標波形。不同的目標波形可以對應不同的音色，使得人類聽覺感受也不同。

詳細的，可以通過下面的方法生成目標波形。

首先，獲取一個目標波形在目標音高時對應的采樣點數。通過如下公式計算。

Len＝Fs/F

其中Len為目標波形一個周期對應的采樣點數，Fs為采樣率，F為目標頻率。

然后，計算采樣間隔。

delta1＝(4*π)/Len

delta2＝(2*π)/Len

再計算不同目標波形對應的采樣值。參考音色1可表示為：

y[n]＝(sin(-3*π+n*delta1))/(-3*π+n*delta1)

參考音色2可表示為：

y[n]＝(sin(n*delta2)+abs(sin(n*delta2))*alpha)/(1+alpha)

其中y為波形一個周期對應的所有采樣值，n為采樣點，0≤n<Len，abs()為求絕對值，alpha大于0小于1。通過重復一個周期的數據多次后，即可獲得與目標語音等長度的波形采樣值數據。

子步驟S1032，提取所述目標波形的相位值。

生成對應的目標波形后，可以先對目標波形進行分幀、加窗處理，使目標波形的幀長與語音數據的幀長保持一致，再進行短時傅里葉變換，提取每一幀目標波形變換后對應的相位值，作為目標MIDI音頻的目標頻域參數。

步驟S104，根據所述目標頻域參數對所述初始頻域參數進行修改，將所述語音數據中的音高變換到所述目標MIDI音頻中的目標音高，得到變調后的語音數據。

通過上述步驟得到了目標頻域參數后，就可以將語音數據的初始頻域參數替換為目標頻域參數，實現對初始頻域參數的修改。具體的，將語音數據的初始相位替換為對應的目標波形的相位值。由于語音數據中包含有清音和濁音，而清音不具有周期性，如果對清音對應的初始相位也進行相位值替換，就會使變調后的結果變差。本申請實施例中的相位值的替換可以僅針對濁音對應的音幀，不對清音的相位值進行替換，清音對應的語音數據仍然使用原有的相位值。

詳細的，可以先將所述語音數據中與所述目標波形對應位置的語音數據的相位值替換為所述目標波形的相位值，得到變調后的語音數據的頻域參數。

對變調后的語音數據的頻域參數進行逆傅里葉變換，并通過OLA(Overlap-and-Add)重疊疊加算法處理后得到變調后的語音數據。變調后的語音數據就可以進行輸出、保存等其他操作。

本申請實施例還提供了一種語音數據處理裝置300，如圖5所示，包括：

數據獲取模塊310，用于獲取語音數據及目標MIDI音頻，所述語音數據包括與所述目標MIDI音頻對齊后的語音；

語音數據處理模塊320，用于獲得所述語音數據的初始頻域參數；

目標MIDI音頻處理模塊330，獲得與預設的目標MIDI音頻對應的目標頻域參數，其中所述初始頻域參數包括所述語音數據的初始相位，所述目標頻域參數包括與所述目標MIDI音頻對應的目標相位；

變調模塊340，用于根據所述目標頻域參數對所述初始頻域參數進行修改，將所述語音數據中的音高變換到所述目標MIDI音頻中的目標音高，得到變調后的語音數據。

可以理解的是，所述語音數據處理模塊320獲得語音數據的初始頻域參數的方法包括：

對所述語音數據進行去零點漂移和預加重處理；

對經過去零點漂移和預加重處理的語音數據進行時頻轉換，得到所述語音數據每一幀的頻域參數。

在本實施例中，所述語音數據處理模塊320對經過去零點漂移和預加重處理的語音數據進行時頻轉換的步驟包括：

計算所述語音數據中每一幀的幀移；

根據計算得到的幀移及預設的窗函數對所述語音數據進行分幀、加窗；

將分幀、加窗后的每一幀語音數據進行傅里葉變換，得到所述語音數據中每一幀的頻域參數。

在本實施例中，所述語音數據處理模塊320計算所述語音數據中每一幀的幀移的步驟包括：

利用采樣率除以目標頻率得到每一幀的幀移，其中所述目標頻率為所述目標MIDI音頻的頻率，目標頻率采用以下公式計算得到：

其中F為所述目標MIDI音頻的目標頻率，MIDINote為所述目標MIDI音頻包括的音高值。

在本實施例中，所述目標MIDI音頻記錄有聲音的目標頻率，所述變調模塊340根據所述目標MIDI音頻的頻域參數對所述語音數據的頻域參數進行修改的方法包括：

生成與所述目標頻率相同音高的，且與該目標頻率對應的語音數據等時長的目標波形；

提取所述目標波形的相位值；

將所述語音數據中與該目標波形對應位置的語音數據的相位值替換為所述目標波形的相位值，得到變調后的語音數據的頻域參數；

對變調后的語音數據的頻域參數進行逆傅里葉變換，并通過OLA重疊疊加算法處理后得到變調后的語音數據。

本申請實施例中根據目標MIDI音頻生成與語音數據對應的目標波形，并且目標波形是基于目標MIDI音頻包含的音高信息進行生成的，再使用目標波形的相位值替換語音數據中的語音的相位值。使得語音數據的頻域參數被修改為與目標MIDI音頻對應的頻域參數，使語音數據具有目標MIDI音頻的音高特征，實現對語音數據的變調處理。本申請實施例通過相位值的替換，并沒有將語音數據的相位值置零，在實現變調的同時，可以避免出現相位不連續和機械音的情況。同時通過使用目標波形對語音數據相位值的替換，使得變調后的語音數據可以具有目標波形的聲音效果，使變調后的語音具有目標波形的音色性質。

綜上所述，通過利用目標MIDI音頻的頻域參數對語音數據的頻域參數進行修改，可以使語音數據中的語音具有目標MIDI音頻的頻域參數，使變調后的語音數據可以具有目標MIDI音頻的音高特征，實現對語音數據的變調操作，可以實現不改變語音數據中語速和語音時長的情況下，對語音數據進行變調。變調后的語音數據的相位連續，不會出現噪音，同時能夠避免出現機械音，變調效果更好。可以應用于歌曲中音高的修正，或人聲到歌聲的轉換等，在聲音處理領域具有較高的應用前景。

本方法是在傳統的基于零相位的變調算法上進行改進得到的，通過加入同頻率的波形對應的相位值，改善了相位不連續與機械音的情況。同時在原語音上加入了添加波形的一些音色信息，這樣就可以通過添加不同的波形獲得不同的變調結果，增加了變調的多樣性。在應用中可以通過讓用戶自選波形的方式，使每個用戶獲得個性化的變調結果，具有較好的實用背景。本方法相比于傳統的基于零相位的方法對機械音的情況有了較好的改善，相比于傳統的時域方法在相位連續性上也有了較為明顯的提升。

本申請實施例提供的方法還可以與語音變速方法結合，并且可以結合混音技術將變調后的干聲與背景樂結合實現歌聲的自動合成。由于本方法中的變調算法可以實現個性化的變調，所以本方法在歌聲合成是可以實現個性化的歌聲合成。可以通過不同的添加波形來控制不同的歌聲合成輸出，波形為用戶可選的，這樣用戶可以根據自己的喜好選擇不同的效果，增加了本方法的實用性。

在本申請所提供的幾個實施例中，應該理解到，所揭露的裝置和方法，也可以通過其它的方式實現。以上所描述的裝置實施例僅僅是示意性的，例如，附圖中的流程圖和框圖顯示了根據本發明的多個實施例的裝置、方法和計算機程序產品的可能實現的體系架構、功能和操作。在這點上，流程圖或框圖中的每個方框可以代表一個模塊、程序段或代碼的一部分，所述模塊、程序段或代碼的一部分包含一個或多個用于實現規定的邏輯功能的可執行指令。也應當注意，在有些作為替換的實現方式中，方框中所標注的功能也可以以不同于附圖中所標注的順序發生。例如，兩個連續的方框實際上可以基本并行地執行，它們有時也可以按相反的順序執行，這依所涉及的功能而定。也要注意的是，框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合，可以用執行規定的功能或動作的專用的基于硬件的系統來實現，或者可以用專用硬件與計算機指令的組合來實現。

另外，在本發明各個實施例中的各功能模塊可以集成在一起形成一個獨立的部分，也可以是各個模塊單獨存在，也可以兩個或兩個以上模塊集成形成一個獨立的部分。

所述功能如果以軟件功能模塊的形式實現并作為獨立的產品銷售或使用時，可以存儲在一個計算機可讀取存儲介質中。基于這樣的理解，本發明的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的部分可以以軟件產品的形式體現出來，該計算機軟件產品存儲在一個存儲介質中，包括若干指令用以使得一臺計算機設備(可以是個人計算機，服務器，或者網絡設備等)執行本發明各個實施例所述方法的全部或部分步驟。而前述的存儲介質包括：U盤、移動硬盤、只讀存儲器(ROM，Read-Only Memory)、隨機存取存儲器(RAM，Random Access Memory)、磁碟或者光盤等各種可以存儲程序代碼的介質。需要說明的是，在本文中，諸如第一和第二等之類的關系術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來，而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關系或者順序。而且，術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下，由語句“包括一個……”限定的要素，并不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。

以上所述僅為本發明的優選實施例而已，并不用于限制本發明，對于本領域的技術人員來說，本發明可以有各種更改和變化。凡在本發明的精神和原則之內，所作的任何修改、等同替換、改進等，均應包含在本發明的保護范圍之內。應注意到：相似的標號和字母在下面的附圖中表示類似項，因此，一旦某一項在一個附圖中被定義，則在隨后的附圖中不需要對其進行進一步定義和解釋。

以上所述，僅為本發明的具體實施方式，但本發明的保護范圍并不局限于此，任何熟悉本技術領域的技術人員在本發明揭露的技術范圍內，可輕易想到變化或替換，都應涵蓋在本發明的保護范圍之內。因此，本發明的保護范圍應所述以權利要求的保護范圍為準。

完整全部詳細技術資料下載

當前第1頁1 2 3

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：卓鵬鵬;張康;方博偉;尤嘉華;張偉
技術所有人：廈門美圖之家科技有限公司
我是此專利的發明人

上一篇：回聲消除方法及裝置與流程
下一篇：一種印刷加工工藝專用聚乙烯塑料薄膜紙張覆膜機的制作方法

相關技術

一種基于深度學習模型的變調語音復原方法及系統

語音變調方法、存儲介質及電子設備與流程

針對現有語音變調技術中幀間不連續導致的咔噠聲問題，提出基于目標相位信息的幅值平滑調整方法。通過分析語音采樣點的相位特征，利用相位步進值動態計算目標相位，結合語音平滑模型（如正常/激活模型）對幅...

一種藍牙音頻變調方法、裝置、介質及藍牙設備與流程

針對藍牙音頻變調中頻域法導致的高運算量和延遲問題，提出利用編解碼過程中的離散余弦變換數據，通過計算幅度偽譜估計基頻并調整相位和頻率，降低系統復雜度和延遲，提升用戶體驗。 ...

語音信號的參數化表達、加密傳輸和重構的方法及裝置與流程

一種實時語音轉換方法和裝置的制造方法

針對實時語音轉換中語音特征提取不精準、模型泛化能力弱的問題，提出基于神經網絡的解決方案。通過構建多音素目標語音數據庫，結合LPC預測提取基頻與共振峰數據，利用動態時間規整（DTW）實現語音幀對...

一種實現聲音變速不變調方法及變速變調系統的制作方法

變速方法和系統的制作方法

針對變速處理中信號接合處不平滑、語音質量下降的問題，提出將互相關搜索范圍分階段設置不同權值的解決思路。通過分階段計算互相關值、加權確定最大值并疊加信號，優化變速效果；同時采用分級增采樣與濾波處...

語音降噪方法及其裝置制造方法

針對語音信號中噪聲干擾問題，提出基于雙麥克風和頻域處理的降噪方法。通過短時傅里葉變換獲取雙通道頻域信號，結合語音激活判斷與平滑因子動態計算能量譜及互相關能量譜，利用麥克風間距構建互相關傳遞函數...

一種突發事件語音檢測方法

針對現有語音識別算法在處理跨周期不完整信號時特征提取不準確、識別率低的問題，提出一種融合MFCC與LPCC特征的突發事件檢測方法。通過分幀處理、多階段匹配及動態時間歸正算法，結合多級判決門限，...

網友詢問留言留言:0條

還沒有人留言評論。精彩留言會獲得點贊！

文明留言，給您點贊！

同類技術

相關技術