本發明涉及自然語言處理,尤其涉及應用于方言的韻律文本生成方法及裝置。
背景技術:
1、韻律文本是在普通文本的基礎上增加韻律信息的文本表示形式。韻律文本內嵌的韻律信息,包括漢字及數字的的發音。這些韻律信息是語言的一個重要組成部分,大大影響了語言的節奏和旋律。韻律文本的應用范圍廣泛,包括但不限于語音合成(text-to-speech,tts)、語音識別和語音情感分析。在語音合成中,韻律文本可以幫助生成更自然且具有表情的語音。在語音識別中,韻律信息可以幫助提高句子結構和標點的識別準確度。在語音情感分析中,韻律信息則可以用作情感狀態的重要線索。
2、然而,現有的韻律文本往往是基于普通話的發音規則生成,由于方言的韻律特性與普通話等標準語言的韻律特性存在很大的差異,因此,基于普通話數據生成方言的韻律文本時,可能無法捕捉到其準確的韻律特性,從而導致根據這些韻律文本進行語音合成時,生成的語音無法精準表達方言的韻律特色。
技術實現思路
1、本發明所要解決的技術問題在于,提供應用于方言的韻律文本生成方法及裝置,能夠為方言生成符合方言韻律特性的韻律文本,提高語音合成時方言韻律表達的準確性。
2、為了解決上述技術問題,本發明第一方面公開了一種應用于方言的韻律文本生成方法,所述方法包括:
3、將目標方言的待標注文本按照預設的文本切分方式進行切分,得到所述待標注文本的所有原始單元,所有所述原始單元包括漢字字符、拼音字符串及數字字符串中的一種或多種;
4、根據所述目標方言的類型,從預先確定出的多個方言拼音編碼中,確定與所述目標方言相匹配的目標方言拼音編碼,所述目標方言拼音編碼用于表示所述目標方言中所有音節的發音;
5、對于任一所述原始單元,基于所述目標方言拼音編碼對所述原始單元進行編碼,得到所述原始單元的目標單元;
6、根據每個所述目標單元對應的所述原始單元在所述待標注文本中的排序順序,對所有所述目標單元進行排序,得到所述待標注文本對應的方言韻律文本。
7、作為一種可選的實施方式,在本發明第一方面中,所述應用于方言的韻律文本生成方法還包括:
8、對多個樣本方言中任一所述樣本方言,對所述樣本方言中所有音素進行語音學分析,提取基本語音特征,多個所述樣本方言包括所述目標方言;
9、根據所述基本語音特征,確定方言聲母字符串集合和方言韻母字符串集合,所述方言聲母字符串集合包括代表所述樣本方言中所有音節開始部分發音的所有方言聲母字符串,所述方言韻母字符串集合包括代表所述樣本方言中所有音節非開始部分發音的所有方言韻母字符串;
10、根據所述基本語音特征,確定方言聲調字符集合,所述方言聲調字符集合包括代表所述樣本方言中所有發音聲調的所有方言聲調字符;
11、對于所述樣本方言的任一所述音節,根據該音節對應的方言聲母字符串、方言韻母字符串及方言聲調字符按照預定的方言拼音編碼順序,確定該音節對應的音節拼音編碼,以所述樣本方言的所有音節對應的所述音節拼音編碼作為該樣本方言對應的方言拼音編碼,其中,方言聲母字符串為能夠缺省的字符串;
12、確定所有所述樣本方言對應的方言拼音編碼,為預先確定出的多個所述方言拼音編碼。
13、作為一種可選的實施方式,在本發明第一方面中,所述根據所述基本語音特征,確定方言聲母字符串集合和方言韻母字符串集合,包括:
14、對標準語言中所有音素進行語音學分析,提取標準語言語音特征;
15、對比所述基本語音特征與所述標準語言語音特征的發音差異,得到發音差異對比結果,并根據所述發音差異對比結果,對所述標準語言的聲母字符串進行修改,得到方言聲母字符串集合;根據發音差異對比結果,對所述標準語言的韻母字符串進行修改得到方言韻母字符串集合。
16、作為一種可選的實施方式,在本發明第一方面中,所述對于任一所述原始單元,基于所述目標方言拼音編碼,對所述原始單元進行編碼,得到所述原始單元的目標單元,包括:
17、當所述原始單元為所述數字字符串時,確定所述目標方言的當前應用場景,并從所述目標方言拼音編碼中,獲取預先確定出的所述當前應用場景下的所有單個位數的數字的方言數字發音編碼及數字組合的方言數字組合發音方式,并判斷所述數字字符串是否為一位數;當判斷出所述數字字符串是一位數時,按照所述當前應用場景下所述數字字符串對應的所述單個位數的數字對應的所述方言數字發音編碼對所述數字字符串進行編碼,得到所述數字字符串的目標單元;當判斷出所述數字字符串不是一位數時,按照所述當前應用場景下所述數字字符串中包括的所有所述單個位數的數字對應的所述方言數字發音編碼及所述當前應用場景下所述數字字符串組成的所述數字組合對應的所述方言數字組合發音方式對所述數字字符串進行編碼,得到所述數字字符串的目標單元,每個所述單個位數的數字在同一應用場景的所述方言數字發音編碼相同,且每個所述單個位數的數字在不同應用場景下的所述方言數字發音編碼各不相同,每種所述數字組合在同一應用場景下的所述方言數字組合發音方式相同,且每種所述數字組合在不同應用場景下的所述方言數字組合發音方式各不同,所述數字組合包括至少兩個所述單個位數的數字,所述數字組合的種類由所述數字組合在所述待標注文本中的上下文確定,所述方言數字發音編碼為所述當前應用場景下所述單個位數的數字在所述目標方言中對應的音節的唯一編碼;
18、當所述原始單元為所述漢字字符時,從所述目標方言拼音編碼中確定能夠描述所述漢字字符在所述目標方言中對應的音節的唯一編碼作為所述漢字字符的漢字發音編碼,使用該漢字發音編碼對所述漢字字符進行編碼,得到所述漢字字符的目標單元;
19、當所述原始單元為所述拼音字符串時,從所述目標方言拼音編碼中確定能夠描述所述拼音字符串對應的漢字在所述目標方言中對應的音節的唯一編碼作為所述拼音字符串的拼音發音編碼,使用該拼音發音編碼對所述拼音字符串進行編碼,得到所述拼音字符串的目標單元。
20、作為一種可選的實施方式,在本發明第一方面中,所述原始單元還包括標點符號字符,所述根據每個所述目標單元對應的所述原始單元在所述待標注文本中的排序順序,對所有所述目標單元進行排序,得到所述待標注文本對應的方言韻律文本之前,所述方法還包括:
21、根據所述目標方言的類型,確定每個所述標點符號字符對應的標點符號編碼,所述標點符號編碼用于表示所述標點符號字符在所述待標注文本中的所在位置的在語音流中對應位置的停頓時長;按照所述標點符號編碼對所述標點符號字符進行編碼得到所述標點符號字符的目標單元;
22、其中,所述標點符號編碼由以下方式確定:
23、根據所述目標方言的類型,預定義至少一種語音停頓模式,每種所述語音停頓模式在語音流中保持不同時長的靜音模式;
24、為每種所述語音停頓模式定義唯一的語音停頓模式編碼符號;
25、確定所述目標方言的所有樣本標點符號字符中每個所述樣本標點符號字符匹配的語音停頓模式編碼符號,得到所述標點符號編碼,所有樣本標點符號字符包含所述標點符號字符。
26、作為一種可選的實施方式,在本發明第一方面中,所述將所述目標方言的所述待標注文本按照預設的文本切分方式進行切分之前,所述方法還包括:
27、根據所述目標方言的類型,確定文本清洗方式,根據所述文本清洗方式對所述待標注文本進行文本清洗操作,所述文本清洗操作包括刪除重復的字符和/或刪除預先確定的非法字符;和/或
28、根據所述目標方言的類型,確定標點符號刪除方式,根據所述標點符號刪除方式對所述待標注文本進行標點符號刪除操作;和/或
29、判斷所述待標注文本中是否存在與所述目標方言類型不同的其他語言文本,如果存在所述其他語言文本,則將所述其他語言文本轉換為與所述目標方言類型相同的文本。
30、作為一種可選的實施方式,在本發明第一方面中,在所述根據每個所述目標單元對應的所述原始單元在所述待標注文本中的排序順序,對所有所述目標單元進行排序,得到所述待標注文本對應的方言韻律文本之后,所述方法還包括:
31、使用預先確定出的方言語音合成模型將所述方言韻律文本轉換為能夠播放的方言語音文件;
32、所述方言語音合成模型通過將所述方言韻律文本輸入標準語言對應的語音合成模型進行遷移學習得到。
33、本發明第二方面公開了一種應用于方言的韻律文本生成裝置,所述裝置包括:
34、切分模塊,用于將目標方言的待標注文本按照預設的文本切分方式進行切分,得到所述待標注文本的所有原始單元,所有所述原始單元包括漢字字符、拼音字符串及數字字符串中的一種或多種;
35、確定模塊,用于根據所述目標方言的類型,從預先確定出的多個方言拼音編碼中,確定與所述目標方言相匹配的目標方言拼音編碼,所述目標方言拼音編碼用于表示所述目標方言中所有音節的發音;
36、編碼模塊,用于對任一所述原始單元,基于所述目標方言拼音編碼對所述原始單元進行編碼,得到所述原始單元的目標單元;
37、排序模塊,用于根據每個所述目標單元對應的所述原始單元在所述待標注文本中的排序順序,對所有所述目標單元進行排序,得到所述待標注文本對應的方言韻律文本。
38、作為一種可選的實施方式,在本發明第二方面中,所述裝置還包括:
39、語音學分析模塊,用于對多個樣本方言中任一所述樣本方言,對所述樣本方言中所有音素進行語音學分析,提取基本語音特征,多個所述樣本方言包括所述目標方言;
40、方言音節解析模塊,用于根據所述基本語音特征,確定方言聲母字符串集合和方言韻母字符串集合,所述方言聲母字符串集合包括代表所述樣本方言中所有音節開始部分發音的所有方言聲母字符串,所述方言韻母字符串集合包括代表所述樣本方言中所有音節非開始部分發音的所有方言韻母字符串;
41、所述方言音節解析模塊,還用于根據所述基本語音特征,確定方言聲調字符集合,所述方言聲調字符集合包括代表所述樣本方言中所有發音聲調的所有方言聲調字符;
42、方言音節編碼模塊,用于對于所述樣本方言的任一所述音節,根據該音節對應的方言聲母字符串、方言韻母字符串及方言聲調字符按照預定的方言拼音編碼順序,確定該音節對應的音節拼音編碼,以所述樣本方言的所有音節對應的所述音節拼音編碼作為該樣本方言對應的方言拼音編碼,其中,方言聲母字符串為能夠缺省的字符串。
43、所述確定模塊,還用于在所述方言音節編碼模塊確定出所有所述樣本方言對應的方言拼音編碼后,確定所有所述樣本方言對應的方言拼音編碼,為預先確定出的多個所述方言拼音編碼。
44、作為一種可選的實施方式,在本發明第二方面中,所述方言音節解析模塊根據所述基本語音特征,確定方言聲母字符串集合和方言韻母字符串集合的具體方式為:
45、對標準語言中所有音素進行語音學分析,提取標準語言語音特征;
46、對比所述基本語音特征與所述標準語言語音特征的發音差異,得到發音差異對比結果,并根據所述發音差異對比結果,對所述標準語言的聲母字符串進行修改,得到方言聲母字符串集合;根據發音差異對比結果,對所述標準語言的韻母字符串進行修改得到方言韻母字符串集合。
47、作為一種可選的實施方式,在本發明第二方面中,所述編碼模塊對任一所述原始單元,基于所述目標方言拼音編碼,對所述原始單元進行編碼,得到所述原始單元的目標單元的具體方式為:
48、當所述原始單元為所述數字字符串時,確定所述目標方言的當前應用場景,并從所述目標方言拼音編碼中,獲取預先確定出的所述當前應用場景下的所有單個位數的數字的方言數字發音編碼及數字組合的方言數字組合發音方式,并判斷所述數字字符串是否為一位數;當判斷出所述數字字符串是一位數時,按照所述當前應用場景下所述數字字符串對應的所述單個位數的數字對應的所述方言數字發音編碼對所述數字字符串進行編碼,得到所述數字字符串的目標單元;當判斷出所述數字字符串不是一位數時,按照所述當前應用場景下所述數字字符串中包括的所有所述單個位數的數字對應的所述方言數字發音編碼及所述當前應用場景下所述數字字符串組成的數字組合對應的所述方言數字組合發音方式對所述數字字符串進行編碼,得到所述數字字符串的目標單元,每個所述單個位數的數字在同一應用場景的所述方言數字發音編碼相同,且每個所述單個位數的數字在不同應用場景下的所述方言數字發音編碼各不相同,每種數字組合在同一應用場景下的所述方言數字組合發音方式相同,且每種所述數字組合在不同應用場景下的所述方言數字組合發音方式各不同,所述數字組合包括至少兩個所述單個位數的數字,所述數字組合的種類由所述數字組合在所述待標注文本中的上下文確定,所述方言數字發音編碼為所述當前應用場景下所述單個位數的數字在所述目標方言中對應的音節的唯一編碼;
49、當所述原始單元為所述漢字字符時,從所述目標方言拼音編碼中確定能夠描述所述漢字字符在所述目標方言中對應的音節的唯一編碼作為所述漢字字符的漢字發音編碼,使用該漢字發音編碼對所述漢字字符進行編碼,得到所述漢字字符的目標單元;
50、當所述原始單元為所述拼音字符串時,從所述目標方言拼音編碼中確定能夠描述所述拼音字符串對應的漢字在所述目標方言中對應的音節的唯一編碼作為所述拼音字符串的拼音發音編碼,使用該拼音發音編碼對所述拼音字符串進行編碼,得到所述拼音字符串的目標單元。
51、作為一種可選的實施方式,在本發明第二方面中,所述原始單元還包括標點符號字符,所述裝置還包括:
52、第二編碼模塊,用于在所述排序模塊根據每個所述目標單元對應的所述原始單元在所述待標注文本中的排序順序,對所有所述目標單元進行排序,得到所述待標注文本對應的方言韻律文本之前,根據所述目標方言的類型,確定每個所述標點符號字符對應的標點符號編碼,所述標點符號編碼用于表示所述標點符號字符在所述待標注文本中的所在位置的在語音流中對應位置的停頓時長;按照所述標點符號編碼對所述標點符號字符進行編碼得到所述標點符號字符的目標單元;
53、其中,所述標點符號編碼由以下方式確定:
54、根據所述目標方言的類型,預定義至少一種語音停頓模式,每種所述語音停頓模式在語音流中保持不同時長的靜音模式;
55、為每種所述語音停頓模式定義唯一的語音停頓模式編碼符號;
56、確定所述目標方言的所有樣本標點符號字符中每個所述樣本標點符號字符匹配的語音停頓模式編碼符號,得到所述標點符號編碼,所有樣本標點符號字符包含所述標點符號字符。
57、作為一種可選的實施方式,在本發明第二方面中,所述裝置還包括:
58、文本清洗模塊,用于在所述切分模塊將所述目標方言的所述待標注文本按照預設的文本切分方式進行切分之前,根據所述目標方言的類型,確定文本清洗方式,根據所述文本清洗方式對所述待標注文本進行文本清洗操作,所述文本清洗操作包括刪除重復的字符和/或刪除預先確定的非法字符;
59、標點符號刪除模塊,用于在所述切分模塊將所述目標方言的所述待標注文本按照預設的文本切分方式進行切分之前,根據所述目標方言的類型,確定標點符號刪除方式,根據所述標點符號刪除方式對所述待標注文本進行標點符號刪除操作;
60、語言轉換模塊,用于在所述切分模塊將所述目標方言的所述待標注文本按照預設的文本切分方式進行切分之前,判斷所述待標注文本中是否存在與所述目標方言類型不同的其他語言文本,如果存在所述其他語言文本,則將所述其他語言文本轉換為與所述目標方言類型相同的文本。
61、作為一種可選的實施方式,在本發明第二方面中,所述裝置還包括:
62、語音合成模塊,用于在所述排序模塊根據每個所述目標單元對應的所述原始單元在所述待標注文本中的排序順序,對所有所述目標單元進行排序,得到所述待標注文本對應的方言韻律文本之后,使用預先確定出的方言語音合成模型將所述方言韻律文本轉換為能夠播放的方言語音文件;
63、所述方言語音合成模型通過將所述方言韻律文本輸入標準語言對應的語音合成模型進行遷移學習得到。
64、本發明第三方面公開了另一種應用于方言的韻律文本生成裝置,所述裝置包括:
65、存儲有可執行程序代碼的存儲器;
66、與所述存儲器耦合的處理器;
67、所述處理器調用所述存儲器中存儲的所述可執行程序代碼,執行本發明第一方面公開的應用于方言的韻律文本生成方法中的部分或全部步驟。
68、本發明第四方面公開了一種計算機可存儲介質,計算機可存儲介質存儲有計算機指令,計算機指令被調用時,用于執行本發明第一方面公開的應用于方言的韻律文本生成方法中的部分或全部步驟。
69、與現有技術相比,本發明實施例具有以下有益效果:
70、本發明實施例中將目標方言的待標注文本按照預設的文本切分方式進行切分,得到待標注文本的所有原始單元,所有原始單元包括漢字字符、拼音字符串及數字字符串中的一種或多種;根據目標方言的類型,從預先確定出的多個方言拼音編碼中,確定與目標方言相匹配的目標方言拼音編碼,目標方言拼音編碼用于表示目標方言中所有音節的發音;對于任一原始單元,基于目標方言拼音編碼對原始單元進行編碼,得到原始單元的目標單元;根據每個目標單元對應的原始單元在待標注文本中的排序順序,對所有目標單元進行排序,得到待標注文本對應的方言韻律文本。可見,本發明將待標注文本切分為原始單元,并根據目標方言的類型確定目標方言拼音編碼,并使用目標方言拼音編碼以原始單元為單位對待標注文本進行順序編碼,通過目標方言拼音編碼承載的方言韻律特征將待標注文本轉換為符合方言發音特色的方言韻律文本,能夠捕捉到其準確的韻律特性,從而提高方言韻律文本的生成準確性,進而有利于提高合成精準表達方言的韻律特色的語音。