技術(shù)簡介:
本專利針對(duì)傳統(tǒng)口語評(píng)分依賴人工設(shè)計(jì)評(píng)分特性、效率低的問題,提出以音素為單位構(gòu)建評(píng)分模型的解決方案。通過預(yù)訓(xùn)練音素模型對(duì)語音進(jìn)行逐音素評(píng)分,再融合結(jié)果生成整體評(píng)分,無需人工設(shè)計(jì)GOP等復(fù)雜特征,顯著提升評(píng)分準(zhǔn)確性與效率。
關(guān)鍵詞:音素評(píng)分模型,口語評(píng)分方法,機(jī)器學(xué)習(xí)
本發(fā)明涉及語音識(shí)別及數(shù)據(jù)處理
技術(shù)領(lǐng)域:
,具體而言,涉及一種口語評(píng)分方法及裝置。
背景技術(shù):
:目前對(duì)朗讀風(fēng)格題型的口語發(fā)音評(píng)分,主要考察發(fā)音質(zhì)量、流利度、韻律等幾個(gè)方面。其中,發(fā)音質(zhì)量是口語評(píng)分考察的重中之重。當(dāng)前,相關(guān)技術(shù)中通常通過以下三種方式來實(shí)現(xiàn)口語發(fā)音的質(zhì)量評(píng)測:(1)將待評(píng)分語音與標(biāo)準(zhǔn)發(fā)音做比對(duì)。(2)統(tǒng)計(jì)待評(píng)分語音的gop(goodofpronunciation)發(fā)音質(zhì)量特征,根據(jù)得到的gop發(fā)音質(zhì)量特征,建立簡單的映射模型,得到最終的發(fā)音評(píng)分。(3)按照回歸的方式,提取多個(gè)發(fā)音特征,如gop、native似然度等,人工標(biāo)注大量的評(píng)分?jǐn)?shù)據(jù),構(gòu)建回歸評(píng)分模型,利用該回歸評(píng)分模型為待評(píng)分語音進(jìn)行評(píng)分。但上述三種相關(guān)技術(shù)中,需要專業(yè)領(lǐng)域內(nèi)人士,根據(jù)口語發(fā)音質(zhì)量的相關(guān)特性,設(shè)計(jì)gop、native似然度等評(píng)分特征,評(píng)分的準(zhǔn)確性不高,評(píng)分的穩(wěn)定性不好。技術(shù)實(shí)現(xiàn)要素:有鑒于此,本發(fā)明實(shí)施例的目的在于提供一種口語評(píng)分方法及裝置,以解決現(xiàn)有技術(shù)存在的以下問題:現(xiàn)有技術(shù)中需要專業(yè)領(lǐng)域內(nèi)人士,根據(jù)口語發(fā)音質(zhì)量的相關(guān)特性,設(shè)計(jì)gop、native似然度等評(píng)分特征,評(píng)分的準(zhǔn)確性及穩(wěn)定性都不好。第一方面,本發(fā)明實(shí)施例提供了一種口語評(píng)分方法,包括:獲取待評(píng)分語音;通過預(yù)先訓(xùn)練的音素評(píng)分模型對(duì)所述待評(píng)分語音進(jìn)行音素發(fā)音質(zhì)量評(píng)分;根據(jù)所述待評(píng)分語音包括的每個(gè)音素的評(píng)分結(jié)果,確定所述待評(píng)分語音的質(zhì)量分值。結(jié)合第一方面,本發(fā)明實(shí)施例提供了第一方面的第一種可能的實(shí)現(xiàn)方式,其中,所述通過預(yù)先訓(xùn)練的音素評(píng)分模型對(duì)所述待評(píng)分語音進(jìn)行音素發(fā)音質(zhì)量評(píng)分,包括:識(shí)別所述待評(píng)分語音所屬的語言類型;對(duì)所述待評(píng)分語音進(jìn)行聲學(xué)切分,獲得所述待評(píng)分語音包括的每個(gè)音素對(duì)應(yīng)的時(shí)間邊界信息及語音段;從預(yù)先訓(xùn)練的所述語言類型對(duì)應(yīng)的所有音素評(píng)分模型中,確定出所述每個(gè)音素對(duì)應(yīng)的音素評(píng)分模型;根據(jù)所述每個(gè)音素對(duì)應(yīng)的時(shí)間邊界信息及語音段,通過所述每個(gè)音素對(duì)應(yīng)的音素評(píng)分模型分別獲得所述每個(gè)音素對(duì)應(yīng)的質(zhì)量分值。結(jié)合第一方面的第一種可能的實(shí)現(xiàn)方式,本發(fā)明實(shí)施例提供了第一方面的第二種可能的實(shí)現(xiàn)方式,其中,所述對(duì)所述待評(píng)分語音進(jìn)行聲學(xué)切分,獲得所述待評(píng)分語音包括的每個(gè)音素對(duì)應(yīng)的時(shí)間邊界信息及語音段,包括:通過預(yù)設(shè)聲學(xué)模型獲取所述待評(píng)分語音中每個(gè)音素的時(shí)間邊界信息;根據(jù)所述每個(gè)音素的時(shí)間邊界信息,從所述待評(píng)分語音中切分出所述每個(gè)音素對(duì)應(yīng)的語音段。結(jié)合第一方面的第一種可能的實(shí)現(xiàn)方式,本發(fā)明實(shí)施例提供了第一方面的第三種可能的實(shí)現(xiàn)方式,其中,所述根據(jù)所述待評(píng)分語音包括的每個(gè)音素的評(píng)分結(jié)果,確定所述待評(píng)分語音的質(zhì)量分值,包括:根據(jù)所述每個(gè)音素對(duì)應(yīng)的時(shí)間邊界信息及質(zhì)量分值,確定所述待評(píng)分語音包括的每個(gè)單詞的質(zhì)量分值;將所述每個(gè)單詞的質(zhì)量分值融合為所述待評(píng)分語音的質(zhì)量分值。結(jié)合第一方面的第三種可能的實(shí)現(xiàn)方式,本發(fā)明實(shí)施例提供了第一方面的第四種可能的實(shí)現(xiàn)方式,其中,所述根據(jù)所述每個(gè)音素對(duì)應(yīng)的時(shí)間邊界信息及質(zhì)量分值,確定所述待評(píng)分語音包括的每個(gè)單詞的質(zhì)量分值,包括:根據(jù)所述每個(gè)音素對(duì)應(yīng)的時(shí)間邊界信息,確定所述待評(píng)分語音中每個(gè)單詞包含的音素;分別將每個(gè)單詞包含的音素的質(zhì)量分值融合為所述每個(gè)單詞的質(zhì)量分值。結(jié)合第一方面,本發(fā)明實(shí)施例提供了第一方面的第五種可能的實(shí)現(xiàn)方式,其中,所述根據(jù)所述待評(píng)分語音包括的每個(gè)音素的評(píng)分結(jié)果,確定所述待評(píng)分語音的質(zhì)量分值,包括:計(jì)算所述每個(gè)音素的評(píng)分結(jié)果的平均值,將所述平均值確定為所述待評(píng)分語音的質(zhì)量分值。結(jié)合第一方面,本發(fā)明實(shí)施例提供了第一方面的第六種可能的實(shí)現(xiàn)方式,其中,所述獲取待評(píng)分語音之前,還包括:獲取每個(gè)音素對(duì)應(yīng)的訓(xùn)練數(shù)據(jù);根據(jù)所述每個(gè)音素對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)、端到端模型及損失函數(shù),分別訓(xùn)練出所述每個(gè)音素對(duì)應(yīng)的模型參數(shù),獲得所述每個(gè)音素對(duì)應(yīng)的音素評(píng)分模型。第二方面,本發(fā)明實(shí)施例提供了一種口語評(píng)分裝置,所述裝置包括:獲取模塊,用于獲取待評(píng)分語音;音素評(píng)分模塊,用于通過預(yù)先訓(xùn)練的音素評(píng)分模型對(duì)所述待評(píng)分語音進(jìn)行音素發(fā)音質(zhì)量評(píng)分;確定模塊,用于根據(jù)所述待評(píng)分語音包括的每個(gè)音素的評(píng)分結(jié)果,確定所述待評(píng)分語音的質(zhì)量分值。結(jié)合第二方面,本發(fā)明實(shí)施例提供了第二方面的第一種可能的實(shí)現(xiàn)方式,其中,所述音素評(píng)分模塊包括:切分單元,用于對(duì)所述待評(píng)分語音進(jìn)行聲學(xué)切分,獲得所述待評(píng)分語音包括的每個(gè)音素對(duì)應(yīng)的時(shí)間邊界信息及語音段;確定單元,用于從預(yù)先訓(xùn)練的所有音素評(píng)分模型中,確定出所述每個(gè)音素對(duì)應(yīng)的音素評(píng)分模型;獲得單元,用于根據(jù)所述每個(gè)音素對(duì)應(yīng)的時(shí)間邊界信息及語音段,通過所述每個(gè)音素對(duì)應(yīng)的音素評(píng)分模型分別獲得所述每個(gè)音素對(duì)應(yīng)的質(zhì)量分值。結(jié)合第二方面,本發(fā)明實(shí)施例提供了第二方面的第二種可能的實(shí)現(xiàn)方式,其中,所述裝置還包括:模型訓(xùn)練模塊,用于獲取每個(gè)音素對(duì)應(yīng)的訓(xùn)練數(shù)據(jù);根據(jù)所述每個(gè)音素對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)、端到端模型及損失函數(shù),分別訓(xùn)練出所述每個(gè)音素對(duì)應(yīng)的模型參數(shù),獲得所述每個(gè)音素對(duì)應(yīng)的音素評(píng)分模型。在本發(fā)明實(shí)施例提供的方法及裝置中,獲取待評(píng)分語音;通過預(yù)先訓(xùn)練的音素評(píng)分模型對(duì)待評(píng)分語音進(jìn)行音素發(fā)音質(zhì)量評(píng)分;根據(jù)待評(píng)分語音包括的每個(gè)音素的評(píng)分結(jié)果,確定待評(píng)分語音的質(zhì)量分值。本發(fā)明以音素為單位進(jìn)行口語評(píng)分,預(yù)先訓(xùn)練了每種語言類型包含的各個(gè)音素對(duì)應(yīng)的音素評(píng)分模型。由于音素?cái)?shù)量少,所以訓(xùn)練音素評(píng)分模型的工作量小,效率高。在評(píng)分時(shí)先通過音素評(píng)分模型對(duì)待評(píng)分語音包含的每個(gè)音素進(jìn)行評(píng)分,然后將評(píng)分結(jié)果融合為待評(píng)分語音整體的質(zhì)量分值,整個(gè)評(píng)分過程中無需專業(yè)領(lǐng)域內(nèi)人士根據(jù)口語發(fā)音質(zhì)量的相關(guān)特性設(shè)計(jì)gop、native似然度等評(píng)分特性,評(píng)分過程更加細(xì)化,提高了口語評(píng)分的準(zhǔn)確性及穩(wěn)定性。為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合所附附圖,作詳細(xì)說明如下。附圖說明為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡單地介紹,應(yīng)當(dāng)理解,以下附圖僅示出了本發(fā)明的某些實(shí)施例,因此不應(yīng)被看作是對(duì)范圍的限定,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他相關(guān)的附圖。圖1示出了本發(fā)明實(shí)施例1所提供端到端模型的結(jié)構(gòu)示意圖;圖2示出了本發(fā)明實(shí)施例1所提供的一種口語評(píng)分方法的流程圖;圖3示出了本發(fā)明實(shí)施例1所提供的另一種口語評(píng)分方法的流程示意圖;圖4示出了本發(fā)明實(shí)施例2所提供的一種口語評(píng)分裝置的結(jié)構(gòu)示意圖;圖5示出了本發(fā)明實(shí)施例4所提供的一種口語評(píng)分裝置的結(jié)構(gòu)示意圖。具體實(shí)施方式為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。通常在此處附圖中描述和示出的本發(fā)明實(shí)施例的組件可以以各種不同的配置來布置和設(shè)計(jì)。因此,以下對(duì)在附圖中提供的本發(fā)明的實(shí)施例的詳細(xì)描述并非旨在限制要求保護(hù)的本發(fā)明的范圍,而是僅僅表示本發(fā)明的選定實(shí)施例。基于本發(fā)明的實(shí)施例,本領(lǐng)域技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。考慮到相關(guān)技術(shù)中需要專業(yè)領(lǐng)域內(nèi)人士,根據(jù)口語發(fā)音質(zhì)量的相關(guān)特性,設(shè)計(jì)gop、native似然度等評(píng)分特征,評(píng)分的準(zhǔn)確性不高,評(píng)分的穩(wěn)定性不好。。基于此,本發(fā)明實(shí)施例提供了一種口語評(píng)分方法及裝置,下面通過實(shí)施例進(jìn)行描述。實(shí)施例1本發(fā)明實(shí)施例提供了一種口語評(píng)分方法。該方法通過端到端的音素評(píng)分模型來評(píng)價(jià)待評(píng)分語音中每個(gè)音素的質(zhì)量分值,然后再根據(jù)每個(gè)音素的質(zhì)量分值來確定待評(píng)分語音的質(zhì)量分值。本發(fā)明實(shí)施例是以音素為單位進(jìn)行口語評(píng)分的,從語言發(fā)音角度來說,音素是發(fā)音的最小單位,以音素為單位進(jìn)行口語評(píng)分,更細(xì)致,更準(zhǔn)確。而且對(duì)于任何一種語言來說,整個(gè)語言體系所包含的音素的個(gè)數(shù)是有限的,而且相對(duì)于單詞來說,音素的個(gè)數(shù)更少。例如,英語中包含48個(gè)音素,但是英語中包含的單詞數(shù)量達(dá)到幾十萬個(gè)。因此在預(yù)先訓(xùn)練評(píng)分模型時(shí),以單詞為單位來訓(xùn)練評(píng)分模型的話工作量非常巨大。本發(fā)明實(shí)施例中以音素為單位進(jìn)行訓(xùn)練來獲得每個(gè)音素對(duì)應(yīng)的音素評(píng)分模型,在訓(xùn)練過程中所需收集的訓(xùn)練數(shù)據(jù)的數(shù)據(jù)量小,整個(gè)訓(xùn)練過程工作量小,效率高。在應(yīng)用本發(fā)明實(shí)施例提供的方法對(duì)待評(píng)分語音進(jìn)行口語評(píng)分前,首先通過如下方式來訓(xùn)練出每種語言包含的音素對(duì)應(yīng)的音素評(píng)分模型,具體包括:對(duì)于任意一種語言類型,獲取該語言類型包含的每個(gè)音素對(duì)應(yīng)的訓(xùn)練數(shù)據(jù);根據(jù)每個(gè)音素對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)、端到端模型及損失函數(shù),分別訓(xùn)練出每個(gè)音素對(duì)應(yīng)的模型參數(shù),獲得該語言類型中每個(gè)音素對(duì)應(yīng)的音素評(píng)分模型。上述語言類型可以為漢語、英語、韓語、日語等。在獲取語言類型包含的每個(gè)音素對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)時(shí),首先制定評(píng)分準(zhǔn)則,以英文口語發(fā)音評(píng)分為例,可以制定如表1所示的4分制評(píng)分標(biāo)準(zhǔn)。表1所示的評(píng)分標(biāo)準(zhǔn)僅為示例,實(shí)際應(yīng)用中可根據(jù)需求制定評(píng)分準(zhǔn)則。表1分?jǐn)?shù)評(píng)分標(biāo)準(zhǔn)4發(fā)音完全正確,比較具有外國腔3發(fā)音完全正確2少許的發(fā)音瑕疵1發(fā)音不太正確0發(fā)音完全不正確,或者沒說話對(duì)于任意一個(gè)音素,采集大量包含該音素的語音,然后安排兩個(gè)或兩個(gè)以上評(píng)分人員按照制定的評(píng)分準(zhǔn)則對(duì)包含該音素的每段語音進(jìn)行人工評(píng)分。對(duì)于包含該音素的任意一段語音,取所有評(píng)分人員對(duì)該段語音評(píng)分的平均值作為該段語音的質(zhì)量分值。如此能夠獲得包含該音素的每段語音的質(zhì)量分值。包含該音素的每段語音以及每段語音的質(zhì)量分值即為該音素對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)。對(duì)于該語言類型包含的其他每個(gè)音素,同樣按照上述方式依次獲取其他每個(gè)音素對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)。獲取到該語言類型中每個(gè)音素對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)后,確定端到端模型及訓(xùn)練所使用的損失函數(shù)。本發(fā)明實(shí)施例中所采用的端到端模型的結(jié)構(gòu)如圖1所示,其中輸入特征x1,x2,...,xn分別表示輸入的第1幀、第2幀、…、第n幀語音中每一幀的特征。輸入特征為mfcc(melfrequencycepstralcoefficient,mel頻率倒譜系數(shù))或者fbank(filterbank)聲學(xué)特征。在端到端模型中順序輸入n幀包含某一因素的語音后,經(jīng)過lstm(longshort-termmemory,長短期記憶網(wǎng)絡(luò))加權(quán)平均,最后接一個(gè)全連接層,來預(yù)測最終的音素發(fā)音評(píng)分。本發(fā)明實(shí)施例所采用的損失函數(shù)設(shè)定為mse(meansquareerror),具體公式如下:其中,n表示訓(xùn)練的樣本數(shù),表示端到端模型預(yù)測的分?jǐn)?shù),yi表示實(shí)際的分?jǐn)?shù)。端到端模型的結(jié)構(gòu)以及損失函數(shù)設(shè)定后,就可以將獲取的某個(gè)音素對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)代入到端到端模型中,結(jié)合損失函數(shù)進(jìn)行循環(huán)迭代,獲得該音素對(duì)應(yīng)的模型參數(shù)。該音素對(duì)應(yīng)的模型參數(shù)得到后,對(duì)于一個(gè)待評(píng)分的該音素的語音,就可以將語音及該音素的模型參數(shù)代入該端到端模型中進(jìn)行計(jì)算,獲得該待評(píng)分該音素語音的最終評(píng)分。該音素對(duì)應(yīng)的模型參數(shù)與該端到端模型即組成了該音素對(duì)應(yīng)的音素評(píng)分模型。對(duì)于任一語言類型中的任一音素,都可以按照上述方式訓(xùn)練獲得音素對(duì)應(yīng)的音素評(píng)分模型。在本發(fā)明實(shí)施例中,可以將各語言類型包含的音素對(duì)應(yīng)的音素評(píng)分模型按照語言類型進(jìn)行分類存儲(chǔ)。如圖2所示,通過上述過程預(yù)先訓(xùn)練出語言類型中各音素對(duì)應(yīng)的音素評(píng)分模型后,還通過如下步驟101-103的操作應(yīng)用音素評(píng)分模型來對(duì)待評(píng)分語音進(jìn)行口語評(píng)分。步驟101:獲取待評(píng)分語音。本發(fā)明實(shí)施例的執(zhí)行主體為用于口語評(píng)分的終端,該終端可以直接采集用戶現(xiàn)場口述的一段口語錄音作為待評(píng)分語音,也可以從其他終端獲取待評(píng)分語音。步驟102:通過預(yù)先訓(xùn)練的音素評(píng)分模型對(duì)待評(píng)分語音進(jìn)行音素發(fā)音質(zhì)量評(píng)分。獲取到待評(píng)分語音后,通過如下步驟a1-a4的操作來獲取待評(píng)分語音中每個(gè)音素的質(zhì)量分值,具體包括:a1:識(shí)別待評(píng)分語音所屬的語言類型。本發(fā)明實(shí)施例可以通過各語言類型對(duì)應(yīng)的詞庫來識(shí)別待評(píng)分語音所屬的語言類型。a2:對(duì)待評(píng)分語音進(jìn)行聲學(xué)切分,獲得待評(píng)分語音包括的每個(gè)音素對(duì)應(yīng)的時(shí)間邊界信息及語音段。通過預(yù)設(shè)聲學(xué)模型獲取待評(píng)分語音中每個(gè)音素的時(shí)間邊界信息。根據(jù)每個(gè)音素的時(shí)間邊界信息,通過預(yù)設(shè)聲學(xué)模型從待評(píng)分語音中切分出每個(gè)音素對(duì)應(yīng)的語音段。上述預(yù)設(shè)聲學(xué)模型為混合lstm-hmm深度學(xué)習(xí)聲學(xué)模型(lstm-hmmhybridsystem)。通過預(yù)設(shè)聲學(xué)模型識(shí)別每個(gè)音素的時(shí)間邊界信息,并根據(jù)時(shí)間邊界信息切分出每個(gè)音素對(duì)應(yīng)的語音段。例如,對(duì)于待評(píng)分語音“goodmorning”,其對(duì)應(yīng)的音素集合為其中,單詞good包含三個(gè)音素[g]、[u]、[d],假設(shè)good發(fā)音的起始時(shí)間為00:00,截止時(shí)間為00:03,音素[g]的時(shí)間邊界信息為[00:00,00:01],音素[u]的時(shí)間邊界信息為[00:01,00:02],音素[d]的時(shí)間邊界信息為[00:02,00:03],依據(jù)這三個(gè)音素的時(shí)間邊界信息能夠準(zhǔn)確的切分出三個(gè)音素[g]、[u]、[d]各自對(duì)應(yīng)的語音段。a3:從預(yù)先訓(xùn)練的上述語言類型對(duì)應(yīng)的所有音素評(píng)分模型中,確定出待評(píng)分語音中每個(gè)音素對(duì)應(yīng)的音素評(píng)分模型。步驟a1中識(shí)別出了待評(píng)分語音所屬的語言類型。預(yù)先訓(xùn)練的音素評(píng)分模型是按照語言類型分類存儲(chǔ)的。根據(jù)待評(píng)分語音所屬的語言類型能夠定位出該語言類型對(duì)應(yīng)的所有音素評(píng)分模型的存儲(chǔ)位置。從步驟a2能夠確定出待評(píng)分語音包含哪些音素,從定位出的該語言類型對(duì)應(yīng)的所有音素評(píng)分模型中確定出待評(píng)分語音中每個(gè)音素對(duì)應(yīng)的音素評(píng)分模型。a4:根據(jù)待評(píng)分語音中每個(gè)音素對(duì)應(yīng)的時(shí)間邊界信息及語音段,通過每個(gè)音素對(duì)應(yīng)的音素評(píng)分模型分別獲得每個(gè)音素對(duì)應(yīng)的質(zhì)量分值。對(duì)于待評(píng)分語音包含的任一音素,根據(jù)該音素對(duì)應(yīng)的時(shí)間邊界信息,計(jì)算出該音素的發(fā)音時(shí)長,將該發(fā)音時(shí)長、該音素對(duì)應(yīng)的語音段代入該音素對(duì)應(yīng)的音素評(píng)分模型進(jìn)行計(jì)算,得到該音素對(duì)應(yīng)的質(zhì)量分值。對(duì)于待評(píng)分語音包含的其他每個(gè)音素,同樣按照上述方式分別通過其他每個(gè)音素對(duì)應(yīng)的音素評(píng)分模型獲得各自對(duì)應(yīng)的質(zhì)量分值。通過本步驟獲得待評(píng)分語音包含的每個(gè)音素對(duì)應(yīng)的質(zhì)量分值后,通過如下步驟103的從中來對(duì)待評(píng)分語音進(jìn)行整體評(píng)分。步驟103:根據(jù)待評(píng)分語音包括的每個(gè)音素的評(píng)分結(jié)果,確定待評(píng)分語音的質(zhì)量分值。本發(fā)明實(shí)施例中可以通過如下第一或第二兩種方式中的任一種方式來確定待評(píng)分語音整體的質(zhì)量分值,具體包括:第一,先根據(jù)音素的質(zhì)量分值計(jì)算單詞的質(zhì)量分值,再根據(jù)單詞的質(zhì)量分值計(jì)算待評(píng)分語音的質(zhì)量分值。根據(jù)每個(gè)音素對(duì)應(yīng)的時(shí)間邊界信息及質(zhì)量分值,確定待評(píng)分語音包括的每個(gè)單詞的質(zhì)量分值;將每個(gè)單詞的質(zhì)量分值融合為待評(píng)分語音的質(zhì)量分值。根據(jù)每個(gè)音素對(duì)應(yīng)的時(shí)間邊界信息,確定出待評(píng)分語音中每個(gè)單詞包含的音素。首先根據(jù)每個(gè)音素對(duì)應(yīng)的時(shí)間邊界信息,將待評(píng)分語音包含的所有音素按照時(shí)間的先后順序進(jìn)行排序,然后対照待評(píng)分語音包含的每個(gè)單詞,確定出每個(gè)單詞包含的音素。然后分別將每個(gè)單詞包含的音素的質(zhì)量分值融合為每個(gè)單詞的質(zhì)量分值。再將每個(gè)單詞的質(zhì)量分值擬合為待評(píng)分語音的質(zhì)量分值。本發(fā)明實(shí)施例中可以將單詞包含的音素的質(zhì)量分值的平均值或中值作為該單詞的質(zhì)量分值。相似地,將待評(píng)分語音包含的每個(gè)單詞的質(zhì)量分值的平均值或中值作為待評(píng)分語音的質(zhì)量分值。例如,假設(shè)按照時(shí)間先后順序排序后待評(píng)分語音“goodmorning”包含的音素為[g]、[u]、[d]、[m]、[n]、[i]、能夠確定出單詞good包含音素[g]、[u]、[d],單詞morning包含音素[m]、[n]、[i]、假設(shè)音素[g]、[u]、[d]、[m]、[n]、[i]、的質(zhì)量分值依次為88、90、85、95、80、82、75、86,則單詞good的質(zhì)量分值為音素[g]、[u]、[d]的質(zhì)量分值的平均值87.67,單詞morning的質(zhì)量分值為音素[m]、[i]、的質(zhì)量分值的平均值83.6。然后計(jì)算單詞good的質(zhì)量分值與單詞morning的質(zhì)量分值的平均值,得到待評(píng)分語音“goodmorning”的質(zhì)量分值85.64。第二,直接根據(jù)音素的質(zhì)量分值計(jì)算待評(píng)分語音的質(zhì)量分值。計(jì)算每個(gè)音素的評(píng)分結(jié)果的平均值,將得到的平均值確定為待評(píng)分語音的質(zhì)量分值。本發(fā)明實(shí)施例中也可以取每個(gè)音素的評(píng)分結(jié)果的中值,將得到的中值作為待評(píng)分語音的質(zhì)量分值。例如,假設(shè)待評(píng)分語音“goodmorning”包含的音素[g]、[u]、[d]、[m]、[n]、[i]、的質(zhì)量分值依次為88、90、85、95、80、82、75、86,則計(jì)算音素[g]、[u]、[d]、[m]、[n]、[i]、的質(zhì)量分值的平均值為85.13,則確定待評(píng)分語音“goodmorning”的質(zhì)量分值85.13。為了便于理解本發(fā)明實(shí)施例提供的口語評(píng)分方法,下面結(jié)合附圖進(jìn)行具體說明。如圖3所示,通過預(yù)設(shè)聲學(xué)模型lstm-hmm對(duì)待評(píng)分語音“goodmorning”進(jìn)行聲學(xué)切分,確定音素邊界,然后利用端到端的音素評(píng)分模型進(jìn)行音素評(píng)分,得到“goodmorning”包含的音素[g]、[u]、[d]、[m]、[n]、[i]、的質(zhì)量分值依次為88、90、85、95、80、82、75、86。之后將音素得分融合為單詞得分,即單詞good的質(zhì)量分值為音素[g]、[u]、[d]的質(zhì)量分值的平均值87.67,單詞morning的質(zhì)量分值為音素[m]、[i]、的質(zhì)量分值的平均值83.6。最后將單詞的質(zhì)量分值融合為整句發(fā)音的質(zhì)量分值,即計(jì)算單詞good的質(zhì)量分值與單詞morning的質(zhì)量分值的平均值,得到待評(píng)分語音“goodmorning”的質(zhì)量分值85.64。本發(fā)明實(shí)施例能夠應(yīng)用于任何語言口語的單詞、句子、段落的發(fā)音質(zhì)量評(píng)分中,不需要領(lǐng)域內(nèi)專家設(shè)計(jì)相關(guān)的發(fā)音質(zhì)量評(píng)分特征,只需輸入mfcc或fbank等語音常規(guī)特征,在大量人工評(píng)分?jǐn)?shù)據(jù)的驅(qū)動(dòng)下,就可以獲得準(zhǔn)確的、穩(wěn)定的端到端的音素評(píng)分模型。利用音素評(píng)分模型能夠?qū)崿F(xiàn)口語的端到端的直接評(píng)分,提高了評(píng)分準(zhǔn)確性。在本發(fā)明實(shí)施例中,獲取待評(píng)分語音;通過預(yù)先訓(xùn)練的音素評(píng)分模型對(duì)待評(píng)分語音進(jìn)行音素發(fā)音質(zhì)量評(píng)分;根據(jù)待評(píng)分語音包括的每個(gè)音素的評(píng)分結(jié)果,確定待評(píng)分語音的質(zhì)量分值。本發(fā)明以音素為單位進(jìn)行口語評(píng)分,預(yù)先訓(xùn)練了每種語言類型包含的各個(gè)音素對(duì)應(yīng)的音素評(píng)分模型。由于音素?cái)?shù)量少,所以訓(xùn)練音素評(píng)分模型的工作量小,效率高。在評(píng)分時(shí)先通過音素評(píng)分模型對(duì)待評(píng)分語音包含的每個(gè)音素進(jìn)行評(píng)分,然后將評(píng)分結(jié)果融合為待評(píng)分語音整體的質(zhì)量分值,整個(gè)評(píng)分過程中無需專業(yè)領(lǐng)域內(nèi)人士根據(jù)口語發(fā)音質(zhì)量的相關(guān)特性設(shè)計(jì)gop、native似然度等評(píng)分特性,評(píng)分過程更加細(xì)化,提高了口語評(píng)分的準(zhǔn)確性及穩(wěn)定性。實(shí)施例2參見圖4,本發(fā)明實(shí)施例提供了一種口語評(píng)分裝置,該裝置用于執(zhí)行上述實(shí)施例1所提供的口語評(píng)分方法,該裝置包括:獲取模塊201,用于獲取待評(píng)分語音;音素評(píng)分模塊202,用于通過預(yù)先訓(xùn)練的音素評(píng)分模型對(duì)待評(píng)分語音進(jìn)行音素發(fā)音質(zhì)量評(píng)分;確定模塊203,用于根據(jù)待評(píng)分語音包括的每個(gè)音素的評(píng)分結(jié)果,確定待評(píng)分語音的質(zhì)量分值。上述音素評(píng)分模塊202包括:切分單元,用于對(duì)待評(píng)分語音進(jìn)行聲學(xué)切分,獲得待評(píng)分語音包括的每個(gè)音素對(duì)應(yīng)的時(shí)間邊界信息及語音段;確定單元,用于從預(yù)先訓(xùn)練的所有音素評(píng)分模型中,確定出每個(gè)音素對(duì)應(yīng)的音素評(píng)分模型;獲得單元,用于根據(jù)每個(gè)音素對(duì)應(yīng)的時(shí)間邊界信息及語音段,通過每個(gè)音素對(duì)應(yīng)的音素評(píng)分模型分別獲得每個(gè)音素對(duì)應(yīng)的質(zhì)量分值。在本發(fā)明實(shí)施例中,該裝置還包括:模型訓(xùn)練模塊,用于獲取每個(gè)音素對(duì)應(yīng)的訓(xùn)練數(shù)據(jù);根據(jù)每個(gè)音素對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)、端到端模型及損失函數(shù),分別訓(xùn)練出每個(gè)音素對(duì)應(yīng)的模型參數(shù),獲得每個(gè)音素對(duì)應(yīng)的音素評(píng)分模型。上述切分單元,用于通過預(yù)設(shè)聲學(xué)模型獲取待評(píng)分語音中每個(gè)音素的時(shí)間邊界信息;根據(jù)每個(gè)音素的時(shí)間邊界信息,從待評(píng)分語音中切分出每個(gè)音素對(duì)應(yīng)的語音段。上述確定模塊203包括:單詞分值確定單元,用于根據(jù)每個(gè)音素對(duì)應(yīng)的時(shí)間邊界信息及質(zhì)量分值,確定待評(píng)分語音包括的每個(gè)單詞的質(zhì)量分值;融合單元,用于將每個(gè)單詞的質(zhì)量分值融合為待評(píng)分語音的質(zhì)量分值。上述單詞分值確定單元,用于根據(jù)每個(gè)音素對(duì)應(yīng)的時(shí)間邊界信息,確定待評(píng)分語音中每個(gè)單詞包含的音素;分別將每個(gè)單詞包含的音素的質(zhì)量分值融合為每個(gè)單詞的質(zhì)量分值。上述確定模塊203,用于計(jì)算每個(gè)音素的評(píng)分結(jié)果的平均值,將平均值確定為待評(píng)分語音的質(zhì)量分值。在本發(fā)明實(shí)施例中,獲取待評(píng)分語音;通過預(yù)先訓(xùn)練的音素評(píng)分模型對(duì)待評(píng)分語音進(jìn)行音素發(fā)音質(zhì)量評(píng)分;根據(jù)待評(píng)分語音包括的每個(gè)音素的評(píng)分結(jié)果,確定待評(píng)分語音的質(zhì)量分值。本發(fā)明以音素為單位進(jìn)行口語評(píng)分,預(yù)先訓(xùn)練了每種語言類型包含的各個(gè)音素對(duì)應(yīng)的音素評(píng)分模型。由于音素?cái)?shù)量少,所以訓(xùn)練音素評(píng)分模型的工作量小,效率高。在評(píng)分時(shí)先通過音素評(píng)分模型對(duì)待評(píng)分語音包含的每個(gè)音素進(jìn)行評(píng)分,然后將評(píng)分結(jié)果融合為待評(píng)分語音整體的質(zhì)量分值,整個(gè)評(píng)分過程中無需專業(yè)領(lǐng)域內(nèi)人士根據(jù)口語發(fā)音質(zhì)量的相關(guān)特性設(shè)計(jì)gop、native似然度等評(píng)分特性,評(píng)分過程更加細(xì)化,提高了口語評(píng)分的準(zhǔn)確性及穩(wěn)定性。實(shí)施例3本發(fā)明實(shí)施例提供了一種非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì),該計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,該計(jì)算機(jī)可執(zhí)行指令可執(zhí)行上述實(shí)施例1中的口語評(píng)分方法,具體執(zhí)行以下方法:獲取待評(píng)分語音;通過預(yù)先訓(xùn)練的音素評(píng)分模型對(duì)待評(píng)分語音進(jìn)行音素發(fā)音質(zhì)量評(píng)分;根據(jù)待評(píng)分語音包括的每個(gè)音素的評(píng)分結(jié)果,確定待評(píng)分語音的質(zhì)量分值。該計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)的計(jì)算機(jī)可執(zhí)行指令執(zhí)行后能夠以音素為單位進(jìn)行口語評(píng)分,在評(píng)分時(shí)先通過音素評(píng)分模型對(duì)待評(píng)分語音包含的每個(gè)音素進(jìn)行評(píng)分,然后將評(píng)分結(jié)果融合為待評(píng)分語音整體的質(zhì)量分值,整個(gè)評(píng)分過程中無需專業(yè)領(lǐng)域內(nèi)人士根據(jù)口語發(fā)音質(zhì)量的相關(guān)特性設(shè)計(jì)gop、native似然度等評(píng)分特性,評(píng)分過程更加細(xì)化,提高了口語評(píng)分的準(zhǔn)確性及穩(wěn)定性。實(shí)施例4如圖5所示,本發(fā)明實(shí)施例提供了一種口語評(píng)分裝置,該口語評(píng)分裝置30包括:處理器31、存儲(chǔ)器32和總線33,存儲(chǔ)器32存儲(chǔ)有執(zhí)行指令,當(dāng)該裝置運(yùn)行時(shí),處理器31與存儲(chǔ)器32之間通過總線33通信,處理器31執(zhí)行存儲(chǔ)器32中存儲(chǔ)的如下執(zhí)行指令:獲取待評(píng)分語音;通過預(yù)先訓(xùn)練的音素評(píng)分模型對(duì)待評(píng)分語音進(jìn)行音素發(fā)音質(zhì)量評(píng)分;根據(jù)待評(píng)分語音包括的每個(gè)音素的評(píng)分結(jié)果,確定待評(píng)分語音的質(zhì)量分值。處理器31具體用于:識(shí)別待評(píng)分語音所屬的語言類型;對(duì)待評(píng)分語音進(jìn)行聲學(xué)切分,獲得待評(píng)分語音包括的每個(gè)音素對(duì)應(yīng)的時(shí)間邊界信息及語音段;從預(yù)先訓(xùn)練的語言類型對(duì)應(yīng)的所有音素評(píng)分模型中,確定出每個(gè)音素對(duì)應(yīng)的音素評(píng)分模型;根據(jù)每個(gè)音素對(duì)應(yīng)的時(shí)間邊界信息及語音段,通過每個(gè)音素對(duì)應(yīng)的音素評(píng)分模型分別獲得每個(gè)音素對(duì)應(yīng)的質(zhì)量分值。上述對(duì)待評(píng)分語音進(jìn)行聲學(xué)切分時(shí),處理器31具體用于:通過預(yù)設(shè)聲學(xué)模型獲取待評(píng)分語音中每個(gè)音素的時(shí)間邊界信息;根據(jù)每個(gè)音素的時(shí)間邊界信息,從待評(píng)分語音中切分出每個(gè)音素對(duì)應(yīng)的語音段。在根據(jù)待評(píng)分語音包括的每個(gè)音素的評(píng)分結(jié)果,確定待評(píng)分語音的質(zhì)量分值,處理器31具體用于:根據(jù)每個(gè)音素對(duì)應(yīng)的時(shí)間邊界信息及質(zhì)量分值,確定待評(píng)分語音包括的每個(gè)單詞的質(zhì)量分值;將每個(gè)單詞的質(zhì)量分值融合為待評(píng)分語音的質(zhì)量分值。上述確定待評(píng)分語音包括的每個(gè)單詞的質(zhì)量分值,處理器31具體用于:根據(jù)每個(gè)音素對(duì)應(yīng)的時(shí)間邊界信息,確定待評(píng)分語音中每個(gè)單詞包含的音素;分別將每個(gè)單詞包含的音素的質(zhì)量分值融合為每個(gè)單詞的質(zhì)量分值。在根據(jù)待評(píng)分語音包括的每個(gè)音素的評(píng)分結(jié)果,確定待評(píng)分語音的質(zhì)量分值,處理器31還可以具體用于:計(jì)算每個(gè)音素的評(píng)分結(jié)果的平均值,將平均值確定為待評(píng)分語音的質(zhì)量分值。在獲取待評(píng)分語音之前,處理器31還具體用于:獲取每個(gè)音素對(duì)應(yīng)的訓(xùn)練數(shù)據(jù);根據(jù)每個(gè)音素對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)、端到端模型及損失函數(shù),分別訓(xùn)練出每個(gè)音素對(duì)應(yīng)的模型參數(shù),獲得每個(gè)音素對(duì)應(yīng)的音素評(píng)分模型。該口語評(píng)分裝置通過處理器31執(zhí)行上述指令,能夠以音素為單位進(jìn)行口語評(píng)分,在評(píng)分時(shí)先通過音素評(píng)分模型對(duì)待評(píng)分語音包含的每個(gè)音素進(jìn)行評(píng)分,然后將評(píng)分結(jié)果融合為待評(píng)分語音整體的質(zhì)量分值,整個(gè)評(píng)分過程中無需專業(yè)領(lǐng)域內(nèi)人士根據(jù)口語發(fā)音質(zhì)量的相關(guān)特性設(shè)計(jì)gop、native似然度等評(píng)分特性,評(píng)分過程更加細(xì)化,提高了口語評(píng)分的準(zhǔn)確性及穩(wěn)定性。本發(fā)明實(shí)施例所提供的口語評(píng)分裝置可以為設(shè)備上的特定硬件或者安裝于設(shè)備上的軟件或固件等。本發(fā)明實(shí)施例所提供的裝置,其實(shí)現(xiàn)原理及產(chǎn)生的技術(shù)效果和前述方法實(shí)施例相同,為簡要描述,裝置實(shí)施例部分未提及之處,可參考前述方法實(shí)施例中相應(yīng)內(nèi)容。所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,前述描述的系統(tǒng)、裝置和單元的具體工作過程,均可以參考上述方法實(shí)施例中的對(duì)應(yīng)過程,在此不再贅述。在本發(fā)明所提供的實(shí)施例中,應(yīng)該理解到,所揭露裝置和方法,可以通過其它的方式實(shí)現(xiàn)。以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,又例如,多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些通信接口,裝置或單元的間接耦合或通信連接,可以是電性,機(jī)械或其它的形式。所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。另外,在本發(fā)明提供的實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。所述功能如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:u盤、移動(dòng)硬盤、只讀存儲(chǔ)器(rom,read-onlymemory)、隨機(jī)存取存儲(chǔ)器(ram,randomaccessmemory)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。應(yīng)注意到:相似的標(biāo)號(hào)和字母在下面的附圖中表示類似項(xiàng),因此,一旦某一項(xiàng)在一個(gè)附圖中被定義,則在隨后的附圖中不需要對(duì)其進(jìn)行進(jìn)一步定義和解釋,此外,術(shù)語“第一”、“第二”、“第三”等僅用于區(qū)分描述,而不能理解為指示或暗示相對(duì)重要性。最后應(yīng)說明的是:以上所述實(shí)施例,僅為本發(fā)明的具體實(shí)施方式,用以說明本發(fā)明的技術(shù)方案,而非對(duì)其限制,本發(fā)明的保護(hù)范圍并不局限于此,盡管參照前述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:任何熟悉本
技術(shù)領(lǐng)域:
的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),其依然可以對(duì)前述實(shí)施例所記載的技術(shù)方案進(jìn)行修改或可輕易想到變化,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換;而這些修改、變化或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明實(shí)施例技術(shù)方案的精神和范圍。都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。當(dāng)前第1頁12