本申請涉及金融科技(fintech)的人工智能技術(shù)領(lǐng)域,尤其涉及一種語音識別方法、裝置、設(shè)備及存儲介質(zhì)。
背景技術(shù):
隨著金融科技,尤其是互聯(lián)網(wǎng)科技金融的不斷發(fā)展,越來越多的技術(shù)應(yīng)用在金融領(lǐng)域,但金融業(yè)也對技術(shù)提出了更高的要求,如金融業(yè)對語音識別也有更高的要求。
目前,一般采用傳統(tǒng)的asr(自動語音識別技術(shù),automaticspeechrecognition)算法中的語言模型,對當(dāng)前需要處理的對話場景內(nèi)容進行解碼識別等處理,只是對當(dāng)前需要處理的對話場景內(nèi)容等進行解碼識別處理具有很強的局限性,如使得模型解碼出來的內(nèi)容有偏差,降低了語音識別的準(zhǔn)確性。
技術(shù)實現(xiàn)要素:
本申請的主要目的在于提供一種語音識別方法、裝置、設(shè)備和存儲介質(zhì),旨在解決現(xiàn)有技術(shù)中語音識別準(zhǔn)確性差的技術(shù)問題。
為實現(xiàn)上述目的,本申請?zhí)峁┮环N語音識別方法,所述語音識別方法包括:
獲取待識別語音數(shù)據(jù),確定所述待識別語音數(shù)據(jù)的候選文本以及所述候選文本的上文文本數(shù)據(jù);
從所述候選文本中提取輔助文本;
基于所述上文文本數(shù)據(jù)與所述輔助文本,從所述候選文本中提取輸出文本并輸出。
可選地,所述基于所述上文文本數(shù)據(jù)與所述輔助文本,從所述候選文本中提取輸出文本并輸出的步驟,包括:
將所述上文文本數(shù)據(jù)與所述輔助文本,輸入至預(yù)設(shè)識別模型中,以對所述上文文本數(shù)據(jù)與所述輔助文本進行識別處理,得到所述候選文本的輸出文本并輸出。
其中,所述預(yù)設(shè)識別模型,是基于具有預(yù)設(shè)標(biāo)簽的預(yù)設(shè)文本數(shù)據(jù),對預(yù)設(shè)基礎(chǔ)模型進行迭代訓(xùn)練后,達到預(yù)設(shè)訓(xùn)練條件的目標(biāo)模型。
可選地,所述預(yù)設(shè)識別模型,是基于具有預(yù)設(shè)標(biāo)簽的預(yù)設(shè)文本數(shù)據(jù),基于第一預(yù)設(shè)注意力機制對預(yù)設(shè)基礎(chǔ)模型進行迭代訓(xùn)練后,達到預(yù)設(shè)訓(xùn)練條件的目標(biāo)模型。
可選地,所述基于所述上文文本數(shù)據(jù)與所述輔助文本,從所述候選文本中提取輸出文本并輸出的步驟,包括:
對所述上文文本數(shù)據(jù)與所述輔助文本進行預(yù)設(shè)向量的編碼處理,得到所述上文文本數(shù)據(jù)與所述輔助文本的編碼向量;
通過預(yù)設(shè)解碼規(guī)則,對所述上文文本數(shù)據(jù)與所述輔助文本的編碼向量進行解碼處理,得到所述候選文本的解碼向量;
基于所述解碼向量,從所述候選文本中提取輸出文本并輸出。
可選地,所述基于所述解碼向量,從所述候選文本中提取輸出文本并輸出的步驟,包括:
基于所述解碼向量,得到所述候選文本中的每個文本的向量值;
基于所述向量值的高低,從所述候選文本中提取輸出文本并輸出。
可選地,所述通過預(yù)設(shè)解碼規(guī)則,對所述上文文本數(shù)據(jù)與所述輔助文本的編碼向量進行解碼處理,得到所述候選文本的解碼向量的步驟包括:
通過第二預(yù)設(shè)注意力機制,對所述候選文本的編碼向量進行定向選擇,得到所述候選文本的候選向量;
通過預(yù)設(shè)解碼規(guī)則,對所述候選文本的候選向量進行解碼處理,得到所述候選文本的解碼向量。
可選地,所述從所述候選文本中提取輔助文本的步驟,包括:
統(tǒng)計所述候選文本中各個詞語的頻次;
選取頻次大于預(yù)設(shè)值的詞語作為所述輔助文本。
本申請還提供一種語音識別裝置,所述語音識別裝置包括:
獲取模塊,用于獲取待識別語音數(shù)據(jù),確定所述待識別語音數(shù)據(jù)的候選文本以及所述候選文本的上文文本數(shù)據(jù);
第一提取模塊,用于從所述候選文本中提取輔助文本;
第二提取模塊,用于基于所述上文文本數(shù)據(jù)與所述輔助文本,從所述候選文本中提取輸出文本并輸出。
可選地,所述第二提取模塊包括:
輸入單元,用于將所述上文文本數(shù)據(jù)與所述輔助文本,輸入至預(yù)設(shè)識別模型中,以對所述上文文本數(shù)據(jù)與所述輔助文本進行識別處理,得到所述候選文本的輸出文本并輸出;
其中,所述預(yù)設(shè)識別模型,是基于具有預(yù)設(shè)標(biāo)簽的預(yù)設(shè)文本數(shù)據(jù),對預(yù)設(shè)基礎(chǔ)模型進行迭代訓(xùn)練后,達到預(yù)設(shè)訓(xùn)練條件的目標(biāo)模型。
可選地,所述預(yù)設(shè)識別模型,是基于具有預(yù)設(shè)標(biāo)簽的預(yù)設(shè)文本數(shù)據(jù),基于第一預(yù)設(shè)注意力機制對預(yù)設(shè)基礎(chǔ)模型進行迭代訓(xùn)練后,達到預(yù)設(shè)訓(xùn)練條件的目標(biāo)模型。
可選地,所述第二提取模塊包括:
編碼單元,用于對所述上文文本數(shù)據(jù)與所述輔助文本進行預(yù)設(shè)向量的編碼處理,得到所述上文文本數(shù)據(jù)與所述輔助文本的編碼向量;
解碼單元,用于通過預(yù)設(shè)解碼規(guī)則,對所述上文文本數(shù)據(jù)與所述輔助文本的編碼向量進行解碼處理,得到所述候選文本的解碼向量;
提取單元,用于基于所述解碼向量,從所述候選文本中提取輸出文本并輸出。
可選地,所述提取單元用于實現(xiàn):
基于所述解碼向量,得到所述候選文本中的每個文本的向量值;
基于所述向量值的高低,從所述候選文本中提取輸出文本并輸出。
可選地,所述解碼單元用于實現(xiàn):
通過第二預(yù)設(shè)注意力機制,對所述候選文本的編碼向量進行定向選擇,得到所述候選文本的候選向量;
通過預(yù)設(shè)解碼規(guī)則,對所述候選文本的候選向量進行解碼處理,得到所述候選文本的解碼向量。
可選地,所述第一提取模塊包括:
統(tǒng)計單元,用于統(tǒng)計所述候選文本中各個詞語的頻次;
選取單元,用于選取頻次大于預(yù)設(shè)值的詞語作為所述輔助文本。
本申請還提供一種語音識別設(shè)備,所述語音識別設(shè)備為實體設(shè)備,所述語音識別設(shè)備包括:存儲器、處理器以及存儲在所述存儲器上并可在所述處理器上運行的所述語音識別方法的程序,所述語音識別方法的程序被處理器執(zhí)行時可實現(xiàn)如上述的語音識別方法的步驟。
本申請還提供一種存儲介質(zhì),所述存儲介質(zhì)上存儲有實現(xiàn)上述語音識別方法的程序,所述語音識別方法的程序被處理器執(zhí)行時實現(xiàn)如上述的語音識別方法的步驟。
本申請通過獲取待識別語音數(shù)據(jù),確定所述待識別語音數(shù)據(jù)的候選文本以及所述候選文本的上文文本數(shù)據(jù);從所述候選文本中提取輔助文本;基于所述上文文本數(shù)據(jù)與所述輔助文本,從所述候選文本中提取輸出文本并輸出。在本申請中,在獲取待識別語音數(shù)據(jù)后,確定所述待識別語音數(shù)據(jù)的候選文本,并獲取所述候選文本的上文文本數(shù)據(jù),進而,從所述候選文本中提取輔助文本,聯(lián)合上文文本數(shù)據(jù)與所述輔助文本,從所述候選文本中提取輸出文本并輸出,也即,在本申請中,不只是從當(dāng)前待識別語音數(shù)據(jù)的候選文本中解碼識別得到輸出文本,而是從候選句子(集體決策得到)中選出輔助詞即是選出集體決策后的輔助詞,聯(lián)合上文文本數(shù)據(jù)(利于提升準(zhǔn)確性)與所述集體決策后的輔助文本(利于提升準(zhǔn)確性),從所述候選文本中提取輸出文本并輸出,因而,提升了語言識別的準(zhǔn)確性,解決了現(xiàn)有技術(shù)中語音識別準(zhǔn)確性低的技術(shù)問題。
附圖說明
此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本申請的實施例,并與說明書一起用于解釋本申請的原理。
為了更清楚地說明本申請實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,對于本領(lǐng)域普通技術(shù)人員而言,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本申請語音識別方法第一實施例的流程示意圖;
圖2為本申請語音識別方法第一實施例中從所述候選文本中提取輔助文本的細(xì)化步驟流程示意圖;
圖3為本申請實施例方案涉及的硬件運行環(huán)境的設(shè)備結(jié)構(gòu)示意圖;
圖4為本申請語音識別方法的場景示意圖。
本申請目的實現(xiàn)、功能特點及優(yōu)點將結(jié)合實施例,參照附圖做進一步說明。
具體實施方式
應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本申請,并不用于限定本申請。
本申請實施例提供一種語音識別方法,在本申請語音識別方法的第一實施例中,參照圖1,所述語音識別方法包括:
步驟s10,獲取待識別語音數(shù)據(jù),確定所述待識別語音數(shù)據(jù)的候選文本以及所述候選文本的上文文本數(shù)據(jù);
步驟s20,從所述候選文本中提取輔助文本;
步驟s30,基于所述上文文本數(shù)據(jù)與所述輔助文本,從所述候選文本中提取輸出文本并輸出。
具體步驟如下:
步驟s10,獲取待識別語音數(shù)據(jù),確定所述待識別語音數(shù)據(jù)的候選文本以及所述候選文本的上文文本數(shù)據(jù);
在本實施例中,需要說明的是,語音識別方法應(yīng)用于語音識別系統(tǒng),該語音識別系統(tǒng)從屬于語音識別設(shè)備,對于語音識別系統(tǒng)而言,是與語音平臺進行通信的,例如,語音平臺中存在這樣的日常音頻對話,說話人a:“你有沒有看昨天晚上的cba,廣東隊大比分贏了對手;說話人b:“看了,比賽非常精彩,易建聯(lián)得到mvp名副其實”,若對應(yīng)的待識別語音數(shù)據(jù)為:“易建聯(lián)”,現(xiàn)有技術(shù)中,通過預(yù)設(shè)已經(jīng)訓(xùn)練好的asr模型對說話人b的待識別語音數(shù)據(jù)如“看了,比賽非常精彩,易建聯(lián)得到mvp名副其實”進行識別,如使用n-gram模型“看了,比賽非常精彩,易建聯(lián)得到mvp名副其實”進行建模處理,現(xiàn)有技術(shù)使用n-gram模型在解碼時,不會獲取說話人a:“你有沒有看昨天晚上的cba,廣東隊大比分贏了對手”的內(nèi)容,事實上,“cba”跟“廣東隊”對于解碼出“易建聯(lián)”這個詞更能起到作用,因此,使用傳統(tǒng)的n-gram模型對于對話場景下的asr具有很強的局限性,會使得模型解碼出來的內(nèi)容有偏差。
在本實施例中,語音識別系統(tǒng)在接收到待識別語音數(shù)據(jù)后,確定所述待識別語音數(shù)據(jù)的候選文本以及所述候選文本的上文文本數(shù)據(jù)。其中,對于語音識別系統(tǒng)而言,是與語音平臺進行通信的,如語音平臺可以包括電話催收客服子平臺,以對每個電話催收員的電話催收內(nèi)容進行錄音,并得到錄音內(nèi)容,將錄音內(nèi)容設(shè)為待識別語音數(shù)據(jù),并發(fā)送到語音識別系統(tǒng)中,語音識別系統(tǒng)在接收到待識別語音數(shù)據(jù)后,確定所述待識別語音數(shù)據(jù)的候選文本以及所述候選文本的上文文本數(shù)據(jù)。具體地,通過使用預(yù)設(shè)已經(jīng)訓(xùn)練好的asr模型(如預(yù)設(shè)dnn-hmm/ctc模型),對待識別語音數(shù)據(jù)進行解碼,得到n個候選句子,如d1,d2,…,dn,需要說明的是,該候選文本還可以是結(jié)合當(dāng)前熱點后基于已經(jīng)訓(xùn)練好的asr模型得到的候選句子,在本實施例中,在得到候選文本后,還獲取所述候選文本的上文文本數(shù)據(jù),該候選文本的上文文本數(shù)據(jù)可以是設(shè)置的預(yù)設(shè)歷史時間段內(nèi)的上文文本數(shù)據(jù),另外,該候選文本的上文文本數(shù)據(jù)也可以是候選文本對應(yīng)的預(yù)設(shè)句數(shù)的上文文本數(shù)據(jù)。例如,若存在對話:說話人a:“你有沒有看昨天晚上的cba,廣東隊大比分贏了對手”;說話人b:“看了,比賽非常精彩,易建聯(lián)得到mvp名副其實”,“看了,比賽非常精彩,易建聯(lián)得到mvp名副其實”若為待識別語音數(shù)據(jù),則上文文本數(shù)據(jù)包括“你有沒有看昨天晚上的cba,廣東隊大比分贏了對手”。
步驟s20,從所述候選文本中提取輔助文本;
在本實施例中,結(jié)合了當(dāng)前語境從所述候選文本中提取輸出文本,提升了識別的準(zhǔn)確性。
具體地,從所述候選文本中通過預(yù)設(shè)提取策略提取輔助文本,預(yù)設(shè)提取策略可以是詞語權(quán)重策略等,即是通過候選文本中各個文本的權(quán)重(是預(yù)先已經(jīng)確定的)提取輔助文本。
其中,參照圖2,所述從所述候選文本中提取輔助文本的步驟,包括:
步驟s21,統(tǒng)計所述候選文本中各個詞語的頻次;
步驟s22,選取頻次大于預(yù)設(shè)值的詞語作為所述輔助文本。
在本實施例中,通過預(yù)設(shè)特征抽取(featureextractor)單元,統(tǒng)計在n個候選句子中各個詞的頻次,選取頻次大于預(yù)設(shè)值的詞語作為所述輔助文本c,如圖4所示。
步驟s30,基于所述上文文本數(shù)據(jù)與所述輔助文本,從所述候選文本中提取輸出文本并輸出。
在得到輔助文本后,基于所述上文文本數(shù)據(jù)與所述輔助文本,從所述候選文本中提取輸出文本并輸出。
其中,所述基于所述上文文本數(shù)據(jù)與所述輔助文本,從所述候選文本中提取輸出文本并輸出的步驟,包括:
步驟s31,將所述上文文本數(shù)據(jù)與所述輔助文本,輸入至預(yù)設(shè)識別模型中,以對所述上文文本數(shù)據(jù)與所述輔助文本進行識別處理,得到所述候選文本的輸出文本并輸出;
其中,所述預(yù)設(shè)識別模型,是基于具有預(yù)設(shè)標(biāo)簽的預(yù)設(shè)文本數(shù)據(jù),對預(yù)設(shè)基礎(chǔ)模型進行迭代訓(xùn)練后,達到預(yù)設(shè)訓(xùn)練條件的目標(biāo)模型。
在本實施例中,將所述上文文本數(shù)據(jù)與所述輔助文本,輸入至預(yù)設(shè)識別模型中,以對所述上文文本數(shù)據(jù)與所述輔助文本進行識別處理,得到所述候選文本的輸出文本并輸出,具體地,預(yù)設(shè)識別模型包括seq2seq(序列到序列,包括rnn網(wǎng)絡(luò)結(jié)構(gòu),在對話領(lǐng)域常被用來建模對話上下文的映射關(guān)系)模型以及預(yù)設(shè)的端到端模型,將所述上文文本數(shù)據(jù)與所述輔助文本輸入至seq2seq模型中,以對所述上文文本數(shù)據(jù)與所述輔助文本進行識別處理,得到所述候選文本的輸出文本并輸出。
所述預(yù)設(shè)識別模型,是基于具有預(yù)設(shè)標(biāo)簽的預(yù)設(shè)文本數(shù)據(jù),對預(yù)設(shè)基礎(chǔ)模型進行迭代訓(xùn)練后,達到預(yù)設(shè)訓(xùn)練條件的目標(biāo)模型,具體地,獲取具有預(yù)設(shè)標(biāo)簽的預(yù)設(shè)文本數(shù)據(jù),對預(yù)設(shè)基礎(chǔ)模型進行迭代訓(xùn)練,以調(diào)整預(yù)設(shè)基礎(chǔ)模型(包括rnn網(wǎng)絡(luò)結(jié)構(gòu))中的模型參數(shù)(通過預(yù)設(shè)文本數(shù)據(jù)的預(yù)測結(jié)果與預(yù)設(shè)標(biāo)簽進行比對后的比對結(jié)果確定),直至達到預(yù)設(shè)條件如迭代次數(shù)達到預(yù)設(shè)次數(shù),或者是模型收斂,得到目標(biāo)模型,需要說明的是,預(yù)設(shè)基礎(chǔ)模型中可以包括預(yù)設(shè)編碼子模型(用于將文本數(shù)據(jù)中每個文本用預(yù)設(shè)維度的向量表示)以及預(yù)設(shè)解碼子模型(用于確定整個文本數(shù)據(jù)的向量)。當(dāng)預(yù)設(shè)基礎(chǔ)模型中包括預(yù)設(shè)編碼子模型以及預(yù)設(shè)解碼子模型時,需要分別對預(yù)設(shè)編碼子模型以及預(yù)設(shè)解碼子模型進行預(yù)設(shè)訓(xùn)練后,得到收斂的編碼子模型以及收斂的解碼子模型。在本實施例中,設(shè)置編碼子模型以及解碼子模型的作用在于:便于引入其他機制如注意力機制等處理文本數(shù)據(jù)。
在本實施例中,需要說明的是,將所述上文文本數(shù)據(jù)與所述輔助文本,輸入至預(yù)設(shè)識別模型中(如圖4,包括預(yù)設(shè)編碼子模型(encodingmodule)以及預(yù)設(shè)解碼子模型(decodindmodule)后,對所述上文文本數(shù)據(jù)與所述輔助文本分別進行編碼處理,最后整合得到輸出文本,具體地,將所述上文文本數(shù)據(jù)u輸入至預(yù)設(shè)識別模型中的編碼子模型中,得到編碼上文文本
其中,所述預(yù)設(shè)識別模型,是基于具有預(yù)設(shè)標(biāo)簽的預(yù)設(shè)文本數(shù)據(jù),基于第一預(yù)設(shè)注意力機制對預(yù)設(shè)基礎(chǔ)模型進行迭代訓(xùn)練后,達到預(yù)設(shè)訓(xùn)練條件的目標(biāo)模型。
在本實施例中,引入第一注意力機制,基于第一預(yù)設(shè)注意力機制對預(yù)設(shè)基礎(chǔ)模型進行迭代訓(xùn)練后,達到預(yù)設(shè)訓(xùn)練條件的目標(biāo)模型。
其中,注意力機制(attentionmechanism)(圖4中的attentionmodule)是人為選擇性地關(guān)注所有信息的一部分,同時忽略其他可見的信息。也即,為了合理利用有限的信息處理資源,需要選擇區(qū)域中的特定部分,然后集中關(guān)注,例如,人們在閱讀時,通常只有少量要被讀取的詞會被關(guān)注和處理。即注意力機制主要有兩個方面:決定需要關(guān)注輸入的哪部分,分配有限的信息處理資源給重要的部分。
在本實施例中,通過第一注意力機制的引入,有注意力方向地對預(yù)設(shè)基礎(chǔ)模型的模型參數(shù)進行調(diào)整,具體地,在本實施例中,通過第一注意力機制的引入,有注意力方向地對預(yù)設(shè)解碼子模型或者預(yù)設(shè)編碼子模型的模型參數(shù)進行調(diào)整,以集中關(guān)注,其中,基于第一注意力機制中的注意力方向可以指的是神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中各個矩陣之間連接權(quán)重的調(diào)整方向等。另外,需要說明的是,通過采用“編碼-解碼”的方式進行候選文本等數(shù)據(jù)的輸出有兩個問題:即候選文本所有的信息都需要保存在編碼向量中,才能進行有效地解碼;二是長距離依賴問題,即編碼和解碼過程中在長距離信息傳遞中的信息丟失問題。通過引入預(yù)設(shè)第一注意力機制,在解碼過程中,通過預(yù)設(shè)第一注意力機制直接從候選文本中選擇相關(guān)的信息作為輔助。無需讓所有的候選文本信息都通過編碼向量進行傳遞,且可以直接傳遞,縮短了信息傳遞的距離。
在本實施例中,基于具有預(yù)設(shè)標(biāo)簽的預(yù)設(shè)文本數(shù)據(jù),基于第一預(yù)設(shè)注意力機制對預(yù)設(shè)基礎(chǔ)模型進行迭代訓(xùn)練后,達到預(yù)設(shè)訓(xùn)練條件的目標(biāo)模型。可以提升得到需要的輸出文本的效率與準(zhǔn)確性。
本申請通過獲取待識別語音數(shù)據(jù),確定所述待識別語音數(shù)據(jù)的候選文本以及所述候選文本的上文文本數(shù)據(jù);從所述候選文本中提取輔助文本;基于所述上文文本數(shù)據(jù)與所述輔助文本,從所述候選文本中提取輸出文本并輸出。在本申請中,在獲取待識別語音數(shù)據(jù)后,確定所述待識別語音數(shù)據(jù)的候選文本,并獲取所述候選文本的上文文本數(shù)據(jù),進而,從所述候選文本中提取輔助文本,聯(lián)合上文文本數(shù)據(jù)與所述輔助文本,從所述候選文本中提取輸出文本并輸出,也即,在本申請中,不只是從當(dāng)前待識別語音數(shù)據(jù)的候選文本中解碼識別得到輸出文本,而是從候選句子(集體決策得到)中選出輔助詞即是選出集體決策后的輔助詞,聯(lián)合上文文本數(shù)據(jù)(利于提升準(zhǔn)確性)與所述集體決策后的輔助文本(利于提升準(zhǔn)確性),從所述候選文本中提取輸出文本并輸出,因而,提升了語言識別的準(zhǔn)確性,解決了現(xiàn)有技術(shù)中語音識別準(zhǔn)確性低的技術(shù)問題。
進一步地,基于本申請中第一實施例,在本申請的另一實施例中,所述基于所述上文文本數(shù)據(jù)與所述輔助文本,從所述候選文本中提取輸出文本并輸出的步驟,包括:
步驟a1,對所述上文文本數(shù)據(jù)與所述輔助文本進行預(yù)設(shè)向量的編碼處理,得到所述上文文本數(shù)據(jù)與所述輔助文本的編碼向量;
在本實施例中,提供另外一種不通過模型而得到輸出文本的方式,具體地,通過預(yù)設(shè)向量編碼規(guī)則直接對所述上文文本數(shù)據(jù)與所述輔助文本進行預(yù)設(shè)向量如包括詞向量,以及預(yù)設(shè)歐式距離向量等的編碼處理,得到所述上文文本數(shù)據(jù)與所述輔助文本的編碼向量。
步驟a2,通過預(yù)設(shè)解碼規(guī)則,對所述上文文本數(shù)據(jù)與所述輔助文本的編碼向量進行解碼處理,得到所述候選文本的解碼向量;
在本實施例中,在得到所述上文文本數(shù)據(jù)與所述輔助文本的編碼向量后,通過預(yù)設(shè)解碼規(guī)則,對所述上文文本數(shù)據(jù)與所述輔助文本的編碼向量進行解碼處理,得到所述候選文本的解碼向量,該預(yù)設(shè)解碼規(guī)則可以是各個編碼向量之間的向量加和規(guī)則。
步驟a3,基于所述解碼向量,從所述候選文本中提取輸出文本并輸出。
基于所述解碼向量,從所述候選文本中提取輸出文本并輸出,具體地,基于所述解碼向量中各個候選文本的向量值的大小,從所述候選文本中提取輸出文本并輸出。
本實施例通過對所述上文文本數(shù)據(jù)與所述輔助文本進行預(yù)設(shè)向量的編碼處理,得到所述上文文本數(shù)據(jù)與所述輔助文本的編碼向量;通過預(yù)設(shè)解碼規(guī)則,對所述上文文本數(shù)據(jù)與所述輔助文本的編碼向量進行解碼處理,得到所述候選文本的解碼向量;基于所述解碼向量,從所述候選文本中提取輸出文本并輸出。在本實施例中,準(zhǔn)確得到輸出文本。
進一步地,基于本申請中第一實施例和第二實施例,所述通過預(yù)設(shè)解碼規(guī)則,對所述上文文本數(shù)據(jù)與所述輔助文本的編碼向量進行解碼處理,得到所述候選文本的解碼向量的步驟包括:
步驟b1,通過第二預(yù)設(shè)注意力機制,對所述候選文本的編碼向量進行定向選擇,得到所述候選文本的候選向量;
在本實施例中,通過第二預(yù)設(shè)注意力機制,對所述候選文本的編碼向量進行定向選擇如只獲取編碼向量中的歐式距離向量,得到所述候選文本的候選向量。
步驟b2,通過預(yù)設(shè)解碼規(guī)則,對所述候選文本的候選向量進行解碼處理,得到所述候選文本的解碼向量。
通過預(yù)設(shè)解碼規(guī)則如通過將所有詞性向量加和處理,對所述候選文本的候選向量進行解碼處理,得到所述候選文本的解碼向量。
所述基于所述解碼向量,從所述候選文本中提取輸出文本并輸出的步驟,包括:
步驟e1,基于所述解碼向量,得到所述候選文本中的每個文本的向量值;
步驟e2,基于所述向量值的高低,從所述候選文本中提取輸出文本并輸出。
在本實施例中,基于所述解碼向量,得到所述候選文本中的每個文本的向量值,具體地,基于所述解碼向量與向量值的關(guān)聯(lián)關(guān)系計算得到所述候選文本中的每個文本的向量值,基于所述向量值的高低,對候選文本中每個文本進行排序,提取排序最高的輸出文本并輸出。
本實施例通過第二預(yù)設(shè)注意力機制,對所述候選文本的編碼向量進行定向選擇,得到所述候選文本的候選向量;通過預(yù)設(shè)解碼規(guī)則,對所述候選文本的候選向量進行解碼處理,得到所述候選文本的解碼向量。在本實施例中,實現(xiàn)準(zhǔn)確獲取解碼向量,為準(zhǔn)確獲取輸出文本并輸出奠定基礎(chǔ)。
參照圖3,圖3是本申請實施例方案涉及的硬件運行環(huán)境的設(shè)備結(jié)構(gòu)示意圖。
如圖3所示,該語音識別設(shè)備可以包括:處理器1001,例如cpu,存儲器1005,通信總線1002。其中,通信總線1002用于實現(xiàn)處理器1001和存儲器1005之間的連接通信。存儲器1005可以是高速ram存儲器,也可以是穩(wěn)定的存儲器(non-volatilememory),例如磁盤存儲器。存儲器1005可選的還可以是獨立于前述處理器1001的存儲設(shè)備。
可選地,該語音識別設(shè)備還可以包括矩形用戶接口、網(wǎng)絡(luò)接口、攝像頭、rf(radiofrequency,射頻)電路,傳感器、音頻電路、wifi模塊等等。矩形用戶接口可以包括顯示屏(display)、輸入子模塊比如鍵盤(keyboard),可選矩形用戶接口還可以包括標(biāo)準(zhǔn)的有線接口、無線接口。網(wǎng)絡(luò)接口可選的可以包括標(biāo)準(zhǔn)的有線接口、無線接口(如wi-fi接口)。
本領(lǐng)域技術(shù)人員可以理解,圖3中示出的語音識別設(shè)備結(jié)構(gòu)并不構(gòu)成對語音識別設(shè)備的限定,可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件布置。
如圖3所示,作為一種存儲介質(zhì)的存儲器1005中可以包括操作系統(tǒng)、網(wǎng)絡(luò)通信模塊以及語音識別程序。操作系統(tǒng)是管理和控制語音識別設(shè)備硬件和軟件資源的程序,支持語音識別程序以及其它軟件和/或程序的運行。網(wǎng)絡(luò)通信模塊用于實現(xiàn)存儲器1005內(nèi)部各組件之間的通信,以及與語音識別系統(tǒng)中其它硬件和軟件之間通信。
在圖3所示的語音識別設(shè)備中,處理器1001用于執(zhí)行存儲器1005中存儲的語音識別程序,實現(xiàn)上述任一項所述的語音識別方法的步驟。
本申請語音識別設(shè)備具體實施方式與上述語音識別方法各實施例基本相同,在此不再贅述。
本申請還提供一種語音識別裝置,所述語音識別裝置包括:
獲取模塊,用于獲取待識別語音數(shù)據(jù),確定所述待識別語音數(shù)據(jù)的候選文本以及所述候選文本的上文文本數(shù)據(jù);
第一提取模塊,用于從所述候選文本中提取輔助文本;
第二提取模塊,用于基于所述上文文本數(shù)據(jù)與所述輔助文本,從所述候選文本中提取輸出文本并輸出。
可選地,所述第二提取模塊包括:
輸入單元,用于將所述上文文本數(shù)據(jù)與所述輔助文本,輸入至預(yù)設(shè)識別模型中,以對所述上文文本數(shù)據(jù)與所述輔助文本進行識別處理,得到所述候選文本的輸出文本并輸出;
其中,所述預(yù)設(shè)識別模型,是基于具有預(yù)設(shè)標(biāo)簽的預(yù)設(shè)文本數(shù)據(jù),對預(yù)設(shè)基礎(chǔ)模型進行迭代訓(xùn)練后,達到預(yù)設(shè)訓(xùn)練條件的目標(biāo)模型。
可選地,所述預(yù)設(shè)識別模型,是基于具有預(yù)設(shè)標(biāo)簽的預(yù)設(shè)文本數(shù)據(jù),基于第一預(yù)設(shè)注意力機制對預(yù)設(shè)基礎(chǔ)模型進行迭代訓(xùn)練后,達到預(yù)設(shè)訓(xùn)練條件的目標(biāo)模型。
可選地,所述第二提取模塊包括:
編碼單元,用于對所述上文文本數(shù)據(jù)與所述輔助文本進行預(yù)設(shè)向量的編碼處理,得到所述上文文本數(shù)據(jù)與所述輔助文本的編碼向量;
解碼單元,用于通過預(yù)設(shè)解碼規(guī)則,對所述上文文本數(shù)據(jù)與所述輔助文本的編碼向量進行解碼處理,得到所述候選文本的解碼向量;
提取單元,用于基于所述解碼向量,從所述候選文本中提取輸出文本并輸出。
可選地,所述提取單元用于實現(xiàn):
基于所述解碼向量,得到所述候選文本中的每個文本的向量值;
基于所述向量值的高低,從所述候選文本中提取輸出文本并輸出。
可選地,所述解碼單元用于實現(xiàn):
通過第二預(yù)設(shè)注意力機制,對所述候選文本的編碼向量進行定向選擇,得到所述候選文本的候選向量;
通過預(yù)設(shè)解碼規(guī)則,對所述候選文本的候選向量進行解碼處理,得到所述候選文本的解碼向量。
可選地,所述第一提取模塊包括:
統(tǒng)計單元,用于統(tǒng)計所述候選文本中各個詞語的頻次;
選取單元,用于選取頻次大于預(yù)設(shè)值的詞語作為所述輔助文本。
本申請語音識別裝置的具體實施方式與上述語音識別方法各實施例基本相同,在此不再贅述。
本申請實施例提供了一種存儲介質(zhì),且所述存儲介質(zhì)存儲有一個或者一個以上程序,所述一個或者一個以上程序還可被一個或者一個以上的處理器執(zhí)行以用于實現(xiàn)上述任一項所述的語音識別方法的步驟。
本申請存儲介質(zhì)具體實施方式與上述語音識別方法各實施例基本相同,在此不再贅述。
以上僅為本申請的優(yōu)選實施例,并非因此限制本申請的專利范圍,凡是利用本申請說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運用在其他相關(guān)的技術(shù)領(lǐng)域,均同理包括在本申請的專利處理范圍內(nèi)。