本發(fā)明涉及語音識別,具體而言,涉及自動語音識別的后處理、自然語言處理以及多模態(tài)信息融合技術(shù),特別適用于專業(yè)領(lǐng)域(如教育、科技、醫(yī)療)演講中出現(xiàn)的中文術(shù)語實時語音轉(zhuǎn)寫糾錯。
背景技術(shù):
1、現(xiàn)有的自動語音識別系統(tǒng)通常直接將語音信號轉(zhuǎn)換為文本,但在處理專業(yè)領(lǐng)域演講音視頻時,識別準確率仍然存在明顯不足。特別是面對大量中文專業(yè)術(shù)語、縮略詞和特定表達時,自動語音識別模型易產(chǎn)生中文術(shù)語的同音或近音誤識別,導(dǎo)致轉(zhuǎn)寫結(jié)果偏離原義,嚴重影響文本的可讀性與后續(xù)使用價值。
2、具體而言,在智慧教育時代下,很多教學(xué)產(chǎn)品都有將教師授課語音實時轉(zhuǎn)寫成文字的功能,這一功能不僅方便了學(xué)生課后自學(xué),也方便了教師課后實施教學(xué)反思。此外,在一些學(xué)術(shù)會議以及學(xué)術(shù)討論場景中,實時語音轉(zhuǎn)寫系統(tǒng)可以將演講人的語音實時轉(zhuǎn)寫成文字,以字幕或會議紀要的形式保存下來。但上述場景中,存在大量的中文術(shù)語,而現(xiàn)有的語音識別系統(tǒng)在識別和轉(zhuǎn)寫中文術(shù)語時,常常容易出錯,特別是發(fā)生同音近音錯誤。以工科專業(yè)基礎(chǔ)課“信號與系統(tǒng)”課堂教學(xué)為例,當教師講解“傅里葉變換”這一專業(yè)概念時,語音識別系統(tǒng)可能將其誤識別為“服力業(yè)變換”;在講解“卷積”時,可能被誤識別為“卷機”;在提及“頻譜分析”時,可能被誤識別為“平譜分析”。這些中文術(shù)語同音近音錯誤不僅改變了中文專業(yè)術(shù)語的原本含義,還導(dǎo)致整個轉(zhuǎn)寫文本的語義混亂,嚴重影響學(xué)生的學(xué)習(xí)效果和對教師授課要點的理解。
3、目前的轉(zhuǎn)寫糾錯方法多依賴語言模型或規(guī)則模板,僅基于文本模態(tài)進行后處理。這類方法往往無法充分利用視頻流中的其他模態(tài)信息(如幻燈片內(nèi)容等),因此在缺乏上下文語義支撐的情況下,糾錯效果有限,尤其在上述中文術(shù)語頻繁出現(xiàn)的場景中表現(xiàn)不佳。
4、另外,現(xiàn)有轉(zhuǎn)寫糾錯方法普遍忽略了知識層面的語義關(guān)聯(lián)。由于未能結(jié)合領(lǐng)域知識圖譜進行中文術(shù)語擴展和語義驗證,系統(tǒng)難以判斷自動語音識別模型輸出中的中文詞匯是否合理,從而導(dǎo)致部分錯誤無法被識別或被錯誤修正。
5、現(xiàn)有技術(shù)在多模態(tài)信息融合與領(lǐng)域知識增強方面均存在不足,難以實現(xiàn)對語音轉(zhuǎn)寫結(jié)果的高精度自動糾錯。因此,亟需一種能夠結(jié)合視頻流中的幻燈片頁面內(nèi)容、上下文信息及領(lǐng)域知識圖譜的多模態(tài)自動糾錯方法,以在保證自動化處理效率的同時顯著提升轉(zhuǎn)寫準確率和語義一致性。
技術(shù)實現(xiàn)思路
1、鑒于所述問題,本發(fā)明旨在提供面向?qū)I(yè)演講的中文術(shù)語實時語音轉(zhuǎn)寫糾錯方法,包括步驟:
2、s1:實時獲取演講視頻流,并基于視頻流中的幻燈片頁面變化,將視頻流分割成多個連續(xù)的時域區(qū)間;
3、s2:對每個時域區(qū)間,實時提取視頻流中相應(yīng)的演講者語音片段,使用流式自動語音識別模型將其轉(zhuǎn)換為原始語音轉(zhuǎn)寫文本;
4、s3:實時提取時域區(qū)間內(nèi)的代表性視頻幀,并使用視覺-語言模型提取幀內(nèi)視覺文本,作為當前頁幻燈片文本;
5、s4:對每個時域區(qū)間,基于當前頁幻燈片文本和歷史滑窗區(qū)間內(nèi)的幻燈片文本,實時構(gòu)建基礎(chǔ)詞匯集,并進一步使用預(yù)設(shè)的領(lǐng)域知識圖譜對其進行語義增強,生成隨時域區(qū)間動態(tài)更新的中文術(shù)語集;
6、s5:使用基于漢字音形的編碼方法,將原始語音轉(zhuǎn)寫文本編碼為文本音形碼序列,同時,將中文術(shù)語集內(nèi)的每一個詞匯編碼為術(shù)語音形碼序列;
7、s6:采用基于改進kmp的近似匹配方法,在文本音形碼序列中實時查找與術(shù)語音形碼序列相似度超過預(yù)設(shè)閾值的片段,以確定原始語音轉(zhuǎn)寫文本中與中文術(shù)語集高度相似的片段;
8、s7:對于原始語音轉(zhuǎn)寫文本中所有高度相似的片段,將其實時替換為中文術(shù)語集中相應(yīng)的詞匯,從而生成糾錯后的語音轉(zhuǎn)寫文本。
9、本方法的創(chuàng)新性在于,通過當前和歷史滑窗區(qū)間內(nèi)的幻燈片文本以及領(lǐng)域知識圖譜所構(gòu)建的中文術(shù)語集、增強型音形碼編碼、基于改進克努特-莫里斯-普拉特(kmp)方法的音形碼近似匹配,從根本上解決了專業(yè)演講中的中文術(shù)語的同音近音誤識別和上下文語義關(guān)聯(lián)不足的問題,實現(xiàn)了高精度自動糾錯。
10、可選地,實時獲取演講視頻流,并基于視頻流中的幻燈片頁面變化,將視頻流分割成多個連續(xù)的時域區(qū)間,具體包括:
11、實時獲取演講視頻流,視頻流包含音頻軌道與視覺畫面,其中,音頻軌道存放的主要為演講者語音片段,視覺畫面中主要為演講者幻燈片頁面;對視頻流按預(yù)設(shè)采樣率進行實時幀采樣,并實時計算采樣幀的感知哈希值;將相鄰采樣幀和的感知哈希值之間的漢明距離作為內(nèi)容相似度與預(yù)設(shè)的差異閾值比較,若,則將采樣幀確定為有效的時域區(qū)間邊界;根據(jù)確定的時域區(qū)間邊界,將整段視頻流實時劃分為連續(xù)的時域區(qū)間,每一區(qū)間對應(yīng)一頁幻燈片的展示時段,且每一區(qū)間具有明確的起始時間與結(jié)束時間。
12、相比于基于固定時間間隔或純音頻分析的分割,本方法通過計算相鄰采樣幀的視覺特征序列之間的視覺相似度,實現(xiàn)了對幻燈片翻頁的高精度、高魯棒性實時檢測,顯著降低了因視頻壓縮或細微晃動引起的誤判率,確保了視覺畫面和演講者語音片段在時間和語義上的嚴格同步性。
13、可選地,對每個時域區(qū)間,實時提取視頻流中相應(yīng)的演講者語音片段,使用流式自動語音識別模型將其轉(zhuǎn)換為原始語音轉(zhuǎn)寫文本,具體包括:從視頻流中提取每個時域區(qū)間內(nèi)的演講者語音片段;將語音片段輸入至流式自動語音識別模型進行實時轉(zhuǎn)寫,輸出原始語音轉(zhuǎn)寫文本。
14、可選地,實時提取時域區(qū)間內(nèi)的代表性視頻幀,并使用視覺-語言模型提取幀內(nèi)視覺文本,作為當前頁幻燈片文本,具體包括:
15、提取每個時域區(qū)間的初始幀作為代表性視頻幀,并將幀圖像輸入至基于transformer架構(gòu)的視覺-語言模型,進行全局版面分析,解析其中的幻燈片頁面,濾除頁面上的“表格”和“圖片”的非文本區(qū)域,最終形成當前頁幻燈片文本,其中,為當前處理的時域區(qū)間。
16、可選地,對每個時域區(qū)間,基于當前頁幻燈片文本和歷史滑窗區(qū)間內(nèi)的幻燈片文本,實時構(gòu)建基礎(chǔ)詞匯集,并進一步使用預(yù)設(shè)的領(lǐng)域知識圖譜對其進行語義增強,生成隨時域區(qū)間動態(tài)更新的中文術(shù)語集,具體包括:
17、對每個時域區(qū)間,首先使用自然語言處理工具對當前頁幻燈片文本和歷史滑窗區(qū)間(即當前頁的前頁)內(nèi)的幻燈片文本依次進行分詞、去重和詞性標注,篩選出其中的名詞(主要包括專業(yè)術(shù)語、縮略詞、特定表達),構(gòu)建基礎(chǔ)詞匯集;其次,預(yù)先構(gòu)建一個與演講內(nèi)容相關(guān)的領(lǐng)域知識圖譜三元組,其中的每個三元組對象均包含“主語”“關(guān)聯(lián)類型”和“賓語”三個字段;篩選出“關(guān)聯(lián)類型”字段為“包含”“包括”“體現(xiàn)”“說明”“特征為”“涉及”的三元組;將篩選出的三元組中的“主語”字段作為鍵、“賓語”字段作為該鍵對應(yīng)的值列表中的元素,儲存為一個具有字典結(jié)構(gòu)的領(lǐng)域知識圖譜;接著,將中的每一個詞匯作為鍵,查詢,遍歷與其存在直接關(guān)聯(lián)的值列表中的元素,即,關(guān)聯(lián)概念,得到正向遍歷詞匯集;同時,遍歷的所有鍵值對,若中的詞匯出現(xiàn)在任一鍵對應(yīng)的值列表中,則獲取其對應(yīng)的鍵,即,上位概念,得到反向遍歷詞匯集;最終生成中文術(shù)語集為上述三個詞匯集的并集,即,,其隨著時域區(qū)間的變化動態(tài)更新。
18、通過綜合考慮當前幻燈片﹑歷史滑窗區(qū)間里的幻燈片,以及預(yù)設(shè)的領(lǐng)域知識圖譜,并且基于正向和反向遍歷領(lǐng)域知識圖譜的方式,使得所構(gòu)建的中文專業(yè)術(shù)語集更加完備,有效解決了現(xiàn)有方法僅依賴當前頁幻燈片中的詞匯來糾錯容易導(dǎo)致的語義覆蓋不足問題,顯著提升了糾錯的術(shù)語召回率。
19、可選地,使用基于漢字音形的編碼方法,將原始語音轉(zhuǎn)寫文本編碼為文本音形碼序列,同時,將中文術(shù)語集內(nèi)的每一個詞匯編碼為術(shù)語音形碼序列,具體包括:
20、對于原始語音轉(zhuǎn)寫文本,將其中的每個漢字編碼為15位的增強型音形碼,其包括8位音碼和7位形碼;其中,音碼(8位)由該漢字的聲母(1位)、韻頭(1位)、韻腹(1位)、韻尾(1位)、舌位前后(1位)、舌位高低(1位)、圓唇特征(1位)和聲調(diào)(1位)構(gòu)成,形碼(7位)由字形結(jié)構(gòu)類型(1位)、四角號碼(5位)和筆畫數(shù)(1位)構(gòu)成;最終得到的文本音形碼序列,記為,其中,為的漢字數(shù)量。
21、對于中文術(shù)語集,采用同樣方式,將該集合中的每個詞匯中的每一個漢字編碼為15位的增強型音形碼,最終得到關(guān)于的術(shù)語音形碼序列,記為,其中,為詞匯中的漢字數(shù)量。
22、增強型音形碼通過融入包含舌位和圓唇特征在內(nèi)的發(fā)音生理特征,從底層特征層面提高了對同音近音漢字的區(qū)分度。而傳統(tǒng)方法僅使用標準拼音進行4位低維特征編碼(1位聲母、2位韻母、1位聲調(diào)),對于同音字而言,這些特征往往完全相同,無法利用編碼加以區(qū)分。相比于使用標準拼音進行低維特征編碼,本方法可以更有效地解析聲學(xué)相似但生理特征不同的漢字,為后續(xù)的近似匹配步驟提供高魯棒性的特征輸入。
23、可選地,采用基于改進kmp的近似匹配方法,在文本音形碼序列中實時查找與術(shù)語音形碼序列相似度超過預(yù)設(shè)閾值的片段,以確定原始語音轉(zhuǎn)寫文本中與中文術(shù)語集高度相似的片段,具體包括:
24、步驟6-1:定義兩個音形碼之間的相似度為二者音碼部分的相似度和二者形碼部分的相似度的加權(quán)和,計算公式為:
25、,
26、其中,為音碼權(quán)重且;
27、步驟6-2:定義近似匹配條件,即,如果,判定和近似匹配成功;
28、步驟6-3:預(yù)計算一個長度為的近似失配跳轉(zhuǎn)表,用于指導(dǎo)和之間不滿足近似匹配條件時指針的回退位置,具體而言,當中的音形碼與中的音形碼不滿足近似匹配條件時,將回退至第()位音形碼;近似失配跳轉(zhuǎn)表的計算規(guī)則如下:對于中的每一個音形碼,尋找一個最大的長度,使得的子序列與子序列滿足對應(yīng)位置音形碼的相似度均大于,即:
29、;
30、若存在這樣的,則令;若不存在,則令。
31、步驟6-4:找出與中近似匹配成功的音形碼,具體而言,從中的第一個音形碼開始,直至最后一個音形碼結(jié)束,依次判定中的音形碼和中的音形碼是否滿足近似匹配條件;若中的第k個音形碼和中的第個音形碼滿足,則判定為與近似匹配成功,而后繼續(xù)進行下一組音形碼和之間的匹配判定;若與不滿足近似匹配條件,則音形碼根據(jù)近似失配跳轉(zhuǎn)表進行位置回退,轉(zhuǎn)而指向音形碼,并繼續(xù)判定與是否滿足近似匹配條件;依此類推,找出與中近似匹配成功的音形碼;
32、步驟6-5:當?shù)闹羔樦赶蚯耶斍爸兄赶虻囊粜未a與滿足近似匹配條件時,判定為一個潛在匹配窗口,并對該潛在窗口內(nèi)的音形碼子串與進行整體相似度驗收,其整體相似度的計算公式如下:
33、,
34、當時,則認為中存在一個長為的文本片段,其與中的詞匯在音形碼序列的層面上高度相似
35、步驟6-6:重復(fù)執(zhí)行步驟6-3~步驟6-5,找出中與中的其他詞匯高度相似的文本片段,并準確定位相應(yīng)的位置。
36、相較于廣泛使用的基于動態(tài)規(guī)劃的匹配方法,改進kmp的近似匹配方法顯著降低了漢字音形碼搜索匹配的時間復(fù)雜度,保證了在處理大規(guī)模流式轉(zhuǎn)寫文本時的高效率和實時性。如果使用基于萊文斯坦距離的動態(tài)規(guī)劃方法完成和的搜索匹配,其時間復(fù)雜度為,而采用本發(fā)明提出的改進kmp的近似匹配方法,其時間復(fù)雜度僅為。此外,相較于傳統(tǒng)kmp方法,改進kmp的近似匹配方法在保持時間復(fù)雜度不變的前提下,將匹配條件由傳統(tǒng)kmp方法中的的準確匹配條件改進為的近似匹配條件,從而實現(xiàn)基于漢字音形特征的模糊匹配功能,顯著提高了糾錯的術(shù)語召回率。
37、可選地,對于原始語音轉(zhuǎn)寫文本中所有高度相似的片段,將其實時替換為中文術(shù)語集中相應(yīng)的詞匯,從而生成糾錯后的語音轉(zhuǎn)寫文本,具體包括:
38、將中所有高度相似的片段,采用從末尾位置向起始位置的替換次序,用中相應(yīng)的詞匯依次進行替換,生成最終糾錯后的語音轉(zhuǎn)寫文本。
39、可選地,本發(fā)明還支持實現(xiàn)針對離線專業(yè)演講視頻的語音轉(zhuǎn)寫糾錯的批量處理功能,其特征在于,對離線專業(yè)演講視頻流,用離線批處理的方式完成步驟s1﹑s2﹑s3中的操作,而步驟s4~步驟s7與實時語音轉(zhuǎn)寫糾錯完全相同。
40、本發(fā)明面向?qū)I(yè)演講的中文術(shù)語實時語音轉(zhuǎn)寫糾錯系統(tǒng),用于實現(xiàn)面向?qū)I(yè)演講的中文術(shù)語實時語音轉(zhuǎn)寫糾錯方法,所述系統(tǒng)包括:
41、視頻流分割模塊,用于實時獲取演講視頻流,并將視頻流實時分割成多個連續(xù)的時域區(qū)間;
42、語音轉(zhuǎn)寫模塊,用于對每個時域區(qū)間,實時提取視頻流中相應(yīng)的演講者語音片段,使用自動語音識別模型將其轉(zhuǎn)換為原始語音轉(zhuǎn)寫文本;
43、視覺文本提取模塊,用于實時提取時域區(qū)間內(nèi)的代表性視頻幀,并使用視覺-語言模型提取幀內(nèi)視覺文本,作為當前頁幻燈片文本;
44、中文術(shù)語集構(gòu)建模塊,用于對每個時域區(qū)間,基于當前頁幻燈片文本和歷史滑窗區(qū)間內(nèi)的幻燈片文本,實時構(gòu)建基礎(chǔ)詞匯集,并進一步使用預(yù)設(shè)的領(lǐng)域知識圖譜對其進行語義增強,生成隨時域區(qū)間動態(tài)更新的中文術(shù)語集;
45、音形碼編碼模塊,用于使用基于漢字音形的編碼方法,將原始語音轉(zhuǎn)寫文本編碼為文本音形碼序列,同時將中文術(shù)語集內(nèi)的每一個詞匯編碼為術(shù)語音形碼序列;
46、近似匹配模塊,用于在文本音形碼序列中實時查找與術(shù)語音形碼序列相似度超過預(yù)設(shè)閾值的片段,以確定原始語音轉(zhuǎn)寫文本中與中文術(shù)語集高度相似的片段;
47、替換糾錯模塊,用于對原始語音轉(zhuǎn)寫文本中所有高度相似的片段,將其替換為中文術(shù)語集中相應(yīng)的詞匯,生成糾錯后的語音轉(zhuǎn)寫文本。
48、本發(fā)明還提供了一種計算機可讀介質(zhì),其上存儲有計算機程序,其特征在于,該計算機程序被處理器執(zhí)行時實現(xiàn)所述的方法以對實時語音轉(zhuǎn)寫中的中文術(shù)語進行糾錯。
49、本發(fā)明還提供了一種電子設(shè)備,包括存儲器、處理器以及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)所述的方法以對實時語音轉(zhuǎn)寫中的中文術(shù)語進行糾錯。
50、相對于現(xiàn)有技術(shù),本發(fā)明的優(yōu)點如下:
51、數(shù)據(jù)層面的完整性:本發(fā)明不僅考慮當前頁幻燈片,還考慮了歷史滑窗區(qū)間里的幻燈片中的中文術(shù)語,有效增大了基礎(chǔ)詞匯集,使其能夠糾正在當前頁未出現(xiàn)但在近期討論過的中文術(shù)語;此外,基于預(yù)設(shè)的領(lǐng)域知識圖譜并對其雙向遍歷,將基礎(chǔ)詞匯集中的中文詞匯的上位和關(guān)聯(lián)概念囊括進來,構(gòu)建了語義完整的專業(yè)網(wǎng)絡(luò),進一步提升了糾錯的召回率。
52、特征層面的高魯棒性:本發(fā)明采用15位音形碼對漢字進行編碼,其音碼中將漢字發(fā)音細分為聲母、韻頭、韻腹、韻尾和聲調(diào),同時集成了漢字發(fā)音的生理特征碼,包括發(fā)音舌位前后、舌位高低圓唇特征;相比于傳統(tǒng)基于標準拼音的4位低維特征編碼(1位聲母、2位韻母、1位聲調(diào)),本發(fā)明通過提高漢字的特征維度,增強了對同音近音漢字的區(qū)分度,這從特征源頭上賦予了系統(tǒng)對自動語音識別產(chǎn)生的中文同音近音錯誤糾正的高魯棒性。
53、算法層面的高效率與實時性:本發(fā)明采用改進kmp的近似匹配方法,在實現(xiàn)了基于相似度的模糊匹配功能的同時,保持搜索匹配具有線性時間復(fù)雜度,在保證匹配精度的前提下,保障了糾錯系統(tǒng)在實時語音轉(zhuǎn)寫場景下的處理效率,可很好地支持大規(guī)模流式語音轉(zhuǎn)寫文本糾錯。