面向專業演講的非中文術語實時語音轉寫糾錯方法及系統

文檔序號：45266856發布日期：2026-04-17 19:56閱讀：11來源：國知局

本發明涉及語音識別，具體而言，涉及自動語音識別的后處理、自然語言處理以及多模態信息融合技術，特別適用于專業領域（如教育、科技、醫療）演講中出現的非中文術語實時語音轉寫糾錯。

背景技術：

1、隨著人工智能技術的飛速發展，自動語音識別（asr）技術已廣泛應用于在線教育、學術會議、課堂實錄等場景。在高校課堂或專業技術講座中，將演講者的語音實時轉換為文本（字幕或會議記錄），對于輔助聽眾理解、便于課后復習以及知識歸檔具有重要意義。

2、目前，主流的語音識別系統在處理日常通用對話時已具備較高的準確率。然而，在面向理工科課程（如通信原理、信號處理等）或專業技術演講的場景中，現有的語音轉寫技術仍面臨著嚴峻的挑戰。這類場景具有顯著的“多語言混合”與“高度專業化”特征，演講者往往會在中文表述中頻繁穿插各類非中文術語，主要包括英文專業詞匯或縮寫（如ofdm、psk）、變量（如m(t)）、希臘字母（如ε,?θ,??ω）、公式中的數學函數符號（如sin、cos）等。

3、現有技術在處理上述內容時，主要存在以下幾方面的問題：

4、第一，混合語言識別錯誤率高。由于非中文術語通常較短且發音可能帶有口音或連讀，通用的asr模型很難精準捕捉，常出現拼寫錯誤或漏識。

5、第二，嚴重的“同音誤識”現象。這是現有技術最顯著的缺陷。在中文語境下，當演講者讀出數學函數符號或希臘字母時，asr模型極易將其“聽”成發音相近的常用漢字。例如，將數學函數符號“cos”誤識別為漢字“擴散音”﹑“擴薩以”，將希臘字母“ω”誤識別為漢字“歐密嘎”﹑“喔米咖”等。這種錯誤不僅導致轉寫文本語義不通，甚至會完全改變原意，給閱讀者帶來極大的困擾。

6、第三，未利用視覺模態信息。現有的實時轉寫系統大多僅依賴語音信號進行處理。然而，在專業演講中，演講者展示的幻燈片（ppt）通常已經包含了當前正在講解的核心術語、公式和變量。現有技術未能有效利用這些即時的視覺內容來輔助語音識別，導致在語音識別得到的內容不確定的情況下，無法利用畫面上的正確信息進行修正。

7、因此，如何充分利用演講視頻中的視覺信息（幻燈片內容），針對專業演講中高頻出現的非中文術語，解決其拼寫錯誤及同音漢字誤識問題，實現高精度的實時語音轉寫糾錯，是當前本領域技術人員亟待解決的技術問題。

技術實現思路

1、本發明的目的在于提供面向專業演講的非中文術語實時語音轉寫糾錯方法及系統，以解決上述背景技術中存在的問題。其特征在于，包括步驟：?s1:實時獲取演講視頻流，并基于視頻流中的幻燈片頁面變化，將視頻流分割成多個連續的時域區間；

2、s2:對每個時域區間，實時提取視頻流中相應的演講者語音片段，使用流式自動語音識別模型將其轉換為原始語音轉寫文本；

3、s3:實時提取時域區間內的代表性視頻幀，并使用視覺-語言模型提取幀內的英文專業詞匯以及英文縮寫、變量、希臘字母、公式中的數學函數符號，構建當前幻燈片頁面的非中文術語字典；

4、s4：查找每個時域區間內的原始語音轉寫文本中的英文片段，并為每個英文片段構建相應的結構體；

5、s5：針對每個時域區間內的英文片段結構體，采用拼寫相似度檢測方法，以糾正其中存在的英文專業詞匯或縮寫轉寫錯誤、變量轉寫錯誤；s6：針對每個時域區間內未做糾錯處理的剩余英文片段結構體，采用音素特征匹配方法，以糾正其中存在的希臘字母轉寫錯誤；s7：針對每個時域區間內原始語音轉寫文本中的漢字，基于漢字音形編碼以及采用改進kmp的近似匹配方法，以糾正其中的數學函數符號轉寫錯誤、剩余希臘字母轉寫錯誤，從而最終生成糾錯后的語音轉寫文本。

6、可選地，實時獲取演講視頻流，并基于視頻流中的幻燈片頁面變化，將視頻流分割成多個連續的時域區間，具體包括：

7、實時獲取演講視頻流，視頻流包含音頻軌道與視覺畫面，其中，音頻軌道存放的主要為演講者語音片段，視覺畫面中主要為演講者幻燈片頁面；對視頻流按預設采樣率進行實時幀采樣，并實時計算采樣幀的感知哈希值；將相鄰采樣幀和感知哈希值之間的漢明距離與預設的差異閾值比較，若，則將采樣幀確定為有效的時域區間邊界；將整段視頻流實時劃分為連續的時域區間，每一區間對應一頁幻燈片的展示時段，且每一區間具有明確的起始時間與結束時間。

8、相比于基于固定時間間隔或純音頻分析的分割，本方法通過計算相鄰采樣幀的視覺特征序列之間的視覺相似度，實現了對幻燈片翻頁的高精度、高魯棒性實時檢測，顯著降低了因視頻壓縮或細微晃動引起的誤判率，確保了視覺畫面和演講者語音片段在時間和語義上的嚴格同步性。

9、可選地，對每個時域區間，實時提取視頻流中相應的演講者語音片段，使用流式自動語音識別模型將其轉換為原始語音轉寫文本，具體包括：

10、從視頻流中提取每個時域區間內的演講者語音片段；將語音片段輸入至流式自動語音識別模型進行實時轉寫，輸出原始語音轉寫文本。

11、可選地，實時提取時域區間內的代表性視頻幀，并使用視覺-語言模型提取幀內的英文專業詞匯以及英文縮寫、變量、公式中的數學函數符號、希臘字母，構建當前幻燈片頁面的非中文術語字典，具體包括：

12、提取每個時域區間的初始幀作為代表性視頻幀，并將幀圖像輸入至基于transformer架構的視覺-語言模型，進行全局版面分析，解析其中的幻燈片頁面，濾除頁面上的“表格”和“圖片”的非文本區域，得到文本區域；同時，初始化一個空的非中文術語字典，該字典中包含“英文專業詞匯或縮寫”、“數學函數符號”、“變量”、“希臘字母”四種類型的鍵，并且每種類型的鍵都帶有自身的鍵值列表；將文本區域中的所有非中文術語按上述類型進行分類，分別放入對應類型的鍵值列表中。從而完成當前幻燈片頁面的非中文術語字典的構建。

13、通過對提取文本進行細粒度的語義分類（區分“英文專業詞匯或縮寫”、“數學函數符號”、“變量”、“希臘字母”），構建了具有明確語義指向的非中文術語字典，這不僅顯著提高了提取非中文術語的純凈度，更為后續針對不同類型非中文術語采用差異化的糾錯方法（包括拼寫相似度檢測方法、音素特征匹配方法、基于漢字音形編碼以及改進kmp的近似匹配方法）提供了精準的數據支撐，從而大幅提升了糾錯系統的魯棒性和運行效率。

14、可選地，查找每個時域區間內的原始語音轉寫文本中的英文片段，并為每個英文片段構建相應的結構體，具體包括：對每個時域區間，遍歷該區間內的原始語音轉寫文本，查找其所含的所有英文片段，然后，將找出的各個英文片段內容﹑該片段的起始位置索引﹑該片段的結束位置索引存儲為英文片段結構體。

15、可選地，針對每個時域區間內的英文片段結構體，采用拼寫相似度檢測方法，以糾正其中存在的英文專業詞匯或縮寫轉寫錯誤、變量轉寫錯誤，具體包括：

16、對每個時域區間，遍歷其中的每一個英文片段結構體，檢測片段內容與非中文術語字典中類型為“英文專業詞匯或縮寫”﹑“變量”鍵值列表中各個元素之間是否存在相互包含關系。若存在包含關系，則直接根據結構體中的片段的起始位置索引和結束位置索引，將片段內容替換為與之存在包含關系的“英文專業詞匯或縮寫”和“變量”鍵值列表中的那個元素；

17、若不存在包含關系，則計算結構體的片段內容與“英文專業詞匯或縮寫”鍵值列表﹑“變量”鍵值列表中的各個元素的拼寫相似度。具體計算過程如下：

18、步驟1：定義當前結構體的片段內容為字符串，其長度為，其字符串索引從0開始，“英文專業詞匯或縮寫”鍵值列表或“變量”鍵值列表中的某個元素為，其長度為，其字符串索引從0開始；

19、步驟2：定義大小為的二維數組，其表示將的前個字符轉換為的前個字符所需的最少編輯操作次數，包括插入﹑刪除﹑替換三種操作；

20、步驟3：將從遍歷到﹑遍歷到，確定的值；

21、當時（為空），需要插入??個字符才能得到??的前?個字符，因此；當時（為空），需要刪除?個字符才能得到空字符串，因此；

22、當且時，如果的前個字符與的前個字符相同，無需任何操作，；如果的前個字符與的前個字符不同，則在計算時，取插入﹑刪除﹑替換三種操作中的最小值，即，

23、;

24、其中，表示在的前個字符后插入以匹配的前個字符所需的編輯操作次數；表示刪除，用的前個字符匹配的前個字符所需的編輯操作次數；為將替換成，分別匹配兩者的前個和個字符所需的編輯操作次數；

25、步驟4：當遍歷完成后，計算和之間的拼寫相似度?，即，

26、，

27、步驟5：重復步驟1~步驟4，計算與和中的除以外的其他元素之間的相似度，；

28、步驟6：設定一個拼寫相似度閾值，其取值范圍為；如果存在，則用具有最高拼寫相似度的鍵值列表元素替換掉，完成糾錯操作；如果，均低于，則對不做任何糾錯處理。相比于現有方法，本步驟所設計的的英文字符串相似度檢測方法具有極高的容錯性，能夠有效應對自動語音識別中常見的英文字符級增刪改錯誤。同時，通過引入相似度閾值判定機制，能夠在保證召回率的同時，利用當前頁幻燈片構建的非中文術語字典作為強約束，極大地降低了將通用英文單詞誤糾為專業術語的風險，實現了針對英文專業詞匯或縮寫轉寫、變量的高精度糾錯。

29、可選地，針對每個時域區間內未做糾錯處理的剩余英文片段結構體，采用音素特征匹配方法，以糾正其中存在的希臘字母轉寫錯誤，具體包括：步驟1：將當前時域區間內未做糾錯處理的剩余英文片段結構體內容輸入相同的音素轉換模型，得到每個片段內容所對應的音素串，簡稱片段內容的音素串；

30、步驟2：將非中文術語字典中的“希臘字母”鍵值列表中的所有元素也輸入音素轉換模型，得到每個元素所對應的音素串，簡稱鍵值列表元素的音素串；

31、步驟3：設當前待匹配的片段內容的音素串為，其長度為，其音素串索引從0開始；設“希臘字母”鍵值列表中的某個元素的音素串為，其長度為，其音素串索引從0開始；

32、步驟4：定義大小為的二維數組，其表示將的前個音素轉換為的前個音素所需的最少編輯操作次數，包括插入﹑刪除﹑替換三種操作；

33、步驟5：將從遍歷到﹑遍歷到，確定的值；

34、當時（為空），需要插入??個音素才能得到??的前?個音素，因此，為預先設定的插入操作的成本；當時（為空），需要刪除?個音素才能得到空音素字符串，因此，為預先設定的刪除操作的成本；

35、當且時，如果的前個音素與的前個音素相同，無需任何操作，；如果的前個音素與的前個音素不同，則在計算時，取插入﹑刪除﹑替換三種操作中的最小值，即，

36、;

37、其中，表示在的前個音素后插入以匹配的前個音素所需的編輯操作次數；

38、表示刪除，用的前個音素匹配的前個音素所需的編輯操作次數；

39、為將替換成，分別匹配兩者的前個和個音素所需的編輯操作次數；為縮放系數，?表示的第個音素和的第個音素之間的特征替換成本，計算公式如下：

40、，

41、式中，?代表和所具有的發音特征集合的并集，涵蓋的特征包括元音/輔音、清濁音、發音部位；與分別表示和在第個特征維度上的取值；為指示函數，當兩者的特征取值不相等時，其為1，相等時為0；上式的含義在于，若和發音特征非常接近，則二者的特征差異小，計算出的趨近于0；反之若特征差異大，則計算出的趨于1。

42、步驟6：當遍歷完成后，計算和之間的音素匹配度?，即，

43、;

44、步驟7：重復步驟3~步驟6，計算與中除以外的其他元素的音素串之間的匹配度；

45、步驟8：設定一個音素匹配度度閾值，其取值范圍為；如果存在，則用具有最高音素匹配度的鍵值列表元素替換掉，完成糾錯操作；如果，低于，則對不做任何糾錯處理。

46、與傳統的僅依賴字面拼寫的糾錯方法相比，該方法突破了字形的限制，而是考慮發音相似性。通過細粒度的特征比對和加權動態規劃，該方法能夠精確捕捉“拼寫差距大但發音極其相似”的轉寫錯誤，顯著提升了原始語音轉寫文本中的希臘字母糾錯準確率。

47、可選地，針對每個時域區間內原始語音轉寫文本中的漢字，基于漢字音形編碼以及采用改進kmp的近似匹配方法，以糾正其中的數學函數符號轉寫錯誤、剩余希臘字母轉寫錯誤，從而最終生成糾錯后的語音轉寫文本，具體包括：步驟1：對于每個時間區域內原始語音轉寫文本中的每個漢字，將其編碼為10位音形碼，其包括3位音碼和7位形碼；其中，音碼（3位）由該漢字的聲母（1位）、韻母（1位）、和聲調（1位）構成，形碼（7位）由字形結構類型（1位）、四角號碼（5位）和筆畫數（1位）構成；最終得到關于的文本音形碼序列，記為，其中，為中的漢字數量；

48、步驟2：對于非中文術語字典中的“數學函數符號”鍵值列表、“希臘字母”鍵值列表中的每個元素，將其轉換為與之發音相近的詞匯，并對中的每個漢字，將其也編碼為10位音形碼，最終得到關于的術語音形碼序列，記為，其中，為中的漢字數量；

49、步驟3：定義兩個音形碼之間的相似度為二者音碼部分的相似度和二者形碼部分的相似度的加權和，計算公式為：

50、，

51、其中，為音碼權重且；

52、步驟4：定義近似匹配條件，即，如果，判定和近似匹配成功；

53、步驟5：計算術語音形碼序列的近似失配跳轉表定義近似失配跳轉表的長度與一致（即長度為）。對于中的每一個位置（），尋找一個最長的長度，使得的前綴子序列與后綴子序列滿足對應位置音形碼的相似度均大于。若存在這樣的，則令；若不存在，則令?。該跳轉表用于指示當前匹配長度為，但下一位（即第位）匹配失敗時，匹配長度應回退至，

54、步驟6：定義一個長度為的匹配數組，其初始值為0，用于保存和之間的近似匹配關系，

55、步驟7：執行改進的近似kmp匹配過程。定義的當前已匹配長度，初始置為0。自前向后遍歷文本音形碼序列中的每一個音形碼（=1,...,）：若當前已匹配長度，且與不滿足近似匹配條件（即），則將已匹配的長度回退至（即令），重新判斷與，重復此過程直到與滿足近似匹配條件或回退到0為止；若與滿足近似匹配條件（即），則令已匹配長度自加1；若（即已匹配長度等于術語音形碼序列的長度），則判定的音形碼子序列與，令以記錄匹配關系，同時，令，繼續下一次匹配，

56、步驟8：計算和的整體相似度：

57、，

58、當時，則認為中存在一個長為的文本片段，其與或中的詞匯在音形碼序列的層面上高度相似；此時，根據匹配數組中各元素的值，可以準確定位該文本片段在所處的位置，用替換掉該文本片段；

59、步驟9：重復執行步驟3~步驟8，找出中與以及中的其他詞匯高度相似的文本片段，并準確定位相應的位置，用這些詞匯替換掉中的這些文本片段；

60、通過上述步驟，糾正中的數學函數符號轉寫錯誤、剩余希臘字母轉寫錯誤，從而最終生成糾錯后的語音轉寫文本。

61、該方法利用多維度的音形特征（聲韻調+結構筆畫）替代單一的文本特征，有效解決了跨語言發音映射的模糊性問題。同時，采用改進kmp的近似匹配方法能夠在連續的文本流中精準定位并糾正多字跨度的錯誤片段，極大地增強了系統在長難句和混合語境下的糾錯魯棒性。

62、可選地，本發明還支持實現針對離線專業演講視頻的語音轉寫中的非中文術語糾錯的批量處理，具體包括：

63、遍歷視頻庫，檢查每個視頻文件是否存在對應的已轉寫文本文件或已糾錯；若存在已轉寫文本但未糾錯，則直接加載該文本進行多階段糾錯處理；若不存在轉寫文本，則調用語音識別模型生成轉寫文本后再進行糾錯。

64、本發明提供了面向專業演講的非中文術語實時語音轉寫糾錯系統，用于實現面向專業演講的中文術語實時語音轉寫糾錯方法，其特征在于，所述系統包括：

65、視頻流分割模塊，用于實時獲取演講視頻流，并將視頻流實時分割成多個連續的時域區間；

66、語音轉寫模塊，用于對每個時域區間，實時提取視頻流中相應的演講者語音片段，使用自動語音識別模型將其轉換為原始語音轉寫文本；

67、視覺文本提取模塊，用于實時提取時域區間內的代表性視頻幀，并使用視覺-語言模型提取幀內的英文專業詞匯以及英文縮寫、變量、希臘字母、公式中的數學函數符號，構建當前幻燈片頁面的非中文術語字典；

68、英文片段查找模塊，用于查找每個時域區間內的原始語音轉寫文本中的英文片段，并為每個英文片段構建相應的結構體；

69、英文專業詞匯或縮寫轉寫錯誤、變量轉寫錯誤糾正模塊，用于對每個時域區間內的英文片段結構體，采用拼寫相似度檢測方法，以糾正其中存在的英文專業詞匯或縮寫轉寫錯誤、變量轉寫錯誤；英文片段中的希臘字母轉寫錯誤糾正模塊：用于對每個時域區間內未做糾錯處理的剩余英文片段結構體，采用音素特征匹配方法，以糾正其中存在的希臘字母轉寫錯誤；

70、數學函數符號轉寫錯誤、剩余希臘字母轉寫錯誤糾正模塊：用于對每個時域區間內原始語音轉寫文本中的漢字，基于漢字音形編碼以及采用改進kmp的近似匹配方法，以糾正其中的數學函數符號轉寫錯誤、剩余希臘字母轉寫錯誤，從而最終生成糾錯后的語音轉寫文本。

71、本發明還提供了一種計算機可讀介質，其上存儲有計算機程序，該計算機程序被處理器執行時實現所述的方法以對實時語音轉寫中的非中文術語進行糾錯。

72、本發明還提供了一種電子設備，包括存儲器、處理器以及存儲在存儲器上并可在處理器上運行的計算機程序，所述處理器執行所述計算機程序時實現所述的方法以對實時語音轉寫中的非中文術語進行糾錯。

73、相對于現有技術，本發明的優點如下：

74、本發明針對專業演講場景中中英語言混合與專業術語密集導致的非中文術語語音轉寫難題，提出了利用幻燈片頁面中的非中文術語的多級實時糾錯方案，相較于現有技術，其核心優勢首先體現在數據源的純凈度與相關性上。現有技術多采用通用ocr技術進行全屏文字提取，無法區分核心語義與頁碼、表格數據等干擾信息，導致所建立的非中文術語字典噪聲巨大，極易引發誤糾錯。本發明引入基于transformer架構的視覺-語言模型進行全局版面分析，利用語義分割技術精準濾除非文本的高噪聲區域，并對提取字符進行細粒度的語義分類。這種從源頭上的去噪處理，確保了構建的動態非中文字符詞典具有極高的信噪比，使得后續的糾錯匹配只需在特定的語義子集中進行，既大幅降低了計算復雜度，又從根本上杜絕了跨類別的誤匹配風險。

75、進一步地，在糾錯算法的維度上，本發明突破了傳統單一文本特征匹配的局限，構建了從字形到音素再到音形碼的立體化糾錯體系。針對希臘字母在自動語音識別中常見的“拼寫差異大但發音相似”的轉寫錯誤，本發明并未沿用傳統的編輯距離算法，而是通過計算音素在清濁、發音部位等特征上的差異成本，從而精準捕捉待糾錯文本片段和非中文術語字典鍵值元素在語音層面的相似性，從而顯著提升了希臘字母的召回率，有效解決了傳統算法對此類發音驅動型錯誤無能為力的問題。

76、此外，本發明在一定程度上解決了跨語言同音誤識的問題。在專業演講中，數學函數或希臘符號常被誤轉寫為發音相近的中文，傳統的基于語義或字形的糾錯模型無法建立兩者之間的聯系。本發明提出了漢字音形編碼以及采用改進kmp的近似匹配方法，將復雜的漢字降維映射為音碼和形碼序列，并通過高權重的音碼設置，放大中英文在語音層面的重合度，縮小字形差異。配合滑動窗口匹配機制，該方案能夠在連續的中文文本流中精準定位并糾正被誤識別的數學函數或希臘符號，實現了真正意義上的跨語言、跨模態對齊。

77、最后，本發明通過基于視覺內容變化的視頻流實時分割機制，確保了糾錯過程的時空一致性。本發明將當前時域區間的語音轉寫文本糾錯約束在當前頁幻燈片展示的時域區間內，利用即時的視覺信息作為強先驗知識。這種強時空約束機制保證了只有當屏幕上出現特定術語時，系統才會觸發相應的糾錯邏輯，從而在保證高糾錯率的同時，極大地降低了誤糾率，使系統在處理長時長、知識點密集的專業演講視頻時具備了極高的魯棒性與實用價值。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：魏昕,魏一翔,于雨萌,廖俊淇,周藝,李宗辰
技術所有人：南京郵電大學
我是此專利的發明人

網友詢問留言留言:0條

還沒有人留言評論。精彩留言會獲得點贊！

文明留言，給您點贊！

同類技術