1.面向?qū)I(yè)演講的非中文術(shù)語實(shí)時(shí)語音轉(zhuǎn)寫糾錯(cuò)方法,其特征在于,所述方法包括以下步驟:
2.根據(jù)權(quán)利要求1所述的面向?qū)I(yè)演講的非中文術(shù)語實(shí)時(shí)語音轉(zhuǎn)寫糾錯(cuò)方法,其特征在于,步驟s1具體如下,
3.根據(jù)權(quán)利要求1所述的面向?qū)I(yè)演講的非中文術(shù)語實(shí)時(shí)語音轉(zhuǎn)寫糾錯(cuò)方法,其特征在于,步驟s2具體如下,從視頻流中提取每個(gè)時(shí)域區(qū)間內(nèi)的演講者語音片段;將語音片段輸入至流式自動(dòng)語音識(shí)別模型進(jìn)行實(shí)時(shí)轉(zhuǎn)寫,輸出原始語音轉(zhuǎn)寫文本。
4.根據(jù)權(quán)利要求1所述的面向?qū)I(yè)演講的非中文術(shù)語實(shí)時(shí)語音轉(zhuǎn)寫糾錯(cuò)方法,其特征在于,步驟s3具體如下,提取每個(gè)時(shí)域區(qū)間的初始幀作為代表性視頻幀,并將幀圖像輸入至基于transformer架構(gòu)的視覺-語言模型,進(jìn)行全局版面分析,解析其中的幻燈片頁面,濾除頁面上的“表格”和“圖片”的非文本區(qū)域,得到文本區(qū)域;同時(shí),初始化一個(gè)空的非中文術(shù)語字典,該字典中包含“英文專業(yè)詞匯或縮寫”、“數(shù)學(xué)函數(shù)符號(hào)”、“變量”、“希臘字母”四種類型的鍵,并且每種類型的鍵都帶有自身的鍵值列表;將文本區(qū)域中的所有非中文術(shù)語按上述類型進(jìn)行分類,分別放入對(duì)應(yīng)類型的鍵值列表中,從而完成當(dāng)前幻燈片頁面的非中文術(shù)語字典的構(gòu)建。
5.根據(jù)權(quán)利要求1所述的面向?qū)I(yè)演講的非中文術(shù)語實(shí)時(shí)語音轉(zhuǎn)寫糾錯(cuò)方法,其特征在于,步驟s4具體如下,對(duì)每個(gè)時(shí)域區(qū)間,遍歷該區(qū)間內(nèi)的原始語音轉(zhuǎn)寫文本,查找其所含的所有英文片段,然后,將找出的各個(gè)英文片段內(nèi)容﹑該片段的起始位置索引﹑該片段的結(jié)束位置索引存儲(chǔ)為英文片段結(jié)構(gòu)體。
6.根據(jù)權(quán)利要求1所述的面向?qū)I(yè)演講的非中文術(shù)語實(shí)時(shí)語音轉(zhuǎn)寫糾錯(cuò)方法,其特征在于,步驟s5具體如下,對(duì)每個(gè)時(shí)域區(qū)間,遍歷其中的每一個(gè)英文片段結(jié)構(gòu)體,檢測(cè)片段內(nèi)容與非中文術(shù)語字典中類型為“英文專業(yè)詞匯或縮寫”﹑“變量”鍵值列表中各個(gè)元素之間是否存在相互包含關(guān)系,若存在包含關(guān)系,則直接根據(jù)結(jié)構(gòu)體中的片段的起始位置索引和結(jié)束位置索引,將片段內(nèi)容替換為與之存在包含關(guān)系的“英文專業(yè)詞匯或縮寫”和“變量”鍵值列表中的那個(gè)元素;
7.根據(jù)權(quán)利要求1所述的面向?qū)I(yè)演講的非中文術(shù)語實(shí)時(shí)語音轉(zhuǎn)寫糾錯(cuò)方法,其特征在于,步驟s6具體如下,
8.根據(jù)權(quán)利要求1所述的面向?qū)I(yè)演講的非中文術(shù)語實(shí)時(shí)語音轉(zhuǎn)寫糾錯(cuò)方法,其特征在于,步驟s7具體如下,針對(duì)每個(gè)時(shí)域區(qū)間內(nèi)原始語音轉(zhuǎn)寫文本中的漢字,基于漢字音形編碼以及采用改進(jìn)kmp的近似匹配方法,以糾正其中的數(shù)學(xué)函數(shù)符號(hào)轉(zhuǎn)寫錯(cuò)誤、剩余希臘字母轉(zhuǎn)寫錯(cuò)誤,從而最終生成糾錯(cuò)后的語音轉(zhuǎn)寫文本,具體包括:
9.根據(jù)權(quán)利要求1的面向?qū)I(yè)演講的非中文術(shù)語實(shí)時(shí)語音轉(zhuǎn)寫糾錯(cuò)方法,其特征在于,還支持實(shí)現(xiàn)針對(duì)離線專業(yè)演講視頻的語音轉(zhuǎn)寫中的非中文術(shù)語糾錯(cuò)的批量處理,具體包括:
10.面向?qū)I(yè)演講的非中文術(shù)語實(shí)時(shí)語音轉(zhuǎn)寫糾錯(cuò)系統(tǒng),用于實(shí)現(xiàn)如權(quán)利要求1-9任一項(xiàng)所述的面向?qū)I(yè)演講的非中文術(shù)語實(shí)時(shí)語音轉(zhuǎn)寫糾錯(cuò)方法,其特征在于,所述系統(tǒng)包括:
11.一種計(jì)算機(jī)可讀介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1-9中任意一項(xiàng)所述的面向?qū)I(yè)演講的非中文術(shù)語實(shí)時(shí)語音轉(zhuǎn)寫糾錯(cuò)方法。
12.一種電子設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,處理器執(zhí)行計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1-9中任意一項(xiàng)所述的面向?qū)I(yè)演講的非中文術(shù)語實(shí)時(shí)語音轉(zhuǎn)寫糾錯(cuò)方法。