本發明涉及空管語音標注,尤其涉及一種空中交通管制語音的離線半自動標注方法及系統。
背景技術:
1、針對空管(air?traffic?control,atc)場景的語音識別模型開發中,精準的語音標注是確保模型性能的基礎。在空管場景下,由于無線電通信環境復雜,語音中包含專業術語(如呼號、航路點、高度層指令)以及密集的背景噪聲,通用語料庫訓練的模型往往難以直接應用于空管語音識別任務,因此,需要對空管語音數據進行專門標注。然而目前的標注工具在面對空管領域的特定應用需求時,仍存在以下局限性:
2、長時連續音頻的處理瓶頸:空管原始通話錄音通常呈現長時段、高頻率、非勻速的特征,單段音頻時長可長達30至60分鐘。現有工具大多基于“短段語音輸入”的設計邏輯,不支持對長音頻進行語義級的自動切分。標注人員必須依賴第三方軟件進行手工切片或在標注界面內手動拉取時間軸,增加了前置人工成本。
3、硬件兼容性與數據安全性約束:空管領域對數據安全性要求較高,標注環境通常為物理隔離的內網系統,嚴禁聯網使用在線標注云服務。而目前集成有先進asr(自動語音識別)模型的標注工具多依賴于云端或高性能gpu,難以適配空管一線工作站的常規cpu算力。現有工具普遍采用“加載一條、識別一條”的串行模式,導致標注員在切換下一條語音時需要等待識別結果返回,從而影響標注效率。
4、審校效率與認知負荷的矛盾:現有的輔助標注流程中,模型生成的預轉寫文本缺乏識別結果的評價指標。標注人員無法直觀定位高風險錯誤區,被迫進行全量復聽審校。這種審校模式無法有效引導人工精力投入,導致在標注大規模數據集時審校效率低下,認知負荷重。
5、行業特征匹配度低:通用工具缺乏針對空管語音特征(如高頻底噪、特定采樣率)的預處理優化方案。在無線電底噪強烈的環境下,未經處理的音頻直接送入通用標注模型可能會導致識別錯誤率增加,反而增加了人工修正的負擔,失去了“模型輔助”的初衷。
技術實現思路
1、本發明旨在至少解決相關技術中存在的技術問題之一。為此,本發明提供一種空中交通管制語音的離線半自動標注方法及系統,通過自動音頻切分、后臺批量異步識別、前臺交互式修正以及置信度可視化引導機制的協同工作,實現了在無網絡、低計算資源環境下對空管長時無線電語音的高效標注。
2、本發明提供一種空中交通管制語音的離線半自動標注方法,包括:
3、s1:接收空中交通管制場景的原始通話錄音;
4、s2:對所述原始通話錄音進行基于靜默檢測的自適應切分處理,獲得多個短音頻片段;
5、s3:對短音頻片段進行異步流水線式后臺批量預識別處理,生成預標注文本;
6、s4:對所述預標注文本進行逐詞的聲學置信度提取,獲得聲學置信度信息,利用構建的空管業務規則對聲學置信度信息進行邏輯校驗,重構生成詞級的綜合業務置信度信息;
7、s5:根據詞級的綜合業務置信度信息對預標注文本進行顏色分級顯示,并基于綜合業務置信度信息進行選擇性人工修正;
8、s6:將人工修正后的標注結果進行存儲管理。
9、進一步地,s2步驟中,所述基于靜默檢測的自適應切分處理包括粗分段切分策略以及基于靜默檢測的細粒度切分策略;
10、粗分段切分策略包括:
11、將原始通話錄音按預設的分段時長進行粗分段處理,預設的分段時長根據設備算力與文件規模進行設置;
12、基于靜默檢測的細粒度切分包括:
13、對每個粗分段,通過靜默檢測定位邊界指令,靜默檢測的判據包括靜默持續時間閾值與靜默能量閾值;
14、當音頻信號在連續時間內滿足靜默條件且持續時間大于等于靜默持續時間閾值時,判定所述連續時間內的音頻信號所在區段為靜默段;
15、以分貝全刻度表征信號強度,當音頻信號能量低于靜默能量閾值時視為靜默;
16、在粗分段內檢測到滿足靜默能量閾值以及靜默能量閾值條件的靜默段時,則將靜默段視為潛在邊界,從而將粗分段切分為多個短音頻片段;
17、在每個切分點兩側保留n時長的環境音。
18、進一步地,s3步驟包括:
19、檢測每一條短音頻片段的標注狀態,若短音頻片段的標注狀態為未標注,則對所述短音頻片段進行異步流水線式后臺批量預識別,獲得預標注文本;
20、將所述預標注文本與所述短音頻片段建立索引關系。
21、進一步地,所述異步流水線式后臺批量預識別處理包括:
22、通過語音降噪模塊對短音頻片段進行預處理;
23、通過語音識別模型對降噪后的短音頻片段進行語音轉寫處理,獲得預標注文本。
24、進一步地,所述語音降噪模塊采用基于深度神經網絡的語音增強模型,所述語音識別模型采用基于深度神經網絡的自動語音識別模型。
25、進一步地,s4步驟中對所述預標注文本進行逐詞的聲學置信度提取,獲得聲學置信度信息包括:
26、標記為預標注文本的最小構成單位,對標記的每個時間步輸出的對數幾率值執行softmax運算,獲得所述標記的置信度;
27、將屬于同一詞語的多個標記的置信度進行幾何平均聚合,獲得詞級的聲學置信度。
28、進一步地,s4步驟中構建的空管業務規則包括空管發音與實體映射約束、指令結構與句法約束以及物理常識與飛行規范邊界約束;
29、所述空管發音與實體映射約束包括針對民航特殊發音習慣建立強映射規則,并包含標準的航班呼號字典、全國航路點及航路編號字典;
30、所述指令結構與句法約束包括高度指令結構、航向指令結構、速度指令結構、移交/頻率指令結構以及應答機指令結構;
31、所述物理常識與飛行規范邊界約束包括航向數值邊界約束、無線電頻率邊界約束、應答機編碼邊界約束以及跑道編號邊界約束。
32、進一步地,s4步驟中利用構建的空管業務規則對聲學置信度信息進行邏輯校驗,重構生成詞級的綜合業務置信度信息包括:
33、所述預標注文本包含多個識別詞,識別詞包括空管專用術語、航班呼號、地名、數字及指令動詞;
34、若識別詞具有高聲學置信度,并通過了基于空管業務規則的邏輯校驗,則所述識別詞重構生成的詞級的綜合業務置信度信息為高置信度狀態;
35、若識別詞具備高聲學置信度但未通過基于空管業務規則的邏輯校驗時,則所述識別詞重構生成詞級的綜合業務置信度信息為低置信度狀態。
36、進一步地,s5步驟包括:
37、設置第一置信度閾值和第二置信度閾值,根據第一置信度閾值和第二置信度閾值將詞級的綜合業務置信度劃分為高風險等級、中等風險等級以及低風險等級;
38、將高風險等級對應的詞顯示為第一顏色,將中等風險等級對應的詞顯示為第二顏色,將低風險等級對應的詞顯示為第三顏色;
39、標注人員對高風險等級和中等風險等級的詞語對應的短音頻片段進行復聽和人工修正。
40、本發明還提供一種空中交通管制語音的離線半自動標注系統,用以執行上述一種空中交通管制語音的離線半自動標注方法,包括:
41、原始音頻接收模塊,所述原始音頻接收模塊接收空中交通管制場景的原始通話錄音;
42、自動音頻切分模塊,所述自動音頻切分模塊對所述原始通話錄音進行基于靜默檢測的自適應切分處理,獲得多個短音頻片段;
43、批量識別模塊,所述批量識別模塊對短音頻片段進行異步流水線式后臺批量預識別處理,生成預標注文本;
44、置信度提取模塊,所述置信度提取模塊對所述預標注文本進行逐詞的聲學置信度提取,獲得聲學置信度信息,利用構建的空管業務規則對聲學置信度信息進行邏輯校驗,重構生成詞級的綜合業務置信度信息;
45、人工修正模塊,所述人工修正模塊根據詞級的綜合業務置信度信息對預標注文本進行顏色分級顯示,并基于綜合業務置信度信息進行選擇性人工修正;
46、標注數據存儲模塊,所述標注數據存儲模塊將人工修正后的標注結果進行存儲管理。
47、本發明實施例中的上述一個或多個技術方案,至少具有如下技術效果之一:
48、本發明通過基于靜默檢測的自適應自動切分機制,實現了對30~60分鐘空管連續通話錄音的自動指令級切分,避免了人工使用第三方工具或在標注界面內手動劃分時間軸所帶來的前置工作,從而降低了人工參與度并提升了切分一致性。
49、通過異步流水線式后臺批量預識別機制,本發明將語音識別模型的推理過程提前并分散至后臺執行,使模型計算與人工標注在時間維度上并行進行,有效消除了傳統“逐條加載、逐條識別”模式下的等待時間問題,特別適用于無網絡、無高性能gpu的空管標注環境。
50、本發明的置信度重構機制,通過聲學置信度暴露模型“聽不清”的模糊區,通過飛行規范邊界、指令結構等硬性規則,捕獲語音識別模型“高自信度聽錯”(即聲學置信度極高,但違背航空物理常識或安全協議)的業務錯誤。通過將重構后的綜合風險可視化,引導標注人員僅對真正的業務風險點進行定向復聽與修正,改進了傳統依賴全量復聽的標注方式,在降低認知負荷的同時,提高了標注數據在業務場景中的可靠性。
51、本發明通過模型預標注、置信度引導、定向人工修正的協同流程,使標注人員在嚴格且統一的空管業務提示規則下進行操作,減少不同標注人員之間的主觀差異,提高標注結果的一致性和可復用性,為后續語音模型微調提供高質量監督數據。
52、本發明不依賴外部網絡服務,易于在現有空管系統環境中落地實施;同時,各模塊之間解耦設計,可根據算力條件或業務需求靈活替換語音識別模型、降噪模型或規則庫,具有良好的擴展能力。
53、本發明的附加方面和優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發明的實踐了解到。