本發明涉及網絡安全與數據處理,具體涉及一種日志分析技術,特別是一種面向多源異構日志數據的自動化分類方法。
背景技術:
1、隨著信息技術的飛速發展,網絡與信息系統已深度融入金融、醫療、交通等關鍵領域。然而,系統復雜性的提升也使其更易受到內部故障與外部入侵的威脅,可能引發嚴重服務中斷與數據泄露。日志作為記錄系統運行狀態與事件的核心載體,對其進行有效分析是實現異常檢測與安全防護的重要手段。
2、現代網絡通常由來自不同供應商、運行不同服務的異構設備與子系統構成,其產生的日志(即多源日志)在格式、語義和結構化程度上存在巨大差異。傳統日志分析方法通常針對特定、已知的日志格式設計,難以適應這種動態、異構的多源環境。尤其在系統老化、維護缺失或日志聚合后原始來源信息丟失等場景下,對混合日志流進行準確的來源分類成為了后續深度分析(如異常檢測、根源分析)的前提與難點。
3、現有技術中,基于規則或模板的日志分類方法靈活性差,難以適應新出現的日志格式。基于傳統機器學習的方法(如svm、決策樹)依賴于復雜的手工特征工程,且對序列數據的上下文信息建模能力有限。近年來,循環神經網絡(rnn)及其變體如長短期記憶網絡(lstm)和門控循環單元(gru)在處理序列數據方面展現了優勢,但單向網絡難以充分利用序列的雙向上下文信息,而標準lstm在捕捉長序列中復雜的全局依賴關系方面仍存在局限。此外,現有方法在訓練時通常采用隨機負采樣,未能有效區分語義相近的日志源,導致分類邊界模糊,影響模型在相似類別上的區分精度。
4、因此,亟需一種能夠有效解析多源日志格式、充分挖掘日志序列的深層語義與上下文信息,并能提升對相似源類別區分能力的分類方法。
技術實現思路
1、本發明的目的在于克服現有技術的不足,提供一種結合雙向門控循環單元-長短期記憶網絡及令牌-特征編織注意力融合模塊的多源日志分類方法。該方法能夠自動學習日志的語義特征與上下文關聯,并利用自適應硬負采樣策略增強模型對相似日志源的判別能力,從而實現高準確率的多源日志自動分類。
2、為實現上述目的,本發明采用的技術方案如下:
3、一種基于bigru-lstm與tfwaf的多源日志分類方法,包括以下步驟:
4、s1,數據預處理,對訓練集日志進行預處理,包括刪除日志頭部、保留消息部分,使用正則表達式將消息中的特定格式信息替換為預定義的占位符,并對日志內容進行清理和分詞;
5、s2,模型構建與訓練,將預處理后的日志輸入到結合tfwaf模塊的bigru-lstm模型中進行訓練,得到訓練后的模型;
6、s3,分類推理,將待分類的測試集日志數據輸入所述訓練后的模型,輸出分類結果。
7、進一步地,步驟s2具體包括:
8、s2.1,將預處理后的每條日志句子表示為單詞序列,通過嵌入矩陣將每個單詞轉換為詞向量,并利用位置編碼函數為詞向量添加其在序列中的位置信息;
9、s2.2,將帶有位置信息的詞向量輸入至雙向門控循環單元層bigru,分別獲取前向傳播與后向傳播的隱藏狀態表示,并將二者在對應位置進行拼接,形成融合了雙向上下文的隱藏表示;
10、s2.3,將拼接后的隱藏表示輸入至長短期記憶網絡層lstm,由lstm進一步捕捉序列中的長程依賴關系,輸出lstm層的隱藏狀態序列;
11、s2.4,將所述lstm層的隱藏狀態序列輸入至tfwaf模塊,該模塊通過并行的令牌視角自注意力和特征視角自注意力,分別捕獲序列元素的語義關聯和特征維度間的相關性,再通過編織融合機制將兩種視角的信息深度融合,得到文本級的融合特征表示;
12、s2.5,對所述融合特征表示進行非線性變換與降維:首先通過全連接層將所述融合特征表示由低維映射到高維空間,利用整流線性單元激活函數增強非線性表達能力;隨后通過池化操作進行降維,并引入殘差連接以緩解梯度消失問題,得到降維后的融合特征表示;
13、s2.6,將降維后的融合特征表示輸入分類器,結合自適應硬負采樣策略計算損失函數并進行模型參數優化。
14、進一步地,所述tfwaf模塊的處理過程具體為:
15、令z∈為lstm層輸出的隱藏狀態序列,其中l為序列長度,d為特征維度;
16、s2.4.1,將經令牌視角自注意力模塊tvsa處理,輸出處理結果
17、;
18、其中,ztvsa表示經tvsa處理結果;tvsa表示令牌視角自注意力處理;att表示自注意力計算,f表示特征輸出;,,為給定的形狀為的可學習權重矩陣,,,,;
19、s2.4.2,接著經過特征視角自注意力模塊fvsa處理,輸出處理結果
20、;
21、其中,zfvsa表示經fvsa處理結果;fvsa表示特征視角自注意力處理;,,為給定的形狀為的可學習權重矩陣,,,,,其中為的轉置,softmax為激活函數。
22、s2.4.3,將和進行編織注意力融合模塊waf處理,輸出處理結果
23、;
24、其中,表示和經waf處理結果,符號表示,lineara,?linearb,?linearc表示三個不同的線性層,flatten是指平坦函數。
25、進一步地,s2.6,將降維后的融合特征表示輸入分類器,結合自適應硬負采樣策略計算損失函數并進行模型參數優化的具體步驟為:
26、將降維后的融合特征表示輸入分類器,自適應硬負采樣策略根據模型預測的logits值,篩選出預測置信度高但非真實類別的“硬負樣本”標簽,在交叉熵損失函數中對其施加額外的懲罰,迫使模型更好地區分易混淆的類別,根據logits得到硬負標簽,再結合softmax函數,得到分類結果。
27、根據logits對硬負標簽進行采樣,硬否定logits較高但不是正確的的標簽;采樣公式為:;
28、其中,表示硬負標簽采樣結果,表示類別索引,為給定的最小logits值。
29、所述自適應硬負采樣策略中,損失函數為:,
30、為標準交叉熵損失,具體公式如下:
31、;
32、其中,為第i個日志的真實標簽,為第i個日志的模型推理出的標簽,n為日志數,m為類別數;;
33、其中,p(qi|?xi)為在日志xi的條件下,日志xi屬于類別?qi的概率;和分別表示第i個日志權重和偏差,為得到的特征表示;
34、為硬負懲罰項,具體公式如下:
35、;
36、其中,是一個超參數,用于控制懲罰的強度,是硬負標簽的預測概率。
37、本發明還提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述程序時實現上述基于bigru-lstm與tfwaf的多源日志分類方法的步驟。
38、本發明還提供一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現上述基于bigru-lstm與tfwaf的多源日志分類方法的步驟。?相比于現有技術,本發明的有益效果是:
39、1.本發明具備強大的上下文建模能力:通過bigru與lstm的級聯結構,先利用bigru有效捕獲日志序列的雙向短時上下文信息,再利用lstm進一步建模長程依賴,形成了對日志序列層次化、互補性的特征提取。
40、2.本發明具有深層的語義信息融合:創新的tfwaf模塊通過令牌視角和特征視角的雙路自注意力機制,能夠同時建模日志詞元之間的序列語義關聯和特征維度之間的全局隱含關聯,從而挖掘出更深層、更全面的語義表示。
41、3.本發明引入的自適應硬負采樣策略,能夠在訓練過程中動態識別并加強對易混淆(相似)日志源類別的區分度學習,有效提高了模型在細粒度分類上的準確率和魯棒性。