本發明屬于網絡通信,具體涉及一種web?api漏洞攻擊的檢測方法、系統及設備。
背景技術:
1、在數字化浪潮推動下,企業數字化轉型的進程中業務系統日益復雜,對外提供api服務的業務場景增多。數字化轉型在提升業務效率與用戶體驗的同時,也為企業帶來了安全挑戰。面向用戶的api訪問權限與接口驗證不充分、驗證邏輯存在缺陷等問題日益突顯。在網絡通信過程中,會產生大量涉及用戶權限驗證和業務邏輯處理的網絡流量數據。攻擊者利用越權漏洞、未授權漏洞、業務邏輯漏洞以及設備或數據庫配置失誤等安全缺陷,結合sql注入、xss、rce等技術手段,可能導致敏感數據泄露、直接經濟損失或惡意操作等嚴重后果。
2、此類攻擊與具體api接口的業務場景緊密相連,在不同業務場景下的攻擊方式與利用手段存在顯著差異,不存在統一、確定性的攻擊載荷,而傳統檢測方法主要基于預置專家規則,依賴安全人員對已知漏洞特征的總結與提煉。因此,傳統基于預置專家規則的檢測方法面對此類api漏洞攻擊時,由于缺乏先驗知識,無法預先定義有效的檢測規則,導致傳統檢測手段不能有效應對這類攻擊。這一直是漏洞攻擊檢測的難點問題。
3、漏洞攻擊檢測與安全分析是web?api防護的核心環節,在實際業務場景中應用傳統檢測方案時面臨以下技術問題:
4、1)現有技術方案普遍采用基于http協議層特征的靜態檢測方法,其核心缺陷是僅對url路徑、參數名、http方法等表層特征進行模式匹配,忽視了請求參數間的業務邏輯關聯性。
5、2)大多行為分析方案是采用離線訓練的靜態用戶行為基線模型,難以適應業務場景的動態變化。此外,此類方案假設攻擊者存在行為偏離,在面對攻擊者精心模擬合法用戶行為的偽裝式攻擊時難以有效識別。
6、3)現有的深度學習或機器學習檢測方案僅對單個http報文實施孤立分析,完全割裂了多報文間的業務上下文關聯。
7、4)傳統基于規則的檢測方法依賴關鍵詞匹配,無法理解編碼后的語義。
8、在api安全領域中的漏洞攻擊檢測問題上,通過對大量國內外相關研究調研和分析發現:現有研究多數是通過特定模型或算法對api安全檢測的某一特定方面或特定場景進行優化,例如對流量側單報文用以機器學習模型檢測。盡管這些研究為api漏洞攻擊檢測提供了一些方案,但是由于漏洞的不斷出現和攻擊形式的復雜化,基于單報文或預置規則的檢測方式難以檢測api業務邏輯漏洞等不存在確定性攻擊特征的漏洞攻擊。因此,如何有效檢測與業務高度相關的、不存在確定性攻擊特征的、流量語義上難以識別的漏洞攻擊,是當前急需解決的關鍵技術挑戰。
技術實現思路
1、為克服上述現有技術的不足,本發明的目的是提供一種web?api漏洞攻擊的檢測方法、系統及設備,不僅有效解決了api漏洞攻擊檢測問題,還解決了流量檢測場景中大語言模型對序列文本不敏感和輸入長度限制的問題,具有檢測精準的特點。
2、為實現上述目的,本發明采用的技術方案是:
3、一種web?api漏洞攻擊的檢測方法,包括以下步驟:
4、步驟s1,流量提取與解析
5、流量提取與解析模塊接收pcap流量包或網絡鏡像流量,提取流量中的tcp流,分離tcp流中的http請求報文與響應報文,對報文載荷進行解碼處理,并關聯請求與響應報文以形成結構化的http事務;
6、步驟s2,構建用戶行為序列
7、將結構化的http事務作為用戶行為序列構建模塊的輸入,基于多維會話標識,對http事務進行聚合,構建表征用戶連續操作行為的用戶行為序列;
8、步驟s3,語言化服務交互序列
9、將用戶行為序列作為服務交互序列語言化模塊的輸入,將所述用戶行為序列中的結構化數據進行語言化處理,轉換為接近自然語言格式的上下文序列;
10、步驟s4,將所述http事務和語言化處理后的所述用戶行為序列分別輸入至智能檢測引擎,通過所述智能檢測引擎并行執行流量語義檢測和行為意圖檢測;所述流量語義檢測基于所述http事務,識別報文載荷中的漏洞攻擊特征;所述行為意圖檢測基于語言化處理后的所述用戶行為序列,推理用戶操作意圖以識別業務邏輯相關的漏洞攻擊;
11、步驟s5,輸出基于所述流量語義檢測的漏洞攻擊告警信息和/或所述行為意圖檢測得到的漏洞攻擊告警信息。
12、所述步驟s2中,所述基于多維會話標識對http事務進行聚合,構建用戶行為序列,具體包括:
13、步驟s201:從每個http事務中提取源ip地址、目的ip地址、目的端口、user-agent字段、cookie字段五個維度的維標識,以此構成該事務的會話鍵;
14、步驟s202:依據所述會話鍵對http事務進行初次聚合,將具有相同會話鍵的http事務按其時間戳升序排列,形成多個初始會話集合;
15、步驟s203:基于由源ip地址、目的ip地址、user-agent字段構成的三維聚合鍵,對所述初始會話集合進行二次聚合,以處理cookie偽造導致的會話分裂或錯誤聚合,得到最終的用戶會話集合;
16、步驟s204:對于所述用戶會話集合中的每個http事務,提取其http請求方法、請求資源路徑、請求參數集合、http響應狀態碼、以及響應體內容的核心語義字段;
17、步驟s205:基于按時間排序的所述核心語義字段,構建形成所述用戶行為序列。
18、所述步驟s204中,所述響應體內容的處理方式為:僅保留文本類型的響應體內容,對二進制類型的響應體內容進行截斷或忽略。
19、所述步驟s3中,所述將用戶行為序列中的結構化數據進行語言化處理,具體又包括以下步驟:
20、步驟s301:對輸入的用戶行為序列進行格式校驗,確保每個行為單元包含http請求方法、請求資源路徑、請求參數集合、http響應狀態碼、響應體內容字段;
21、步驟s302:對于每個行為單元,將其http請求方法、請求資源路徑、請求參數集合、http響應狀態碼字段按固定順序橫向排列,并剝離結構化格式符號;
22、步驟s303:對每個行為單元中的響應體內容進行摘要處理,生成響應體信息摘要;
23、步驟s304:將所有經過步驟s302和步驟s303處理后的行為單元,按其對應http事務的時間戳升序排列,輸出為語言化后的上下文序列。
24、所述步驟s303中,所述摘要處理為:當響應體內容長度超過預設閾值時,通過關鍵詞精確匹配和前綴模糊匹配方式提取業務關鍵信息。
25、所述步驟s4中,所述流量語義檢測是使用經過微調的bert模型對所述http事務的載荷進行深度語義建模以識別攻擊;
26、所述步驟s4中,所述行為意圖檢測是使用經過提示工程和/或lora微調的大語言模型對語言化后的所述用戶行為序列進行分析,以推理用戶行為意圖并識別攻擊;所述大語言模型的基座模型為qwen2.5-7b-instruct。
27、所述步驟s4中,所述流量語義檢測和所述行為意圖檢測是并行、獨立進行的;所述智能檢測引擎的總體檢出率滿足交底書中的公式:
28、其中:
29、recall_max表示智能檢測引擎的理論最大檢出率;
30、recall_bert表示流量語義檢測模型(bert)的檢出率;
31、recall_llm表示行為意圖檢測模型(llm)的檢出率。
32、一種web?api漏洞攻擊檢測系統,包括有:
33、流量提取與解析模塊,配置用于接收網絡流量數據,提取并解析tcp流,分離http請求與響應報文,進行解碼處理,并關聯生成http事務;
34、用戶行為序列構建模塊,配置用于基于多維會話標識聚合所述http事務,構建用戶行為序列;
35、服務交互序列語言化模塊,配置用于將所述用戶行為序列中的結構化數據轉換為接近自然語言格式的上下文序列;
36、智能檢測引擎模塊,配置包括:流量語義檢測單元,用于基于所述http事務進行漏洞攻擊識別;
37、行為意圖檢測單元,用于基于語言化后的所述用戶行為序列進行用戶意圖推理和漏洞攻擊識別;
38、告警輸出模塊,配置用于輸出所述智能檢測引擎模塊的檢測結果。
39、一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執行所述程序時實現權利要求1-7中任一項所述方法的步驟。
40、一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現權利要求1-7中任一項所述方法的步驟。
41、本發明的有益效果是:
42、本發明提出了一種融合流量語義和行為特征的api漏洞攻擊檢測方案,針對api安全領域中不存在確定性攻擊特征的漏洞攻擊檢測難題進行了創新性的解決。該方案不僅有效解決了api漏洞攻擊檢測問題,還解決了流量檢測場景中大語言模型對序列文本不敏感和輸入長度限制的問題。方案通過流量語義特征和用戶行為特征兩個檢測維度,不僅提供一種新穎的檢測維度與提取方法,而且提供了一種協同檢測架構,實現對api漏洞攻擊的精準檢測。在數據處理層面,提出一種語言化方法有效解決了llm對序列信息不敏感和輸入長度限制的問題。具有以下優點:
43、1)本發明采用跨報文的用戶行為建模,把孤立http報文還原為完整的業務操作軌跡,對“單報文合法、整體惡意”的攻擊行為有效識別。
44、2)本發明可以有效應對http報文中攻擊者的各種編碼混淆手段,還原流量載荷的原始語義。
45、3)本發明不必要離線學習目標部署場景中api的正常行為基線和操作日志,可以適應業務場景的動態變化。
46、4)本發明的智能檢測引擎采用兩路模型各自輸出獨立告警,下游系統可按需取用,規避模型漂移與仲裁失效風險。
47、5)本發明無需添加人工預置規則即可實現對漏洞攻擊的檢測。
48、6)本發明設計了一種api漏洞攻擊協同檢測方案,通過融合網絡流量語義解析與用戶行為意圖推理兩種維度,實現從載荷語義特征到操作意圖的雙維協同檢測。
49、7)本發明設計了一種用戶行為序列構建方法,稱為md-ubes,可聚合用戶操作行為與請求參數,考慮了多報文間的業務上下文關聯,而不是對單個http報文實施孤立分析。
50、8)本發明設計了一種上下文序列語言化方法,稱為sil,將連續的http事務上下文序列轉換為接近自然語言的形式并摘要內容。一方面,保障模型能夠充分利用結構化數據中包含的豐富信息的同時又保留了關鍵語義結構和語法邏輯。另一方面,避免了序列長度超出模型輸入限制導致的信息丟失和oom問題。
51、綜上所述,本發明設計的web?api漏洞攻擊檢測方案,通過融合流量語義和行為特征,在技術創新性和實際應用方面都有突出價值表現,有助于增強企業api安全防護能力。不僅讓api漏洞攻擊可感知,還填補了行業內業務邏輯型漏洞因無確定性特征而難以檢測的空白。