本發明屬于云計算平臺運維與可觀測性數據處理,尤其是涉及一種基于多維度智能分析的云平臺自動化巡檢方法及系統。
背景技術:
1、隨著云平臺規模擴大及微服務架構的普及,云資源之間依賴關系復雜且動態變化,故障表現呈現跨資源、跨層級、跨指標的關聯特征。現有巡檢方案多采用靜態閾值、固定采樣周期以及基于單點指標或日志關鍵詞的檢測方式,存在誤報漏報率高、告警疲勞嚴重、缺乏跨組件關聯分析與根因定位能力等問題。另一方面,云平臺數據具有高并發、亂序到達、缺失、噪聲與口徑不一致等特點,若缺乏統一事件語義、事件時間對齊與質量控制機制,將導致異常檢測與根因推理輸入不穩定、結果不可復現。
2、此外,現有自愈多停留在腳本化自動化層面,缺少風險門禁、冪等執行、效果驗收與回滾機制,容易因誤修復擴大影響范圍。
3、因此,需要一種能夠在數據治理、異常識別、因果歸因、根因推斷與自愈閉環之間形成可驗證、可解釋、可控執行的系統化巡檢技術方案。
技術實現思路
1、有鑒于此,本發明旨在提出一種基于多維度智能分析的云平臺自動化巡檢方法及系統,以至少解決背景技術中的一個問題。
2、為達到上述目的,本發明的技術方案是這樣實現的:
3、一種基于多維度智能分析的云平臺自動化巡檢方法,包括:
4、s1,采集資源元數據、性能指標、日志及變更事件,生成統一事件對象并寫入事件流通道,所述統一事件對象至少包含資源標識、事件類型、事件時間戳、采樣粒度、標簽集合、關聯鍵及可信度評分;
5、s2,基于事件時間水位線對亂序事件進行窗口重排,并對缺失數據執行分層補償,補償結果攜帶補償標識與置信標識;
6、s3,在總采集預算約束下,依據異常風險評分自適應調整采樣周期;
7、s4,對關鍵性能指標構建秒級與分鐘級動態基線模型,采用自適應權重融合輸出預測區間,執行概念漂移檢測并觸發模型重校準或切換,基于區間超界程度、變化率、持續時長、跨指標一致性及可信度計算異常評分;
8、s5,構建資源依賴拓撲圖并為拓撲邊維護拓撲可信度及時效衰減權重;
9、s6,基于所述拓撲圖執行反向傳播貢獻度計算并引入時滯一致性約束,按貢獻度裁剪得到規模k自適應的候選根因集合;
10、s7,融合貝葉斯網絡與故障知識圖譜,結合歷史故障庫在線更新的先驗概率計算后驗概率,輸出根因定位結果及可解釋鏈路;
11、s8,依據異常評分、影響范圍與持續時間進行告警分級,匹配自愈策略生成執行計劃并計算自愈風險評分進行執行門禁控制,在允許自動執行時攜帶冪等鍵觸發修復動作并在驗收窗口評估修復效果,未達標則觸發回滾動作;
12、s9,將異常事件、根因結果、執行動作及驗收或回滾結果回寫歷史故障庫以更新先驗概率、策略成功率與采樣調度參數。
13、進一步的,所述可信度評分基于采集鏈路健康狀態、數據新鮮度、缺失比例、異常噪聲比例以及采集源一致性進行計算,并用于在s2事件治理與s4異常評分計算中對低可信度事件降權處理。
14、進一步的,所述事件時間水位線用于確定亂序事件的可接納最大延遲,超過最大延遲的事件被標記為遲到事件并進入補償或旁路分析隊列;所述分層補償策略至少包括短缺失插值補償與長缺失相似資源替代補償。
15、進一步的,所述總采集預算約束至少包括網絡帶寬預算、cpu占用預算與存儲寫入預算中的一種或多種;所述異常風險評分至少基于歷史異常頻度、近期異常評分趨勢、資源等級以及變更事件密度計算。
16、進一步的,所述動態基線模型為混合預測模型,至少包括用于刻畫周期性趨勢的時間序列模型與用于刻畫非線性突變的深度學習模型,并通過自適應權重融合輸出預測區間;所述概念漂移檢測基于預測殘差分布變化或異常評分長期偏移觸發。
17、進一步的,所述異常評分至少由以下因子加權得到:區間超界幅度因子、變化率因子、持續時長因子、跨指標一致性因子與可信度因子;所述跨指標一致性因子基于資源同一故障模式下的指標共變關系計算。
18、進一步的,所述拓撲可信度由調用鏈追蹤證據、服務發現證據、配置依賴證據與歷史故障共現證據融合得到;所述時效衰減權重隨邊的最后觀測時間增長而遞減,并在遞減至閾值時剔除該邊。
19、進一步的,所述候選根因集合的規模k為自適應確定,至少依據異常集合規模、拓撲圖連通度以及告警等級進行調整,以限制后續概率推理的搜索空間并降低噪聲傳播。
20、進一步的,本方案公開了一種基于多維度智能分析的云平臺自動化巡檢系統,包括:
21、數據采集與事件建模模塊,用于采集資源元數據、性能指標、日志與變更事件并生成統一事件對象寫入事件流通道;
22、事件治理模塊,用于基于事件時間水位線進行亂序重排并執行分層缺失補償;
23、采樣調度模塊,用于在總采集預算約束下依據異常風險評分動態調整采樣周期;
24、動態基線與異常評分模塊,用于構建多粒度動態基線模型、進行概念漂移檢測并輸出異常評分;
25、拓撲管理與歸因模塊,用于構建并維護帶拓撲可信度和時效衰減權重的資源依賴拓撲圖,執行反向傳播貢獻度計算并引入時滯一致性約束輸出候選根因集合;
26、根因推理模塊,用于融合貝葉斯網絡與故障知識圖譜并結合歷史故障庫在線更新的先驗概率輸出根因定位結果及可解釋推理鏈路;
27、決策執行模塊,用于告警分級、自愈策略匹配、風險門禁控制、冪等執行、驗收與回滾;
28、知識庫模塊,用于存儲異常事件、根因結果、執行與驗收結果并更新先驗概率與策略成功率。
29、進一步的,本方案公開了一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現所述的方法。
30、相對于現有技術,本發明所述的一種基于多維度智能分析的云平臺自動化巡檢方法及系統具有以下優勢:
31、(1)本發明通過統一事件建模與可信度評分機制,結合事件時間水位線亂序重排與分層缺失補償,使巡檢輸入數據在亂序、缺失與噪聲條件下仍保持穩定一致,從源頭降低誤報與漏報;
32、(2)本發明通過在采集預算約束下的自適應采樣調度,實現“高風險高頻、低風險低頻”的可觀測性資源配置,在不顯著增加成本的前提下提升關鍵故障窗口的檢測覆蓋率;
33、(3)本發明通過多粒度動態基線與異常評分融合機制,并引入概念漂移檢測與模型重校準,使異常識別能夠同時區分瞬時尖峰與趨勢性退化,降低業務周期波動導致的閾值失效;
34、(4)本發明通過維護帶可信度與時效衰減的動態資源依賴拓撲,并在歸因階段引入時滯一致性約束與候選裁剪,使歸因結果更接近因果傳播路徑且推理規??煽?,降低“相關不等于因果”帶來的誤判;
35、(5)本發明通過融合貝葉斯網絡與故障知識圖譜并使用歷史故障庫在線更新先驗概率,輸出根因定位結果與可解釋推理鏈路,提升定位準確性與可驗證性;
36、(6)本發明通過自愈風險評分與執行門禁、冪等執行、驗收窗口與回滾機制形成閉環,避免誤修復擴散風險,提高故障恢復效率與系統可用性。