本發明涉及智慧運維,具體涉及了一種交通信息化聯網收費的智能運維系統。
背景技術:
1、隨著大數據、人工智能等先進技術的不斷融入交通領域,交通信息化的發展正逐步邁向智慧交通階段。在高速公路聯網收費系統中,軟件運維工作承擔著保障收費業務連續穩定運行的重要職責,運維管理水平的優劣直接影響著收費系統的可用性、交易數據的準確性和公眾出行的滿意度。
2、目前,高速公路聯網收費系統的運維工作主要依賴傳統的人工運維模式。在資產管理方面,大多數收費站的工作站終端、服務器軟硬件、網絡設備等的臺賬管理仍采用人工統計和電子表格記錄的方式,資產信息更新滯后,設備實際狀態無法實時反映,導致臺賬與實際情況嚴重不符,運維人員在遠程處理故障時常常面臨ip地址混亂、設備歸屬不清的問題。
3、在故障處置方面,當終端設備出現異常時,運維人員需要根據現場人員電話報修,人工登錄遠程工具或趕赴現場處理,故障發現滯后,處置效率低下。在密碼管理方面,終端設備及服務器的密碼臺賬維護工作量大,密碼版本不一致、共享安全問題突出,每次遠程維護都需要輸入操作系統密碼,進一步降低了遠程運維效率。在監控預警方面,部分終端問題如硬盤寫入失敗、核心進程僵死等無法通過現有技術手段自動檢測,故障發現完全依賴用戶報修或定期巡檢,導致系統穩定性難以保障。
4、此外,由于收費站信息系統建設時間不同、開發商各異,數據結構復雜,各系統之間交互困難,缺乏全局監控視角,一旦發生性能問題,運維人員難以快速定位和解決問題。現有的運維系統普遍存在數據孤島現象,運維流程無法形成閉環,故障處理往往滯后于故障發生。管理指標體系方面,大多數交通系統缺乏端到端的性能管理指標體系,無法對信息系統進行全面評估,無法提前預警潛在問題??傮w而言,傳統運維模式在管理思想、運維工具、處置手段以及安全運維等方面彼此獨立,難以有效融合,運維人員面臨運維及時性和精細化要求日益增長的挑戰,運維效率、系統穩定性和安全性均難以滿足智慧交通發展的實際需求。因此,迫切需要研發一套能夠實現運維工作自動化和智能化的高效軟件運維工具,以應對當前高速公路聯網收費系統運維管理面臨的現實困境。
技術實現思路
1、本發明所解決的技術問題在于提供一種交通信息化聯網收費的智能運維系統,能夠解決現有運維模式中故障響應延遲、自動化程度低的問題。
2、本發明提供的基礎方案:一種交通信息化聯網收費的智能運維系統,包括終端管理模塊、邊緣協同模塊以及云端管理模塊;
3、終端管理模塊,部署于各收費終端,用于處理需要秒級響應的緊急故障,實時采集終端的運行狀態數據,根據運行狀態數據以及本地預設的應急規則,監測異常數據,當監測到異常數據時執行應急響應操作;
4、邊緣協同模塊,部署于邊緣計算節點,與多個終端管理模塊通信連接,用于處理無需云端管理模塊干預的分鐘級故障,接收所轄區域內各個終端運行狀態數據,進行數據融合并進行局部故障診斷,在識別出局部故障時,依據邊緣自治策略執行協同處理操作,并生成匯總數據;
5、云端管理模塊,部署于云端數據中心,與各邊緣協同模塊通信連接,用于進行策略調優,接收各邊緣協同模塊上報的匯總數據,根據匯總數據進行全局數據分析,根據全局數據分析結果,生成全局優化策略下發至各邊緣協同模塊,邊緣協同模塊根據全局優化策略更新自身的邊緣自治策略。
6、本發明的原理及優點在于:終端管理模塊部署在每個收費終端設備上,負責采集cpu占用率、內存占用率、磁盤讀寫狀態、網絡連通性、核心進程存活狀態以及日志錯誤頻次等運行狀態數據,并依據本地預設的應急規則對異常數據進行實時監測,當監測到需要秒級響應的緊急故障時直接執行應急響應操作。邊緣協同模塊部署在邊緣計算節點上,與多個終端管理模塊通信連接,負責接收所轄區域內各個終端上報的運行狀態數據,對這些數據進行數據融合和局部故障診斷,當識別出局部故障時依據邊緣自治策略執行協同處理操作,并將處理后的數據匯總上報。云端管理模塊部署在云端數據中心,與各邊緣協同模塊通信連接,負責接收各邊緣協同模塊上報的匯總數據,進行全局數據分析后生成全局優化策略,下發至各邊緣協同模塊供其更新邊緣自治策略。實現了故障分級處理,終端管理模塊處理單終端秒級響應的緊急故障,邊緣協同模塊處理區域級分鐘級響應的故障,云端管理模塊進行全局策略調優。現有技術中,傳統運維系統通常將所有數據上傳至中心服務器統一處理,導致網絡帶寬壓力大、故障響應延遲高,且一旦中心服務器與終端之間的網絡中斷,終端將失去運維支持。本方案通過三級架構實現了故障處理的去中心化,終端和邊緣節點具備獨立處理能力,即使與云端網絡中斷,終端和邊緣仍能維持基本運維功能,顯著提升了系統的可靠性和故障響應速度。
7、進一步,所述終端管理模塊包括數據采集模塊、故障判斷模塊以及應急操作模塊;
8、數據采集模塊,用于實時采集收費終端的運行狀態數據,所述運行狀態數據包括cpu占用率,內存占用率、磁盤讀寫狀態、網絡連通性、核心進程存活狀態以及日志錯誤頻次;
9、故障判斷模塊,用于根據預設的緊急故障判斷規則,對采集到的運行狀態數據進行實時分析,判斷當前異常是否為需要秒級響應的緊急故障;
10、應急操作模塊,用于當判斷為緊急故障時,根據本地應急策略庫執行應急操作。
11、數據采集模塊負責實時采集收費終端的運行狀態數據,具體包括cpu占用率、內存占用率、磁盤讀寫狀態、網絡連通性、核心進程存活狀態以及日志錯誤頻次。故障判斷模塊根據預設的緊急故障判斷規則對采集到的運行狀態數據進行實時分析,判斷當前異常是否為需要秒級響應的緊急故障。應急操作模塊在判定為緊急故障時根據本地應急策略庫執行應急操作。這一設計的原理在于將故障判斷和應急處理能力下沉到終端設備本身,使終端在檢測到自身故障時無需等待云端或邊緣下發指令,即可自主完成應急響應。例如,當數據采集模塊檢測到核心進程消失時,故障判斷模塊根據規則判定該故障需要秒級響應,應急操作模塊立即執行進程重啟操作。現有技術中,收費終端發生故障時往往需要運維人員遠程登錄或現場處理,故障恢復時間長,且在大規模故障發生時運維人員無法同時處理多個終端。本方案中每個終端都具備獨立的故障判斷和應急處理能力,核心進程消失可在幾秒內自動恢復,網絡中斷時可自動執行網卡重置,磁盤寫滿時可自動執行臨時文件清理,這些操作均由終端自主完成,無需人工干預,顯著縮短了故障恢復時間,減輕了運維人員的工作負擔。
12、進一步,所述邊緣協同模塊包括數據匯集模塊、局部故障診斷模塊以及邊緣自治決策模塊;
13、數據匯集模塊,與所轄區域內的多個終端管理模塊通信連接,用于接收各個終端上報的運行狀態數據、應急操作記錄以及實時運行狀態數據,對接收到的數據進行清洗、對齊后生成區域統一數據視圖;
14、局部故障診斷模塊,用于基于區域統一數據視圖,結合局部預訓練好的故障診斷模型進行實時分析,識別所轄區域內發生的局部故障,所述局部故障包括多終端同時出現的同類異常、終端間的網絡中斷、以及單個終端無法自治處理的故障;
15、邊緣自治決策模塊,用于根據識別出的局部故障類型,匹配邊緣自治策略庫中的協同處理策略,自動生成并執行協同處理操作;
16、數據上報模塊,與云端管理模塊通信連接,用于將區域統一數據視圖、局部故障診斷結果、協同處理操作記錄以及策略執行效果匯總生成匯總數據,并周期性上報至云端管理模塊。
17、數據匯集模塊與所轄區域內的多個終端管理模塊通信連接,接收各個終端上報的運行狀態數據、應急操作記錄以及實時運行狀態數據,對這些數據進行清洗和對齊后生成區域統一數據視圖。局部故障診斷模塊基于區域統一數據視圖,結合局部預訓練好的故障診斷模型進行實時分析,識別所轄區域內發生的局部故障,包括多終端同時出現的同類異常、終端間的網絡中斷以及單個終端無法自治處理的故障。邊緣自治決策模塊根據識別出的局部故障類型匹配邊緣自治策略庫中的協同處理策略,自動生成并執行協同處理操作。數據上報模塊將區域統一數據視圖、局部故障診斷結果、協同處理操作記錄以及策略執行效果匯總生成匯總數據,并周期性上報至云端管理模塊。這一設計的原理在于讓邊緣節點充當區域級運維中樞,對區域內多個終端進行協同管理。當出現多終端同時發生同類異常時,邊緣節點能夠識別這是區域級問題而非單個終端問題。例如,某邊緣節點下轄的五個車道終端同時出現網絡中斷,局部故障診斷模塊識別出該異常模式,邊緣自治決策模塊判定可能為區域交換機故障,自動執行向該區域所有終端下發降級運行指令,同時通知維護人員檢查交換機?,F有技術中,每個終端獨立上報故障,運維人員需要逐一排查,很難快速判斷出故障的根本原因是區域交換機問題。本方案通過邊緣節點的數據匯集和關聯分析,能夠快速識別區域級故障模式并執行協同處理,實現了從單點運維到區域協同運維的升級,有效提升了區域故障的診斷效率和處置能力。
18、進一步,所述云端管理模塊包括數據匯總模塊、故障分類模塊;
19、數據匯總模塊,用于接收各邊緣協同模塊上報的匯總數據,并對接收到的匯總數據進行標準化處理后存儲至云端數據庫;
20、故障分類模塊,用于對接收到的各區域匯總數據進行橫向比對分析,識別并區分通用故障與轄區特有故障;
21、所述故障分類模塊包括:
22、故障事件標準化模塊,用于將各區域上報的故障事件按照預設的故障類型編碼體系進行標準化映射,生成標準化故障事件記錄;
23、跨區域頻次統計模塊,用于統計同一標準化故障類型在不同邊緣協同模塊所轄區域內出現的頻次,生成故障-區域分布矩陣;
24、通用故障識別模塊,用于根據故障-區域分布矩陣,識別出現頻次超過預設區域閾值且分布在多個區域的故障類型,將其標記為通用故障;所述通用故障表征為各轄區普遍存在的共性故障;
25、轄區特有故障識別模塊,與跨區域頻次統計模塊連接,用于根據故障-區域分布矩陣,識別僅出現在單個或少于預設數量區域的故障類型,將其標記為轄區特有故障;所述轄區特有故障表征為與特定區域環境、設備型號或配置相關的特定故障。
26、數據匯總模塊接收各邊緣協同模塊上報的匯總數據并進行標準化處理后存儲至云端數據庫。故障事件標準化模塊將各區域上報的故障事件按照預設的故障類型編碼體系進行標準化映射,生成標準化故障事件記錄。跨區域頻次統計模塊統計同一標準化故障類型在不同邊緣協同模塊所轄區域內出現的頻次,生成故障-區域分布矩陣。通用故障識別模塊根據故障-區域分布矩陣,識別出現頻次超過預設區域閾值且分布在多個區域的故障類型,將其標記為通用故障,代表各轄區普遍存在的共性故障。轄區特有故障識別模塊根據故障-區域分布矩陣,識別僅出現在單個或少于預設數量區域的故障類型,將其標記為轄區特有故障,代表與特定區域環境、設備型號或配置相關的特定故障。這一設計的原理在于通過跨區域橫向比對分析,將海量故障數據分類為通用故障和轄區特有故障。例如,某標準化故障類型為“核心進程異常”,在全部三十個區域中均有出現且頻次均超過閾值,則判定為通用故障;另一故障類型為“某型號工控機溫度過高”,僅出現在三個使用該型號設備的區域,則判定為轄區特有故障?,F有技術中,運維系統通常將所有故障數據混在一起分析,無法區分哪些問題是全行業普遍存在的、哪些問題僅發生在特定區域,導致優化策略缺乏針對性。本方案通過故障分類分析,使運維管理者能夠清晰了解哪些問題需要從系統整體層面解決,哪些問題只需針對特定區域處理,為后續策略生成提供了精準的決策依據,避免了資源浪費。
27、進一步,云端管理模塊還包括策略生成模塊;
28、策略生成模塊,用于根據各邊緣協同模塊所轄區域的通用故障和轄區特有故障,計算每個區域的通用故障占比和特有故障占比,并篩選出特有故障占比超過預設比例閾值的區域作為重點關注區域;
29、對于重點關注區域,策略生成模塊調取該區域的歷史故障事件記錄和區域統一數據視圖,通過關聯分析識別該區域特有故障的共性特征,所述共性特征包括故障發生時間段的共性、故障終端型號的共性、軟件版本號的共性、配置參數的共性;根據識別出的共性特征定位故障原因;
30、所述策略生成模塊還用于根據定位出的故障原因,生成針對該區域的全局優化策略,所述全局優化策略包括配置參數修正指令、軟件補丁升級包、基線檢查策略更新中的一種或多種,并通過安全通道下發至對應的邊緣協同模塊。
31、計算每個區域的通用故障占比和特有故障占比,并篩選出特有故障占比超過預設比例閾值的區域作為重點關注區域。對于重點關注區域,策略生成模塊調取該區域的歷史故障事件記錄和區域統一數據視圖,通過關聯分析識別該區域特有故障的共性特征,這些共性特征包括故障發生時間段的共性、故障終端型號的共性、軟件版本號的共性、配置參數的共性,根據識別出的共性特征定位故障原因。策略生成模塊根據定位出的故障原因,生成針對該區域的全局優化策略,包括配置參數修正指令、軟件補丁升級包、基線檢查策略更新中的一種或多種,并通過安全通道下發至對應的邊緣協同模塊。這一設計的原理在于通過分析區域特有故障的共性特征來定位故障根源,并生成精準的優化策略。例如,某區域的特有故障占比超過預設閾值,經調取歷史數據關聯分析發現,這些特有故障均發生在凌晨兩點到四點之間,且故障終端均為某型號工控機,軟件版本號均為v1.2.3,配置參數中的定時任務設置與其他區域不同,由此定位故障原因為該型號工控機在該版本軟件下的定時任務存在內存泄漏問題。策略生成模塊據此生成針對該區域該型號設備的軟件補丁升級包和定時任務配置修正指令,下發至對應邊緣協同模塊執行?,F有技術中,當某區域出現大量特有故障時,運維人員需要人工逐臺排查故障原因,效率低下且容易遺漏共性特征。本方案通過自動化的關聯分析,快速定位故障原因并生成針對性策略,實現了從故障發現到策略生成的閉環自動化處理,大幅提升了問題解決效率。
32、進一步,所述策略生成模塊還包括策略驗證模塊;
33、策略驗證模塊,用于在下發全局優化策略至對應邊緣協同模塊后,持續監測該策略的執行效果,并根據執行效果自動調整策略參數或觸發策略回滾;
34、所述策略驗證模塊包括:
35、策略執行跟蹤模塊,用于接收邊緣協同模塊反饋的策略執行狀態信息,所述策略執行狀態信息包括策略下發成功狀態、終端配置更新結果、軟件補丁安裝進度以及策略執行后的故障事件變化趨勢;
36、效果評估模塊,與策略執行跟蹤單元連接,用于根據預設的評估指標對策略執行效果進行量化評估,所述評估指標包括:目標故障類型的發生率變化、故障恢復時間的變化、策略執行后新增故障的數量;當目標故障類型的發生率在策略執行后連續預設天數下降超過預設閾值時,評估為策略有效;當目標故障類型的發生率未下降或新增故障數量超過預設閾值時,評估為策略無效;
37、策略調整模塊,與效果評估單元連接,用于當評估為策略無效時,自動執行以下操作中的一種或多種:調整策略參數后重新下發、觸發策略回滾操作恢復至執行前狀態、生成異常報告并標記該策略為待人工審核;
38、策略優化學習模塊,分別與效果評估單元和模型訓練模塊連接,用于將評估為有效的策略及其執行條件作為正樣本,將評估為無效的策略及其執行條件作為負樣本,反饋至模型訓練模塊,以優化后續策略生成模型的準確性。
39、策略驗證模塊用于在下發全局優化策略至對應邊緣協同模塊后,持續監測該策略的執行效果,并根據執行效果自動調整策略參數或觸發策略回滾。策略執行跟蹤模塊接收邊緣協同模塊反饋的策略執行狀態信息,包括策略下發成功狀態、終端配置更新結果、軟件補丁安裝進度以及策略執行后的故障事件變化趨勢。效果評估模塊根據預設的評估指標對策略執行效果進行量化評估,評估指標包括目標故障類型的發生率變化、故障恢復時間的變化、策略執行后新增故障的數量。當目標故障類型的發生率在策略執行后連續預設天數下降超過預設閾值時,評估為策略有效;當目標故障類型的發生率未下降或新增故障數量超過預設閾值時,評估為策略無效。策略調整模塊在評估為策略無效時自動執行調整策略參數后重新下發、觸發策略回滾操作恢復至執行前狀態、生成異常報告并標記該策略為待人工審核中的一種或多種操作。策略優化學習模塊將評估為有效的策略及其執行條件作為正樣本,將評估為無效的策略及其執行條件作為負樣本,反饋至模型訓練模塊,以優化后續策略生成模型的準確性。這一設計的原理在于建立策略執行效果的閉環驗證機制,確保下發的策略能夠真正解決問題且不引入新問題。例如,針對某區域某型號設備的軟件補丁升級包下發后,策略執行跟蹤模塊反饋補丁安裝進度和安裝后的故障事件變化趨勢,效果評估模塊計算該區域該型號設備的目標故障類型發生率,若連續七天下降超過預設閾值且未出現新增故障,則評估為策略有效;若目標故障類型發生率未下降,或安裝補丁后出現大量新的故障類型,則評估為策略無效,策略調整模塊自動觸發回滾操作,將設備恢復至升級前狀態?,F有技術中,策略下發后缺乏效果驗證機制,錯誤的策略可能長期運行導致問題惡化,且每次策略制定都是獨立的,無法積累經驗。本方案通過策略驗證閉環確保了策略的有效性,同時將驗證結果反饋至模型訓練模塊,使后續策略生成的準確性不斷提升,實現了運維系統的自學習和持續優化能力。
40、進一步,所述策略生成模塊還包括故障原因定位模塊;
41、所述故障原因定位模塊,用于對篩選出的重點關注區域,調取該區域的歷史故障事件記錄和區域統一數據視圖,對轄區特有故障進行共性特征分析并定位故障原因;
42、所述故障原因定位模塊包括:
43、時間集中度計算模塊,用于將一天劃分為預設數量的時間窗口,統計每個特有故障類型在各時間窗口內的發生次數,計算該故障的時間集中度指標,所述時間集中度指標等于故障發生次數最多的窗口次數除以總發生次數,當該指標超過預設時間集中度閾值時,判定該故障具有時間集中性,并定位該故障集中發生的時間窗口;
44、型號集中度計算模塊,用于統計每個特有故障類型所涉及終端的不同型號的出現頻次,計算該故障的型號集中度指標,所述型號集中度指標等于出現頻次最多的型號次數除以總故障終端數,當該指標超過預設型號集中度閾值時,判定該故障與特定型號強相關,并定位該故障關聯的終端型號;
45、版本集中度計算模塊,用于統計每個特有故障類型所涉及終端的不同軟件版本號的出現頻次,計算該故障的版本集中度指標,所述版本集中度指標等于出現頻次最多的版本次數除以總故障終端數,當該指標超過預設版本集中度閾值時,判定該故障與特定軟件版本強相關,并定位該故障關聯的軟件版本號;
46、配置相似度計算模塊,用于提取每個特有故障類型所涉及終端的配置參數向量,計算所有故障終端配置參數向量之間的平均相似度,所述平均相似度為所有終端對之間相似度的均值,當該平均相似度超過預設配置相似度閾值時,判定該故障終端的配置參數具有高度一致性;
47、綜合置信度計算模塊,用于根據時間集中度指標、型號集中度指標、版本集中度指標和配置相似度指標,按照預設權重計算綜合置信度分數,當綜合置信度分數超過預設置信度閾值時,判定已定位故障原因,并根據貢獻最大的共性特征生成故障原因定位結果。
48、所述時間集中度計算模塊采用以下公式計算時間集中度指標:
49、
50、其中,為劃分的時間窗口數量,為故障類型在第k個時間窗口內的發生次數,時,該故障具有時間集中性,為預設時間集中度閾值;
51、所述型號集中度計算模塊采用以下公式計算型號集中度指標:
52、
53、其中,m為故障涉及的所有終端型號集合,為型號m的故障終端數量,時判定該故障與特定型號強相關,為預設型號集中度閾值;
54、所述版本集中度計算模塊采用以下公式計算版本集中度指標:
55、
56、其中,為故障涉及的所有軟件版本號集合,為版本號v的故障終端數量,當時判定該故障與特定軟件版本強相關,為預設版本集中度閾值;
57、所述配置相似度計算模塊采用以下公式計算平均相似度:
58、
59、其中,n為故障終端數量,和分別為第p個和第q個故障終端的配置參數向量,為配置參數向量的杰卡德相似系數,當時判定故障終端的配置參數具有高度一致性,為預設配置相似度閾值;
60、所述綜合置信度計算模塊采用以下公式計算綜合置信度分數:
61、
62、其中、、、為預設權重系數,當時判定已定位故障原因,為預設置信度閾值。