本發明涉及算力管理領域,具體為一種基于多平臺融合的算力資源管理系統及方法。
背景技術:
1、算力資源管理是一種對計算機的計算能力進行監控、分配、調度和優化的技術,目的是將計算任務,分配到最合適的計算資源,實現資源利用率的最大化和運算成本的最小化。為了滿足不同用戶對算力的實時需求,常采用組網算力出售的方法為用戶提供算力支持,完成使用后自動結算算力成本,以完成網絡算力的智能調度。
2、在計算機組網的過程中,計算設備在空間上較為分散,容易產生算力利用不足的問題,需要將不同類型的設備通過網絡連接起來,形成統一的虛擬計算資源池進行協同工作。然而對于分布在不同地域的計算機設備來說,進行算力的調度與分配存在一定的困難,且在跨區域調用算力時需要消耗額外的傳輸成本,很容易產生數據線路超載的問題。
3、此外,由于設備對數據的運算能力不同,各設備提供的組網算力資源存在品質上的差異,在調度成本一定的狀態下,不同品質的數據混用會增加額外的數據處理開銷,一般的調度平臺很難對數據質量進行檢測,使得算力運行成本大大增加。
技術實現思路
1、本發明的目的在于提供一種基于多平臺融合的算力資源管理系統及方法,以解決上述背景技術中提出的問題。
2、為了解決上述技術問題,本發明提供如下技術方案:一種基于多平臺融合的算力資源管理系統,包括:異構協同模塊、算力任務模塊、調度處理模塊、節點選擇模塊和質量傳感模塊;
3、所述異構協同模塊用于將云平臺與各地計算機設備進行多級算力資源節點適配,通過在各算力節點部署輕量級適配器對接不同接口的設備,自動發現并注冊新接入的異構算力節點,建立異構算力協同平臺,采集各節點的算力狀態,實時展示網絡總算力、物理主機數量和各主機網絡簽約狀態,動態統計可調用資源余量,基于實時資源利用率、運行成本、入隊任務數量和網絡調度成本,將不同架構的算力統一為算力成本;
4、所述算力任務模塊用于在可調用算力資源存在余量時處理任務申請,?將用戶任務分解為存在依賴關系的子任務,所述子任務中記錄資源需求、數據輸入量和數據輸出量,采用譜聚類算法將算力節點分組,計算任務加權成本并發送算力賬單;
5、所述調度處理模塊用于實時聚合所有節點的可用資源,在同一周期內集中處理所有入隊的算力調用任務,將全局資源視圖中的每個算力節點作為頂點,算力調度開銷作為連接邊,將算力節點建模成有向無環圖結構,通過圖聚類算法將批量子任務分配到節點,將子任務簇映射到不同分組中運行,使總傳輸開銷和算力成本最小,用戶任務執行完畢后,以資源限制、價格成本和用戶歷史貢獻作為約束,動態調整負載均衡權重,并使用拓撲排序確定任務執行順序;
6、所述節點選擇模塊用于構建可用的傳輸路徑,將算力節點相互連接,標注各路徑的傳輸速度、傳輸條件與最大傳輸量,通過傳輸路徑將任務所屬子任務運行的算力設備連接起來,構成任務的執行路徑,將各任務中最長的執行路徑作為關鍵路徑,規劃各任務的數據傳輸路徑,使關鍵路徑上的服務實例完成時間最低,跟蹤每條關鍵路徑上的傳輸狀態,對路徑進行穩定性測試;
7、所述質量傳感模塊用于通過int元數據感知網絡資源狀態信息,所述int元數據在網絡中傳輸時,各算力節點將實時狀態信息寫入數據包中,所述實時狀態信息包括運算時延、抖動、路徑丟包率以及節點的算力資源狀態,按照實時狀態信息加權確定各節點的算力質量,通過負載均衡管理在不同節點間調度算力資源,在調度資源一定的狀態下,使所有用戶分配到的算力質量保持穩定。
8、進一步的,所述異構協同模塊包括:節點適配單元、算力管理單元和成本定價單元;
9、所述節點適配單元用于將設置在不同位置的云虛擬機、容器集群、邊緣服務器和終端設備封裝為算力節點;
10、所述算力管理單元用于通過適配器將異構資源組網,實時收集各節點的資源狀態,在可視化窗口內展示總算力、主機數量、網絡狀態和簽約狀態;
11、所述成本定價單元用于實時確定各節點的算力成本,對已簽約設備的算力輸出進行動態計費。
12、進一步的,所述算力任務模塊包括:任務處理單元和協同分配單元;
13、所述任務處理單元用于接收用戶提交的任務申請,利用基于加權圖聚類的多粒度任務分解方法將任務拆解為子任務;
14、所述協同分配單元用于以資源、成本和用戶貢獻為約束,進行跨區域協同調度匹配。
15、進一步的,所述調度處理模塊包括:圖建模單元和資源約束單元;
16、所述圖建模單元用于將分解后的子任務建模為有向無環圖,算力節點作為頂點,算力調度開銷作為連接邊;
17、所述資源約束單元用于將子任務分配到能滿足硬件需求的算力設備上,同時使任務總成本低于預算。
18、進一步的,所述節點選擇模塊包括:節點轉發單元和路徑測試單元;
19、所述節點轉發單元用于使用拓撲排序確定任務執行順序,最小化關鍵路徑完成時間;
20、所述路徑測試單元用于識別出所有位于關鍵路徑上的子任務,確定每個子任務的計算節點和節點間的數據轉發路徑。
21、進一步的,所述質量傳感模塊包括:int感知單元、負載均衡單元和質量管理單元;
22、所述int感知單元用于利用帶內網絡遙測技術生成int數據包,數據包在網絡中傳輸時,網絡設備將實時狀態信息寫入數據包;
23、所述負載均衡單元用于提供統一的api網關,跟蹤每個子任務的執行狀態,構建出全網網絡態勢感知圖并進行負載調度;
24、所述質量管理單元用于感知各路徑的時延、抖動和丟包率,反饋各節點的算力質量,按照質量進行任務分配調整。
25、一種基于多平臺融合的算力資源管理方法,包括以下步驟:
26、步驟s1.將云平臺與各地計算機設備進行多級算力資源節點適配,建立異構算力協同平臺,平臺采集節點算力狀態并動態統計可調用資源余量,將不同架構的算力統一為算力成本,對已簽約設備的輸出算力進行動態計費;
27、步驟s2.處理用戶任務申請,?通過基于加權圖聚類的多粒度任務分解算法將任務拆解為子任務,以算力節點作為頂點,算力調度開銷作為連接邊,將算力網絡建模為有向無環圖;
28、步驟s3.基于有向無環圖,將各子任務簇映射到不同節點分組中運行,使總傳輸開銷和算力成本最小,以資源限制、價格成本和用戶的算力貢獻作為約束,動態調整負載均衡權重,并使用拓撲排序確定任務執行順序;
29、步驟s4.將算力節點按執行順序相互連接,通過傳輸鏈路將任務所屬子任務運行的算力設備連接,構成任務的執行路徑,規劃各任務的執行路徑,使關鍵路徑上的服務實例完成時間最低;
30、步驟s5.通過int元數據感知網絡資源狀態信息,按照實時狀態加權確定各節點的算力質量,通過負載均衡管理在不同節點間調度算力資源,使所有用戶分配到的算力質量方差小于閾值。
31、進一步的,步驟s1包括:
32、步驟s11.將設置在不同位置的云虛擬機、容器集群、邊緣服務器和終端設備封裝為算力節點,通過在各算力節點部署輕量級適配器對接不同接口的設備,自動發現并注冊新接入的異構算力節點,通過適配器將異構資源組網,建立異構算力協同平臺;
33、步驟s12.采集各節點的算力狀態,實時展示網絡總算力、物理主機數量和各主機網絡簽約狀態,動態統計可調用資源余量,基于節點的實時資源利用率、運行成本、入隊任務數量和網絡調度成本,確定各節點的實時算力成本。
34、進一步的,步驟s2包括:
35、步驟s21.算力資源存在余量時,接收用戶提交的任務申請,利用基于加權圖聚類的多粒度任務分解方法將任務拆解為子任務,將用戶任務分解為存在依賴關系的子任務,所述子任務中記錄資源需求、數據輸入量和數據輸出量,采用譜聚類算法將算力節點分組;
36、步驟s22.實時聚合所有節點的可用資源,在同一周期內集中處理所有入隊的算力調用任務,將全局資源視圖中的每個算力節點作為頂點,算力調度開銷作為連接邊,將算力節點建模成有向無環圖結構。
37、進一步的,步驟s3包括:
38、步驟s31.基于有向無環圖,通過圖聚類算法將子任務分配到滿足硬件執行需求的算力設備節點上,通過調整聚類參數與聚類層級,控制子任務的大小,使與子任務邊緣節點的算力相匹配,同時使任務執行總成本低于預算;
39、步驟s32.基于實時采集的節點負載信息,所述節點負載信息包括:cpu、內存、網絡io和服務隊列長度,通過強化學習算法動態調整負載均衡權重,使用kahn算法進行拓撲排序,確定任務執行順序;
40、步驟s33.對新請求進行節點調度,在部分節點區域整體負載過高時,由全局協同層發起跨區域彈性伸縮,將任務遷移到最低負載的區域。
41、進一步的,步驟s4包括:
42、步驟s41.構建可用的傳輸路徑,將算力節點相互連接,并標注各路徑的傳輸速度、傳輸條件與最大傳輸量,將各任務中最長的執行路徑作為關鍵路徑;
43、步驟s42.識別出所有位于關鍵路徑上的子任務,以資源限制、價格成本與用戶的算力貢獻為約束,確定每個子任務的計算節點和節點間的數據轉發路徑,同時跟蹤每條關鍵路徑上的傳輸狀態,對路徑進行穩定性測試。
44、進一步的,步驟s5包括:
45、步驟s51.利用帶內網絡遙測技術生成int數據包,數據包在網絡中傳輸時,網絡設備將實時狀態信息寫入數據包,所述實時狀態信息包括運算時延、抖動、路徑丟包率以及節點的算力資源狀態;
46、步驟s52.感知各路徑的時延、抖動和丟包率,反饋各節點的算力質量,當運行中出現節點負載過高、網絡擁堵狀態或算力質量低于閾值時,觸發負載均衡機制進行任務節點重調度,通過資源預留和彈性配額機制,穩定所有任務分配到的算力質量。
47、與現有技術相比,本發明所達到的有益效果是:
48、1、本發明能夠將云平臺與各地邊緣設備平臺進行多級算力資源節點適配,建立異構算力協同平臺進行算力調度管理并處理用戶任務申請,能夠根據任務申請的需求,將任務分配到最合適的計算設備上執行,避免算力設備的過載與閑置,提高所有算力設備的利用率,降低運維復雜度,增強算力組網的靈活性,優化算力調配性能。
49、2、本發明能夠將任務分解并分配到不同的節點中運行,使傳輸開銷和算力成本最小,將批量任務建模成有向無環圖結構,通過跨區域資源協同調度匹配,確定計算各任務的轉發路徑,實現低延遲與高效率的數據運算處理過程,靈活適配不同用戶的任務需求,提升算力調度的可靠性與容錯能力。
50、3、本發明能夠通過int元數據感知算力資源的運行狀態信息,在調度資源一定的狀態下,調配不同質量的算力設備,使所有用戶分配到的算力質量保持穩定,實現算力質量均衡,避免單一任務的數據處理災難,減輕單元節點的數據擁塞狀態,提升計算機系統的穩定性和可靠性。