本發明涉及智能制造與車間生產調度,具體涉及一種基于動作掩碼與獎勵塑形mappo的人機協同動態調度系統及方法。
背景技術:
1、隨著智能制造和工業4.0的發展,高端裝備制造正從傳統的大規模剛性生產向小批量、多品種、個性化定制的生產模式轉變。在這種生產模式下,車間常常面臨訂單動態隨機到達、作業類型差異大、人機資源狀態實時波動等問題,傳統靜態排產方法難以滿足車間生產調度的實時性和協同性要求。在該模式下,車間生產調度不僅需要考慮作業加工順序和工位分配,還需要結合工人、機器人等資源狀態進行動態匹配在高端裝備制造場景中,部分精密操作、異常判斷和柔性裝配環節難以完全由機器替代,工人仍需參與作業執行、過程判斷和質量控制;同時,機器人在重復性、高強度和高穩定性作業中具有優勢。因此,人機協同成為車間生產組織中的重要方式。在人機協同車間生產調度中,系統不僅需要決定作業的加工順序和加工工位,還需要同步選擇加工模式,并完成工人和機器人資源的動態匹配,這一過程涉及到多個智能體間的協調和復雜的資源優化問題。
2、然而,現有的一些車間調度方法在應對動態環境方面存在顯著缺陷。一方面,基于規則的調度方法缺乏全局優化能力且難以應對突發隨機事件;另一方面,傳統離散時間強化學習方法受限于固定的時間步長,在處理加工時長差異極大的車間任務時,會產生大量無效的采樣與計算冗余。此外,現有的協同調度技術往往僅關注最小化完工時間或最大化設備利用率,而忽略了人因要素,尤其是疲勞度的動態演化規律。這種忽視人因因素的調度方法可能導致工人疲勞超載,引發安全事故或次品率上升。若簡單采用硬性約束,如疲勞度到達閾值強制停工,則會導致強化學習算法在訓練中極易陷入局部死鎖,即智能體為了避免疲勞懲罰而長期選擇空閑動作,造成車間生產任務無法繼續分配。
技術實現思路
1、以解決現有技術存在的上述技術問題,本發明提供了一種基于動作掩碼與獎勵塑形mappo的人機協同動態調度系統及方法,可以在保障工人健康的前提下,實現高效、自適應的動態調度,進而有效規避了復雜約束下的調度死鎖。
2、根據本發明的一方面,提供了一種基于動作掩碼與獎勵塑形mappo的人機協同動態調度系統,包括:
3、狀態特征提取模塊,用于在觸發調度決策事件時,提取車間內各工位的局部狀態特征并進行歸一化處理,所述局部狀態特征包括工位自身及候選作業屬性特征、全局系統狀態與時間進程特征、多技能混合資源狀態特征以及全局疲勞平衡信號特征;
4、動作掩碼生成模塊,用于根據實時環境約束對預設的離散動作空間中的動作進行合規性校驗,生成動態動作掩碼,所述離散動作空間由作業選擇規則、加工模式選擇和資源分配規則復合而成;
5、策略輸出模塊,用于利用多智能體近端策略優化算法的策略網絡,基于歸一化后的局部狀態特征和動態動作掩碼,輸出合規的調度動作;
6、環境交互與獎勵反饋模塊,用于根據所述合規的調度動作鎖定對應的作業、工位、工人或機器人資源,利用疲勞演化模型更新工人疲勞狀態,并根據作業基準加工時間、工人疲勞狀態和所選加工模式計算作業實際加工時間;還用于按照離散事件機制推進系統時間,并在系統狀態轉移后,基于基礎運行懲罰、系統勢能差和連續時間變步長計算混合獎勵,并將所述混合獎勵作為策略尋優模塊進行優勢函數估計以及更新策略網絡和價值網絡的訓練信號。
7、根據本發明的另一方面,提供了一種基于動作掩碼與獎勵塑形mappo的人機協同動態調度方法,所述方法包括:
8、在觸發調度決策事件時,提取車間內各工位的局部狀態特征并進行歸一化處理,所述局部狀態特征包括工位自身及候選作業屬性特征、全局系統狀態與時間進程特征、多技能混合資源狀態特征以及全局疲勞平衡信號特征;
9、根據實時環境約束對預設的離散動作空間中的動作進行合規性校驗,生成動態動作掩碼,離散動作空間由作業選擇規則、加工模式選擇和資源分配規則復合而成;
10、響應于歸一化后的局部狀態特征和動態動作掩碼,利用多智能體近端策略優化算法的策略網絡輸出合規的調度動作;
11、響應于所述合規的調度動作,鎖定對應的作業、工位、工人或機器人資源,利用疲勞演化模型更新工人疲勞狀態,并根據作業基準加工時間、工人疲勞狀態和所選加工模式計算作業實際加工時間;
12、按照離散事件機制推進系統時間,并在系統狀態轉移后,基于基礎運行懲罰、系統勢能差和連續時間變步長計算混合獎勵,基于所述混合獎勵進行優勢函數估計以及更新策略網絡和價值網絡的訓練信號。
13、有益效果:與現有技術相比,本發明具有如下顯著優點:1、通過多智能體近端策略優化算法底層的協同優化,避免了單一人工資源的超負荷運轉與極端過勞,有效克服了傳統啟發式規則顧此失彼的局限性;2、通過動作掩碼與獎勵塑形機制,在綜合調度代價上較經典ppo降低約10.8%,較dqn降低約?15.0%,具有更優的多目標求解尋優能力;3、在所設置的小、中、大規模仿真實驗中,本發明算法均取得較優的綜合調度表現,說明了本發明所提策略能夠穩定適應各類規模的車間環境,具有極強的工業泛化價值。
1.一種基于動作掩碼與獎勵塑形mappo的人機協同動態調度系統,其特征在于,包括:
2.根據權利要求1所述的人機協同動態調度系統,其特征在于,所述離散動作空間還包括獨立的空操作動作;動作掩碼生成模塊在生成動態動作掩碼時,執行防死鎖強制邏輯:當判定所述離散動作空間中存在至少一個有效的實質性加工動作時,強制將所述空操作動作的掩碼位置為無效,以防止智能體為逃避疲勞懲罰而長期選擇所述空操作動作。
3.根據權利要求1所述的人機協同動態調度系統,其特征在于,所述混合獎勵包括基礎運行懲罰和基于剩余工時的系統勢能塑形增益;所述基礎運行懲罰包括在制品懲罰、疲勞方差懲罰、疲勞極差懲罰、延遲懲罰以及基于非線性激活函數的疲勞越限風險懲罰;所述系統勢能塑形增益通過計算狀態轉移前后的系統勢能差并結合時間衰減機制獲得,其中系統勢能基于未完成作業在所有可用工位上的最短基準加工時間之和進行評估。
4.根據權利要求1所述的人機協同動態調度系統,其特征在于,所述環境交互與獎勵反饋模塊采用基于離散事件的時間推進機制,維護全局時間軸和包含常規物理事件點的事件隊列;當系統存在待分配作業且所述事件隊列為空時,所述環境交互與獎勵反饋主動計算并插入最早的工人疲勞恢復至安全閾值以下的時刻或資源釋放時刻,作為虛擬喚醒事件點,以防止系統仿真停滯。
5.根據權利要求1所述的人機協同動態調度系統,其特征在于,所述疲勞演化模型包括:當工人執行加工作業時,工人的疲勞度隨作業的實際加工時間線性累積;當工人處于空閑狀態時,工人的疲勞度遵循指數恢復模型進行衰減恢復;以及實際加工時間根據純機器人模式、純工人模式和人機協同模式分別計算,其中在純工人模式和人機協同模式下,引入基于起始疲勞度的非線性工時修正項。
6.根據權利要求1所述的人機協同動態調度系統,其特征在于,所述系統還包括策略尋優模塊,用于利用多智能體近端策略優化算法的價值網絡接收所有工位的全局拼接狀態進行全局價值評估,并結合廣義優勢估計計算動作優勢函數,交替更新所述策略網絡和所述價值網絡的參數;并在執行階段,剝離所述價值網絡,各工位僅依賴所述策略網絡及所述動態動作掩碼進行調度決策。
7.一種基于動作掩碼與獎勵塑形mappo的人機協同動態調度方法,其特征在于,所述方法包括:
8.根據權利要求7所述的人機協同動態調度方法,其特征在于,所述方法還包括:基于疲勞演化模型動態更新工人的疲勞狀態,并根據所述疲勞狀態和所選的加工模式計算作業的實際加工時間。
9.根據權利要求8所述的人機協同動態調度方法,其特征在于,所述疲勞演化模型包括:當工人執行加工作業時,工人的疲勞度隨作業的實際加工時間線性累積;當工人處于空閑狀態時,工人的疲勞度遵循指數恢復模型進行衰減恢復;以及實際加工時間根據純機器人模式、純工人模式和人機協同模式分別計算,其中在純工人模式和人機協同模式下,引入基于起始疲勞度的非線性工時修正項。
10.根據權利要求7所述的人機協同動態調度方法,其特征在于,所述離散動作空間還包括獨立的空操作動作;在生成所述動態動作掩碼時,執行防死鎖強制邏輯:當判定所述離散動作空間中存在至少一個有效的實質性加工動作時,強制將所述空操作動作的掩碼位置為無效,以防止智能體為逃避疲勞懲罰而長期選擇所述空操作動作。