本發明涉及一種智能供應鏈物流倉儲儲位分配方法、系統及計算機可讀存儲介質,屬于倉儲物流管理。
背景技術:
1、機器人移動履行系統作為一種典型的“貨到人”(goods-to-person,gtp)揀選模式,近年來在電子商務和智能物流領域得到迅速發展,并已被亞馬遜、京東等大型電商企業廣泛部署和應用。相較于傳統“人到貨”揀選模式,機器人移動履行系統通過移動機器人主動搬運貨架至人工或自動揀選站,有效減少了揀選人員的行走距離,提高了揀選效率和空間利用率,尤其適用于訂單頻繁、商品數量大且需求波動顯著的現代倉儲場景。在典型機器人移動履行系統中,其運行流程通常包括以下三個核心步驟:首先,自動導引車(agv)根據系統調度指令前往目標貨架所在位置;其次,agv搬運貨架至固定的揀選工作站以完成訂單揀選任務;最后,在揀選完成后,agv將貨架運回存儲區,并為該貨架分配一個具體的存放儲位,如附圖1所示【圖1(a)中①、②、③】。其中,貨架返回階段的儲位分配決策不僅直接影響agv的行駛路徑長度和作業時間,還會對后續訂單響應效率、系統擁堵程度以及整體吞吐能力產生持續影響。
2、在現有機器人移動履行系統實際應用中,較為常見的做法是采用靜態貨位分配策,即將貨架在完成揀選后返回其原始存放位置。該策略實現簡單、管理成本較低,但在訂單結構和需求頻繁變化的情況下,容易造成agv行駛路徑重復、局部區域交通壓力集中以及系統整體響應延遲等問題。為進一步提升系統運行效率,部分研究和工程實踐開始引入動態存儲分配策略,根據歷史訂單數據、未來需求預測或系統實時狀態,對貨架返回位置進行動態調整。然而,現有動態存儲分配策略多源于傳統“人到貨”(person-to-goods,ptg)系統的研究成果,例如基于商品周轉率的分類存儲策略,或基于相關性的分散存儲策略。這類方法通常假設貨位固定、揀選人員移動,而優化目標側重于減少人員行走距離。當其被直接應用于機器人移動履行系統場景時,往往難以充分發揮系統優勢,甚至可能引發新的問題。其根本原因在于,機器人移動履行系統的優化核心在于移動貨架與多agv的協同調度,而非靜態貨位上的貨物分配;若忽略agv之間的路徑交互、負載均衡以及實時調度約束,簡單套用ptg系統中的存儲策略,容易導致agv作業負載不均、局部區域擁堵加劇以及系統整體效率下降。
3、針對gtp系統的存儲-揀選聯合優化問題,研究通常將其分解為商品存儲分配(csap)和貨架存儲分配(ssap)兩個子問題。例如,有研究提出基于商品分類和相關性的分散存儲模型及求解算法;或將貨架分配建模為區間調度問題,設計自適應編程算法;亦有研究采用雙層規劃框架處理多類型貨架的調度與位置分配。對于機器人移動履行系統中這類復雜的序貫決策問題,強化學習(rl)是一種自然的建模框架,如申請公布號為cn120765155a的中國專利申請文件,該文件提供了一種基于深度強化學習的動態揀貨路徑優化方法及系統,將倉庫訂單揀選問題建模為馬爾科夫決策過程;基于揀選器實時狀態和移動價值密度,利用深度強化學習神經網絡模型求解馬爾科夫決策過程,得到最優揀貨路徑決策;根據最優揀貨路徑決策控制揀選器執行揀選操作。但是這種方式訓練過程收斂緩慢,甚至容易陷入局部最優解,難以獲得穩定且可推廣的調度策略。
4、為應對高維狀態和稀疏獎勵的挑戰,分層強化學習(hrl)通過將任務分解為高層規劃與低層執行,提高了學習效率和策略的可管理性。經典框架如maxq、options以及封建網絡(feudal?networks),分別通過遞歸分解、時序抽象動作和分層目標通信來實現層級協調。近期工作將封建網絡思想擴展到多智能體場景,通過無監督學習發現低層技能,或設計跨層級、跨智能體的雙重獎勵協調機制,以提升團隊協作。然而,現有hrl方法在子目標設定的靈活性、層間通信的精準可控性以及應對高度動態非平穩環境方面仍存在不足。
5、盡管上述技術為機器人移動履行系統的優化提供了多種思路,但在實際應用于大規模、動態的貨架重定位問題時,仍面臨以下核心缺陷:
6、(1)決策空間維度過大與探索困難。隨著倉庫規模的不斷擴大,機器人移動履行系統系統中可用的貨架數量、儲位數量以及并行運行的agv數量均呈現顯著增長。在此條件下,貨架重定位過程中需要做出的核心決策——即“將某一貨架分配至哪個具體儲位”——在多agv并發執行的情形下形成了高度組合化的動作空間。對于單一時間步而言,所有可能的貨架–儲位分配方案數量隨系統規模呈指數級增長,使得動作空間維度極高且高度離散。傳統強化學習方法通常假設動作空間規模可控,或依賴枚舉、近似函數等方式進行價值評估;即便引入分層強化學習思想,若高層或低層仍需在大量候選儲位或組合動作中進行選擇,其探索效率仍會受到嚴重限制。在此類高維決策空間中,隨機探索或基于貪心的策略難以覆蓋關鍵決策區域,導致大量無效樣本被采集,訓練過程收斂緩慢,甚至容易陷入局部最優解,難以獲得穩定且可推廣的調度策略。
7、(2)多目標優化沖突導致策略權衡失配。機器人移動履行系統在執行動態貨架重定位與儲位分配任務時,往往需要同時優化多項相互制約的系統目標,其優化過程具有顯著的多目標沖突特性。具體而言,系統在運行過程中通常需要在揀選效率、倉庫空間利用均衡性以及agv行駛能耗等多個性能指標之間進行權衡,而上述目標在不同運行階段和空間區域內往往呈現出不一致甚至相互矛盾的優化方向。例如,提高揀選效率通常要求將高頻貨架集中布置于靠近揀選站的區域,從而縮短訂單履行時間,但該策略可能引發局部區域負載過高、路徑沖突頻發以及agv等待時間增加的問題;相反,強調區域負載均衡與能耗最小化則可能拉長貨架搬運距離,降低整體揀選吞吐率。這種多目標之間的內在沖突使得基于單一目標或固定權重加權方式構建的優化策略,往往只能在特定運行條件或階段內取得較好效果。當系統負載、訂單結構或agv數量發生變化時,原有權重配置所隱含的目標偏好便可能不再適用,導致策略在不同目標之間出現明顯失衡,表現為儲位分配集中化、agv行駛路徑冗長或系統整體效率波動加劇。
8、(3)多agv分散決策沖突與協同效率低下。在實際機器人移動履行系統運行過程中,多個agv通常并行執行貨架搬運和重定位任務,而每個agv對環境的感知具有局部性和不完全性。當各agv基于自身觀測信息獨立地為所攜帶的貨架選擇目標儲位時,由于儲位資源具有排他性,極易出現多個agv同時選擇相同或相鄰儲位的情況,從而引發目標沖突。這類沖突通常會導致agv等待、繞行、重新規劃路徑,甚至產生無效搬運行為,顯著降低系統吞吐率。盡管現有多智能體強化學習方法通過信息共享、集中式訓練或參數共享等手段在一定程度上緩解了協同問題,但其沖突處理多依賴隱式學習,缺乏對沖突發生原因和解決過程的顯式推理能力。在實時調度場景下,這類方法往往難以及時生成一致且可解釋的協調決策。此外,基于規則或簡單博弈論的協調機制通常針對特定沖突模式設計,靈活性有限,當環境狀態、任務結構或agv數量發生變化時,其適應能力不足,難以應對復雜、多變且高頻出現的沖突場景。
9、綜上,現有方法的性能瓶頸并非孤立存在的,而是相互關聯的復雜系統性問題。傳統單一層級的rl因動作空間巨大而難以優化,即使引入分層思想,若高層策略無法準確感知并解耦環境中的長期趨勢與短期擾動,其制定的子目標可能偏離實際需求,導致低層執行效率低下。同時,低層多個agv在執行存儲分配時,若缺乏一個能夠理解全局狀態、預見沖突并進行語義級推理的協調機制,即便個體策略優化得再好,整體系統也會因頻繁沖突而損失效率。
技術實現思路
1、本發明的目的是提供一種智能供應鏈物流倉儲儲位分配方法、系統及計算機可讀存儲介質,以解決目前儲位分配過程中存在低層執行效率低以及布局調整決策與實際任務執行過程不一致的問題。
2、本發明為解決上述技術問題,本發明第一方面提供了一種智能供應鏈物流倉儲儲位分配方法,該方法包括以下步驟:
3、利用分層強化學習框架將儲位分配過程分解為高層決策過程和低層決策過程,所述高層決策過程用于將揀選站建模為管理者智能體,該管理者智能體基于全局倉庫狀態和實時訂單流為揀選站完成揀選的貨架分配最優存儲區域;所述低層決策過程用于將智能搬運設備建模為工人智能體,該工人智能體用于在分配的最優存儲區域內根據單次貨架回位任務的即時成本與執行效率確定出目標儲位。
4、在一種可能實現的方式中,該方法還包括將低層決策過程確定出的目標儲位作為初始目標儲位,由大語言模型根據全局環境信息對初始目標儲位進行優化,將優化后的目標儲位作為最終目標儲位,按照最終目標儲位控制智能搬運設備執行貨架搬運任務。
5、在一種可能實現的方式中,大語言模型對初始目標儲位的優化包括:
6、將初始目標儲位與智能搬運設備當前位置信息以及所搬運貨架的熱度指標進行整合,構成智能搬運設備的結構化意圖;
7、將智能搬運設備的結構化意圖與獲取的全局環境約束一起輸入到大語言模型中,由大語言模型在滿足儲位排他性與系統運行約束的前提下對智能搬運設備的結構化意圖和全局環境約束進行聯合推理,以得到調整后的目標儲位分配結果,該目標儲位分配結果就是最終的目標儲位;所述的全局環境約束包括各區域的占用狀態、各儲位的可用狀態以及實時訂單流特征。
8、在一種可能實現的方式中,該方法還包括,所述大語言模型在進行優化時采用結構化提示模板,該結構化提示模板包括固定角色指令和動態特定任務指令,固定角色指令作為一個倉庫儲位分配協調器的角色,按照設定規則進行決策;動態特定任務指令根據實時任務動態生成。
9、在一種可能實現的方式中,高層決策過程為馬爾科夫決策過程,該過程中的高層狀態由倉庫全局信息構成,包括各區域的儲位占用率、區域到揀選站的平均距離以及當前訂單負載強度;高層動作為區域級決策,用于指示貨架或任務的目標回位區域;高層策略用于約束低層決策的可行儲位范圍;高層獎勵函數由系統長期性能指標構成,用于反映區域負載均衡、平均任務完成時間以及整體吞吐率的變化。
10、在一種可能實現的方式中,低層決策過程為馬爾科夫決策過程,該過程中低層狀態由倉庫各區域的局部信息構成,包括智能搬運設備當前位置、當前位置到候選儲位的行駛距離、儲位占用狀態以及與貨架相關的潛在揀選需求特征;低層動作為在高層指定區域內選擇具體儲位;低層策略用于確定最終的目標儲位;低層獎勵函數用于刻畫即時執行代價,采用時間消耗、行駛距離以及沖突懲罰的組合。
11、在一種可能實現的方式中,所述倉庫全局信息中區域是根據歷史訂單以及用戶需求劃分得到,劃分后的每個區域中的各貨位上的貨架的使用頻次相近,即使各區域中每個貨位上貨架的使用頻次在對應的設定范圍內。
12、在一種可能實現的方式中,高層獎勵函數和低層獎勵函數是由多目標函數得到,所述的目標函數為揀選效率、資源利用率和智能搬運設備能耗的最大加權和,即為:
13、
14、其中refficiency為揀選效率,根據訂單的生成時間和完成時間的差值確定;rresource為資源利用率,代表了對倉庫資源的利用程度,使用區域熱度方差來表征;ragv為agv能耗,通過最小化移動距離和最小化儲位選擇沖突次數表示;ω1、ω2和ω3分別為各項的權重系數。
15、在一種可能實現的方式中,各項的權重系數采用貝葉斯優化的方式搜索得到。
16、為解決上述技術問題,本發明第二方面提供了一種智能供應鏈物流倉儲儲位分配系統,包括處理器,所述處理器執行計算機程序以實現本發明第一方面中任一種可能實現的方式中方法的步驟。
17、為解決上述技術問題,本發明第三方面提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現本發明第一方面中任一種可能實現的方式中方法的步驟。
18、本發明的有益效果是:本發明所采用的分層強化學習架構包括高層全局貨架布局規劃與低層局部儲位分配決策,通過將貨架重定位與儲位分配問題劃分為不同時間尺度和決策粒度的兩個層級,其中,高層強化學習面向倉庫全局狀態,負責進行貨架布局結構與區域級資源分配的長期規劃;低層強化模塊面向具體執行任務,依據當前環境狀態與高層規劃結果完成單次貨架重定位過程中的儲位選擇與動作決策。通過這種分層建模方式有效降低了大規模倉庫環境中狀態空間與動作空間的維度,提高策略學習與在線決策的可行性與效率,同時實現了全局布局優化目標與局部執行效率之間的協同,使布局調整決策與實際任務執行過程保持一致性,從而提升系統在動態儲位分配場景下的整體優化能力。
19、本發明還通過引入大語言模型作為協作推理核心,融合智能體意圖與全局環境信息對多智能搬運設備的任務狀態、目標意圖、當前儲位占用情況以及全局環境約束信息進行語義級融合與聯合推理,在多智能體并行作業條件下生成具有一致性的儲位分配與重定位協調策略。利用大語言模型對復雜上下文關系的建模能力,增強系統對多智能搬運設備協同關系和潛在沖突的理解能力,實現跨智能體的隱式協調;從而有效降低儲位爭用、路徑沖突及重復搬運的發生概率,提高多智能搬運設備任務分配的一致性與整體協作效率。
20、本發明還通過多目標統一建模與權重自適應調節機制,避免了傳統固定權重策略在環境變化或任務結構調整時對單一目標的過度偏置,使系統能夠在動態訂單環境下靈活平衡效率、均衡性與能耗等性能指標;同時提升了分層強化學習策略在非平穩環境中的穩定性與泛化能力,從整體上增強了儲位分配決策的長期優化效果和實際應用魯棒性。