一種基于思維鏈策略分解的具身智能機器人長時程行為生成方法

文檔序號：45764520發布日期：2026-06-10 01:00閱讀：3來源：國知局

本發明屬于具身智能機器人，涉及到一種基于思維鏈策略分解的具身智能機器人長時程行為生成方法，特別適用于電表更換等復雜作業場景下的機器人自主作業控制。

背景技術：

1、在電力行業，配電運維作業是保障電網安全穩定運行的重要組成部分。隨著智能電網建設的深入推進，配電運維作業對自動化、智能化的需求日益迫切。傳統的配電運維作業主要依靠人工完成，存在作業頻次高、勞動強度大、安全風險高、時效性強等問題。隨著機器人技術的發展，“具身智能+自主執行”成為解決這些問題的重要途徑。

2、目前的機器人控制系統主要針對固定工位下的預設動作序列，通過預先編程的方式控制機器人完成特定的作業任務。然而，在電表更換等實際應用場景中，機器人需要在復雜、多變的環境中工作，作業過程存在諸多不確定因素。傳統的基于預設動作序列的控制方法難以應對這些復雜場景，主要存在以下問題：

3、（1）環境復雜：電表安裝現場環境多變，存在空間狹窄、干擾多、障礙物多等問題，機器人需要根據實際環境進行靈活調整。

4、（2）過程不確定：電表更換過程中可能出現各種異常情況，如設備損壞、位置偏移、連接困難等，機器人需要具備實時檢測和應對異常的能力。

5、（3）長時程任務：電表更換是一個長時程的復雜任務，涉及多個步驟和多個動作，機器人需要進行長程規劃和推理。

6、（4）有限數據：傳統的離線訓練數據難以涵蓋所有實際工況，機器人在面對新場景時的泛化能力有限。

7、因此，實際的任務需要將任務轉化成多個行為，即進行“行為生成”。“行為生成”可被定義為：在多模態語義理解和狀態感知的約束下，面向長時程任務目標，對輪式移動行為與雙臂操作行為進行統一規劃、階段化組織和動態調度的決策與執行過程。

8、從形式化角度看，長時程行為生成問題可以抽象為在狀態空間中尋找一組最優策略，使系統在整個任務周期內在滿足安全約束的前提下最大化整體作業收益，其概念性表達如下公式所示。

9、

10、其中，在給定當前時刻狀態以及任務目標的條件下，系統期望采用的最優策略；綜合表征機器人在時刻的多模態狀態，包括環境感知結果（如視覺識別到的表箱、端子等關鍵對象及其空間關系）、機器人自身狀態（位姿、關節角、夾爪開合與力覺反饋等）以及階段進度等信息；表示當前長時程任務目標或高層子任務目標，例如“到達指定表箱”“打開表箱門”“完成電表插入并復位”等。動作表示在時刻選擇的控制決策，可對應為移動底盤的導航控制量或機械臂的操作控制量。函數表示在時刻執行動作后獲得的即時收益（或代價的相反數），可理解為“任務推進程度與風險代價的綜合評價”，例如完成階段性目標會帶來正收益，而發生碰撞風險、超力閾值、姿態不安全等情況會帶來負收益。符號?表示對執行過程中不確定性（如傳感噪聲、環境變化、裝配公差等）進行期望意義下的評價；表示任務結束時刻或規劃視野終點。

11、大語言模型在長程推理方面表現出色，但在單個任務上不一定穩定可控。如果直接將大語言模型用于底層控制，可能會引入不可預測的風險。因此，如何充分利用大模型的推理優勢，同時避免直接介入底層控制的不確定性，成為具身智能機器人控制的關鍵問題。

技術實現思路

1、針對上述現有技術的不足，本發明的目的在于提供一種基于思維鏈策略分解的具身智能機器人長時程行為生成方法；本發明通過思維鏈推理實現長時程任務的層次化分解，將高層策略規劃與底層動作執行解耦，也就是利用子任務作為統一接口，將任務抽象為移動和操作兩類，在保留大模型推理優勢的同時避免直接介入底層控制的不確定性，實現了復雜場景下的自適應、安全可靠的機器人作業。

2、本發明的技術方案具體介紹如下。

3、本發明提供?一種基于思維鏈策略分解的具身智能機器人長時程行為生成方法，包括以下步驟：

4、步驟一：根據機器人作業任務的特點，定義包含接近、檢測、抓取、插入、旋轉、拉拔和釋放在內的基礎動作的原語動作單元集合，每個原語動作單元標注其在動作坐標系中的表示參數；

5、步驟二：構建以原語動作為基礎元素，以“主體-謂詞-客體”為語義結構的原子動作三維坐標系模型，根據動作的可行性約束、執行條件及目標狀態，確定原子動作在不同作業場景中的可執行性；

6、步驟三：接收目標作業任務的描述信息，利用大語言模型的思維鏈推理能力，對任務進行層次化分解，生成具有明確階段推進邏輯的子任務序列，每個子任務包含目標對象或目標區域、期望完成狀態和關鍵安全約束；

7、步驟四：根據子任務類型調用對應的策略生成模塊進行動作指令轉換；在子任務執行過程中，實時監測環境狀態和執行反饋，當執行反饋表明當前子任務無法滿足完成條件時，觸發高層策略生成模塊基于最新狀態重新生成后續子任務或觸發局部回退策略；

8、步驟五：根據執行結果反饋，通過在線強化學習優化對視覺-語言-動作模型進行參數更新，提升模型在復雜場景下的泛化能力和魯棒性。

9、本發明中，步驟三中，子任務的類型包括移動類子任務和操作類子任務，移動階段的子任務輸出顯式關注“到位條件”和“進入操作的安全門檻”，操作階段的子任務輸出顯式關注“對象正確性、順序依賴與異常處理”，使生成的子任務序列體現明確的階段推進邏輯。

10、本發明中，步驟四中，策略生成模塊包括導航策略生成模塊和視覺-語言-動作模型；移動類子任務調用導航策略生成模塊，通過gnss回環slam和分層地圖與非線性模型生成移動指令；操作類子任務調用視覺-語言-動作模型，結合環境感知信息生成動作表示，通過動作解碼器轉換為動作指令。

11、本發明中，導航策略生成模塊包括：

12、gnss回環slam定位模塊，用于確定機器人的全局位置和姿態；

13、分層地圖構建模塊，將環境劃分為不同粒度的地圖層級；

14、非線性運動模型，用于預測機器人的運動軌跡；

15、路徑規劃算法模塊，基于地圖信息和運動模型生成最優路徑。

16、本發明中，視覺-語言-動作模型包括：

17、多視角rgbd傳感器輸入層，用于獲取環境的視覺信息；

18、語言指令編碼器，用于將任務語言指令轉換為向量表示；

19、視覺特征提取器，用于從傳感器輸入中提取環境特征；

20、動作表示生成器，結合語言指令和視覺特征生成動作表示；

21、動作解碼器，將動作表示轉換為具體的機器人控制指令。

22、本發明中，步驟四中，實時監測環境狀態和執行反饋的方法包括：

23、環境語義不確定性檢測，當環境語義不確定時，觸發重新感知和任務規劃；

24、站位可達性檢測，當機器人站位不滿足操作可達性時，觸發位置調整；

25、力覺異常檢測，當力覺傳感器檢測到異常力時，觸發安全保護機制；

26、子任務完成條件檢測，當子任務完成條件不滿足時，觸發重試或回退策略。

27、本發明中，步驟五中，在線強化學習優化的方法包括：

28、執行結果獎勵函數設計，根據任務完成度、安全性和效率指標設計獎勵函數；

29、模型參數更新機制，采用策略梯度或?actor-critic（演員-評論家）算法對模型參數進行更新；

30、經驗回放緩沖區，存儲執行過程中的狀態-動作-獎勵-新狀態四元組數據；

31、探索-利用平衡策略，在執行已知策略和探索新策略之間保持平衡。

32、和現有技術相比，本發明的有益效果在于：

33、（1）高層與底層解耦：本發明通過思維鏈推理實現長時程任務的層次化分解，將高層策略規劃與底層動作執行解耦，保留了大模型的推理優勢又避免了介入底層的不確定性。

34、（2）降低軌跡誤差：單獨的導航策略生成模塊降低了移動過程中的軌跡誤差，提高了機器人的定位精度和路徑規劃的準確性。

35、（3）具備修正能力：允許重復判斷與調整并執行，讓模型具備失敗條件下的修正能力，提高了系統的魯棒性和可靠性。

36、（4）適應復雜場景：通過實時狀態反饋與動態調整機制，系統能夠適應復雜多變的作業環境，及時應對各種異常情況。

37、（5）持續優化：通過在線強化學習機制，系統能夠從執行過程中不斷學習和改進，提升了系統的泛化能力和長期性能。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：王嘉楠,王奕辰,趙清,李婧惠,喻詩文,崔雨晨,張文強
技術所有人：復旦大學
我是此專利的發明人

上一篇：一種起重機能量回收安全控制方法與流程
下一篇：基于牙齒移動數字孿生體的口腔正畸方案設計輔助方法與流程

該領域下的技術專家

1、平老師：1.功能涂層設計與應用 2.柔性電子器件設計與應用 3.結構動態參數測試與裝置研發 4.智能機電一體化產品研發 5.3D打印工藝與設備

2、潘老師：1.機電一體化裝備及其控制技術 2.多傳感器信息融合與質量評定

3、王老師：機械制造

4、袁老師：1.薄膜氣敏傳感器 2.薄膜太陽能電池

5、李老師：新型電力電子技術在微網中的應用

網友詢問留言留言:0條

還沒有人留言評論。精彩留言會獲得點贊！

文明留言，給您點贊！

同類技術