本發明屬于機器人技術和自動化領域,尤其涉及一種基于強化學習的機械臂自適應柔順力控制方法。
背景技術:
1、隨著協作機器人和人形機器人走向量產,“可與人并肩作業”成為剛性需求,對末端力控能力提出更高要求。傳統工業機械臂以位置精度和節拍為核心,控制架構多為單環位置伺服,接觸作業時一旦軌跡與工件不符,極易產生過沖、卡死甚至損壞。協作臂與人形臂則需完成插拔、擰螺絲、人機協同等“毫米級位置+牛級力”的雙重約束任務,由此催生了力位混合控制技術的研究。
2、為實現柔順功能,業界形成“直接力控”與“間接力控”兩大路線。其中,導納控制作為間接力控的代表方案,憑借“硬件最簡、成本最低”的優勢,被ur、遨博、franka等主流協作臂采納。該方案將末端力誤差換算為位移疊加至位置軌跡,僅需腕部六維力傳感器,即可實現虛擬柔順。現有人形機器人也多在手腕、腳踝布置力傳感器,通過導納算法將接觸力“消化”為位姿調整。
3、與本發明最相近似的現有技術方案主要包括以下兩類:
4、第一類:基于固定參數的導納控制方法。工業精密裝配中普遍采用離線整定的固定剛度、阻尼系數。該策略在間隙大于0.5mm、工件剛性一致的批量場景尚可應付,但缺陷明顯:(1)當間隙小于0.5mm或工件為柔性材質時,固定剛度易導致卡死、劃傷或虛插;(2)產線換型需人工重新標定,停機時間常以班次計,難以適應柔性制造的多品種快速切換需求。
5、第二類:基于自適應律的參數自整定導納控制方法。為消除人工標定,學界提出將剛度、阻尼作為時變矩陣,通過卡爾曼濾波或最小二乘在線估計環境剛度,并基于李雅普諾夫函數實時刷新參數。然而,該方法存在以下局限:(1)高度依賴二階接觸模型先驗,但柔性薄壁零件的接觸剛度呈劇烈非線性變化,模型本身存在結構性誤差;(2)在線估計需要持續激勵,而軸孔裝配中“短暫輕觸”難以滿足收斂條件,易導致估計漂移;(3)工件形位或潤滑改變時,穩定性邊界需重新推導,否則可能引發自激震蕩,工程實現復雜,落地案例稀少。
6、近年來,深度強化學習為柔順控制提供新思路,學界采用ddpg、ppo等算法在輕接觸任務中取得端到端效果。但現有研究多停留在位置級控制,力信息僅作為獎勵函數中的懲罰項,未真正融入策略網絡的動作空間,難以充分發揮力覺信息在精密裝配中的指導作用。
7、綜上所述,現有技術尚無法兼顧柔順控制的適應性、穩定性和部署便捷性,亟需一種能夠根據接觸狀態動態調整導納參數、且不依賴精確環境模型的智能柔順控制方法。
技術實現思路
1、在精密軸孔裝配中,工件尺寸小、間隙微、材質軟,接觸動力學難以準確建模,且對于多品種批量化柔性制造工況,工件物理特性隨時間改變。現有定參數導納柔順控制方法需人工反復整定剛度-阻尼參數,換型即失效,過接觸易導致卡死,欠接觸則可能虛插,成功率隨間隙減小急劇下降。而現有基于自適應律的變參數導納控制方法應對多變工況、薄壁易變形工件時,接觸動力學參數在線估計難、控制穩定性證明復雜,難以落地實用。本發明的目的在于解決現有技術中存在的上述問題,并提供一種基于強化學習的機械臂自適應柔順力控制方法。
2、為了實現上述發明目的,本發明具體采用如下技術方案:
3、本發明提供了一種基于強化學習的機械臂自適應柔順力控制方法,包括如下步驟:
4、機械臂-靈巧手系統首先通過置于系統外的全局rgbd相機,獲取目標工件裝配孔的目標空間位姿,采用強化學習方法訓練好的策略網絡在軸孔裝配全流程中不斷生成對應階段的自適應參數,并將自適應參數與目標空間位姿一起輸入階段規劃器,階段規劃器依據軸孔裝配任務進度,實時輸出當前的期望位姿;將期望位姿與當前機械臂工具端笛卡爾空間的實際位姿作差,得到位姿偏差;將位姿偏差輸入pd控制器進行軌跡跟蹤,并通過策略網絡在線生成pd控制器的pd控制參數,對位姿偏差進行初步軌跡修正后,得到調整后的位姿命令;策略網絡同時根據位姿偏差,輸出位姿微調量;接下來,雙模導納動力學控制器接收策略網絡提供的自適應導納參數,并輸出柔順位姿調整量;將調整后的位姿命令、位姿微調量、柔順位姿調整量求和,得到笛卡爾空間控制命令;最后,將笛卡爾空間控制命令交予機械臂逆向運動學算法解算到關節端,得到各關節位置控制命令,實現柔順控制。
5、作為優選,階段規劃器將整個軸孔裝配流程分為自由段、搜索段以及插入段三個階段,參數初始化后首先進入自由段,當達到預設的第一階段切換條件后,控制邏輯由自由段切換到搜索段,當達到預設的第二階段切換條件后,控制邏輯由搜索段切換到插入段,當達到預設的成功終止條件時,完成裝配。
6、作為優選,在自由段,被靈巧手握持的目標工件處于空中,并使目標工件以預設速度無沖擊地到達裝配孔口正上方預設高度處,禁用導納動力學控制器或將其剛度參數保持在預設剛度范圍內,強化學習策略網絡輸出位姿微調量和pd控制參數,用于輔助pd控制器進行位姿糾正,不調節導納動力學控制器的剛度參數;在搜索段,采用參數化螺旋搜索裝配孔位置,并通過策略網絡在線調節半徑收縮率和下壓速度,通過pd控制器與位姿微調進行軌跡跟蹤,加入導納動力學控制器實現柔順、安全接觸;在插入段,以裝配孔的法向方向為z軸,以裝配孔的切向方向構建x軸和y軸,xyz三軸兩兩垂直,將xy軸與z軸解耦,凍結z軸位置控制,通過pd控制器、強化學習微調位姿和標準導納控制使x軸、y軸保持柔順插入對中,使用恒力導納控制保持機械臂末端z軸接觸力跟蹤。
7、作為優選,第一階段切換條件為目標工件到達裝配孔口正上方預設高度處、切向位置誤差小于等于預設的切向位置誤差閾值,且機械臂末端六維力傳感器z軸力分量小于預設的力度閾值;第二階段切換條件為目標工件已進入裝配孔口預設深度內、切向位置誤差小于等于預設的切向位置誤差閾值,且機械臂末端六維力傳感器z軸力分量大于等于預設的力度閾值;當同時滿足插入深度大于預設的任務成功插入深度閾值、z軸力誤差小于預設的z軸力誤差閾值、裝配孔切向位置誤差小于預設的切向位置誤差閾值時,視為達到成功終止條件。
8、作為優選,在插入段的導納力修正中,切向x-y使用標準二階導納控制,導納參數由策略網絡輸出;法向z使用恒力導納,導納參數由策略網絡輸出,并通過策略網絡生成的恒力調節參數調控z軸期望力大小。
9、作為優選,在策略網絡訓練過程中,采用分段獎勵方式對策略網絡每個階段的執行情況進行評估并計算累積獎勵:在自由段,獎勵函數用于同時使切向位置誤差小于預設的位置誤差閾值、強化學習動作空間的輸出幅值小于預設的動作變化閾值、外部實際接觸力小于預設的接觸力閾值以及鼓勵策略網絡快速完成的每步懲罰;搜索段的獎勵函數在自由段的獎勵函數基礎上,額外增加了插入深度獎勵;在插入段,獎勵函數用于同時使切向位置誤差小于位置誤差閾值、強化學習動作空間的輸出幅值小于動作變化閾值、法向力誤差小于預設的法向力精度閾值、切向方向的外部實際接觸力絕對值小于預設的接觸力閾值,保留插入深度獎勵和鼓勵策略網絡快速完成的每步懲罰;
10、當自由段完成進入搜索段,或者當搜索段完成進入插入段,或者在達到所述成功終止條件時,均額外發放預設數量的稀疏獎勵。
11、作為優選,策略網絡始終輸出固定維度的動作向量,在強化學習訓練中的環境交互層根據有效階段標志識別無效動作,并通過硬約束與軟約束結合的方式對無效動作進行歸零,從而實現可變動作空間機制;其中,無效動作為當前階段不使用的自適應參數對應的動作;硬約束為將無效動作強制歸零后送入控制回路,軟約束為在各階段的獎勵函數中設置維度懲罰項,通過該維度懲罰項引導策略網絡自主習得當前階段的無效動作;為懲罰系數;為當前階段的無效動作索引集合;為無效動作索引;為無效動作大小;在強化學習訓練時,將階段標識作為強化學習觀測空間的組成部分輸入策略網絡,使策略網絡能夠學習條件化的策略,在不同階段輸出不同種類的參數。
12、作為優選,在強化學習訓練的各階段中,采用動作掩碼機制,將無效動作的動作掩碼值置為0;其中,無效動作為當前階段不使用的自適應參數對應的動作;在強化學習訓練時,將階段標識作為強化學習觀測空間的組成部分輸入策略網絡,使策略網絡能夠學習條件化的策略,在不同階段輸出不同種類的參數。
13、作為優選,將當前階段使用的自適應參數作為有效參數,各階段強化學習動作空間輸出的有效參數如下:在自由段,位姿微調量與pd控制參數為有效參數;在搜索段,位姿微調量、剛度參數、pd控制參數、半徑收縮率與下壓速度為有效參數;在插入段,位姿微調量、剛度參數、pd控制參數與恒力調節參數為有效參數。
14、作為優選,強化學習觀測空間實時收集每個時刻的位姿偏差、機械臂末端工具速度、外部實際接觸力、階段標識和上一步動作,用于實時調整強化學習內部網絡的權重,進而尋找具有最優回報的動作策略。
15、本發明相對于現有技術而言,具有以下有益效果:
16、本發明把導納動力學控制器的剛度參數與阻尼參數、笛卡爾空間六維位姿微調量、pd控制器的pd控制參數、階段規劃器的自適應參數全部納入強化學習動作空間,以及每個時刻的位姿偏差、機械臂末端工具速度、外部實際接觸力等為狀態,設計了分段自適應插入的裝配邏輯,構建了強化學習訓練的階段式獎勵函數,在仿真訓練及實物遷移過程中使策略網絡自主習得“何時柔、何時剛、如何搜、如何插”的全局策略;在工件換型時,僅需在線微調數十分鐘,無需任何接觸模型或參數估計,即可對高裝配精度要求的任務,例如0.05mm小間隙、易變形、多材質工件保持高裝配成功率與低峰值接觸力(<5n),解決現有定參數導納控制方法在實際工業環境下適應性差、調試時間長的問題,以及現有基于自適應律的變參數導納控制方法在多變工況中接觸動力學參數在線估計難、穩定性差的現有技術缺點,徹底消除人工標定與模型估計兩大瓶頸,實現柔性產線“零停機”快速切換。