1.一種基于強化學習的機械臂自適應柔順力控制方法,其特征在于,包括以下步驟:
2.如權利要求1所述的基于強化學習的機械臂自適應柔順力控制方法,其特征在于,階段規劃器將整個軸孔裝配流程分為自由段、搜索段以及插入段三個階段,參數初始化后首先進入自由段,當達到預設的第一階段切換條件后,控制邏輯由自由段切換到搜索段,當達到預設的第二階段切換條件后,控制邏輯由搜索段切換到插入段,當達到預設的成功終止條件時,完成裝配。
3.如權利要求2所述的基于強化學習的機械臂自適應柔順力控制方法,其特征在于,在自由段,被靈巧手握持的目標工件處于空中,并使目標工件以預設速度無沖擊地到達裝配孔口正上方預設高度處,禁用導納動力學控制器或將其剛度參數保持在預設剛度范圍內,強化學習策略網絡輸出位姿微調量和pd控制參數,用于輔助pd控制器進行位姿糾正,不調節導納動力學控制器的剛度參數;在搜索段,采用參數化螺旋搜索裝配孔位置,并通過策略網絡在線調節半徑收縮率和下壓速度,通過pd控制器與位姿微調進行軌跡跟蹤,加入導納動力學控制器實現柔順、安全接觸;在插入段,以裝配孔的法向方向為z軸,以裝配孔的切向方向構建x軸和y軸,xyz三軸兩兩垂直,將xy軸與z軸解耦,凍結z軸位置控制,通過pd控制器、強化學習微調位姿和標準導納控制使x軸、y軸保持柔順插入對中,使用恒力導納控制保持機械臂末端z軸接觸力跟蹤。
4.如權利要求3所述的基于強化學習的機械臂自適應柔順力控制方法,其特征在于,第一階段切換條件為目標工件到達裝配孔口正上方預設高度處、切向位置誤差小于等于預設的切向位置誤差閾值,且機械臂末端六維力傳感器z軸力分量小于預設的力度閾值;第二階段切換條件為目標工件已進入裝配孔口預設深度內、切向位置誤差小于等于預設的切向位置誤差閾值,且機械臂末端六維力傳感器z軸力分量大于等于預設的力度閾值;當同時滿足插入深度大于預設的任務成功插入深度閾值、z軸力誤差小于預設的z軸力誤差閾值、裝配孔切向位置誤差小于預設的切向位置誤差閾值時,視為達到成功終止條件。
5.如權利要求3所述的基于強化學習的機械臂自適應柔順力控制方法,其特征在于,在插入段的導納力修正中,切向x-y使用標準二階導納控制,導納參數由策略網絡輸出;法向z使用恒力導納,導納參數由策略網絡輸出,并通過策略網絡生成的恒力調節參數調控z軸期望力大小。
6.如權利要求4所述的基于強化學習的機械臂自適應柔順力控制方法,其特征在于,在策略網絡訓練過程中,采用分段獎勵方式對策略網絡每個階段的執行情況進行評估并計算累積獎勵:在自由段,獎勵函數用于同時使切向位置誤差小于預設的位置誤差閾值、強化學習動作空間的輸出幅值小于預設的動作變化閾值、外部實際接觸力小于預設的接觸力閾值以及鼓勵策略網絡快速完成的每步懲罰;搜索段的獎勵函數在自由段的獎勵函數基礎上,額外增加了插入深度獎勵;在插入段,獎勵函數用于同時使切向位置誤差小于位置誤差閾值、強化學習動作空間的輸出幅值小于動作變化閾值、法向力誤差小于預設的法向力精度閾值、切向方向的外部實際接觸力絕對值小于預設的接觸力閾值,保留插入深度獎勵和鼓勵策略網絡快速完成的每步懲罰;
7.如權利要求6所述的基于強化學習的機械臂自適應柔順力控制方法,其特征在于,策略網絡始終輸出固定維度的動作向量,在強化學習訓練中的環境交互層根據有效階段標志識別無效動作,并通過硬約束與軟約束結合的方式對無效動作進行歸零,從而實現可變動作空間機制;其中,無效動作為當前階段不使用的自適應參數對應的動作;硬約束為將無效動作強制歸零后送入控制回路,軟約束為在各階段的獎勵函數中設置維度懲罰項,通過該維度懲罰項引導策略網絡自主習得當前階段的無效動作;為懲罰系數;為當前階段的無效動作索引集合;為無效動作索引;為無效動作大??;在強化學習訓練時,將階段標識作為強化學習觀測空間的組成部分輸入策略網絡,使策略網絡能夠學習條件化的策略,在不同階段輸出不同種類的參數。
8.如權利要求6所述的基于強化學習的機械臂自適應柔順力控制方法,其特征在于,在強化學習訓練的各階段中,采用動作掩碼機制,將無效動作的動作掩碼值置為0;其中,無效動作為當前階段不使用的自適應參數對應的動作;在強化學習訓練時,將階段標識作為強化學習觀測空間的組成部分輸入策略網絡,使策略網絡能夠學習條件化的策略,在不同階段輸出不同種類的參數。
9.如權利要求7或8任一項所述的基于強化學習的機械臂自適應柔順力控制方法,其特征在于,將當前階段使用的自適應參數作為有效參數,各階段強化學習動作空間輸出的有效參數如下:在自由段,位姿微調量與pd控制參數為有效參數;在搜索段,位姿微調量、剛度參數、pd控制參數、半徑收縮率與下壓速度為有效參數;在插入段,位姿微調量、剛度參數、pd控制參數與恒力調節參數為有效參數。
10.如權利要求6所述的基于強化學習的機械臂自適應柔順力控制方法,其特征在于,強化學習觀測空間實時收集每個時刻的位姿偏差、機械臂末端工具速度、外部實際接觸力、階段標識和上一步動作,用于實時調整強化學習內部網絡的權重,進而尋找具有最優回報的動作策略。