本發明涉及電動汽車自動充電,特別是一種電動汽車充電槍自動插槍方法。
背景技術:
1、近年來,電動汽車正逐漸成為汽車行業的主流發展方向。伴隨而來的自動泊車技術的成熟,人們對車輛在停車場內的自動充電服務需求也日益增加,車輛在自動泊入車位后,能夠通過機械臂自動完成充電,無需人工干預,這將為用戶帶來極大的便利,也符合未來智能出行的發展趨勢。
2、此外,碼頭、礦區的無人運輸、無人出租車的普及進一步催生了對自動化充電的迫切需求。例如碼頭的自動駕駛卡車,長時間高強度作業,對電量補給的及時性和高效性要求極高。人工充電不僅耗時費力,還可能因操作不當影響作業進度和安全。
3、傳統解決方案是基于yolo等視覺算法模型識別充電接口在2d畫面中的坐標位置,利用雙目或結構光相機得到深度信息后獲取3d的坐標位置,通過相機參數和機械臂參數解算出機械臂末端位姿,進行運動規劃后到達充電接口,通過模板匹配算法進行精細調整,沿著末端工具方向進行插入。
4、也有通過3d工業相機獲取的影像識別充電接口位置,并對齊后的深度圖像進行反投影處理,生成充電接口的點云數據。隨后,基于主成分分析(pca)的點云處理技術為機械臂提供初始的6d位姿估計。在精定位階段,通過分層模板匹配方法獲取充電接口的精確位置與方位信息,使機械臂能夠在多種環境條件下實現充電槍的自動插拔操作。
5、以上解決方案的問題在于:
6、首先,現有插槍方法對環境依賴性強,魯棒性也不足。光照變化,如夜晚、強光、陰影、天氣影響、充電接口表面的反光、污漬、遮擋,都會極大干擾識別精度。不同車型的充電接口形狀、顏色、位置各異,方法的通用性和泛化能力面臨挑戰。另外,現有方案通過視覺引導機械臂運動,在充電槍和充電口最后的接觸階段存在視覺遮擋時容易產生插入誤差,從而導致槍口硬件損傷,安全性不高。
7、其次,當前方法大多需要高精度工業相機和深度相機,成本高昂。算法訓練需要采集大量充電口數據,進行目標標定,訓練效率低下。機械臂和攝像頭協作需要復雜的手眼標定系統,而任何環節的偏差,比如相機輕微位移、機械臂精度誤差都需要重新標定,重新標定需要耗費大量人力和時間成本,部署和維護成本高昂,不利于商業化推廣。
8、最后,現有方案均涉及復雜的多級計算流程,從2d識別、3d重建、坐標轉換到運動規劃,并非一個端到端的方案。每個環節都會引入微小誤差,這些誤差逐級累積,最終可能導致末端定位精度不滿足毫米級的插拔要求,尤其在機械臂工作空間邊緣時更為顯著。
技術實現思路
1、發明目的:針對上述問題,本發明的目的是提供一種基于人類干預強化學習的電動汽車自動插槍方法,克服傳統純視覺插槍方法的缺陷。
2、技術方案:一種基于人類干預強化學習的電動汽車自動插槍方法,包括以下步驟:
3、s1:人類專家通過遠程遙操設備控制六自由度協作機械臂執行電動汽車充電槍插槍動作,并從圖像采集設備和機械臂控制器中采集插槍的軌跡數據;
4、s2:基于神經網絡的方法利用圖像信息和六維力/力矩融合信息訓練一個獎勵分類器r,將獎勵分類器的結果作為充電槍插入動作序列的終止判定標準;
5、s3:通過基于actor-critic的強化學習機制訓練插槍的動作策略網絡p,訓練過程中不斷通過人類干預引導機械臂完成插槍動作;將動作策略網絡p與環境交互的數據記錄為策略數據集d1,將人類干預與環境交互的數據記錄為干預數據集d2,基于策略數據集d1與干預數據集d2訓練動作策略網絡p使之最終收斂;
6、s4:部署推理環境,基于訓練的動作策略網絡p生成下一步動作,基于獎勵分類器r判斷動作是否需要終止,進行迭代直到完成充電槍自動插入動作;
7、s5:完成充電槍插入動作后,控制機械臂執行拔槍與復位動作。
8、進一步的,步驟s1具體為:
9、s11:通過圖像采集設備獲取充電接口環境的圖像信息,包括兩個視角畫面,機械臂腕部的第一視角圖像,以及旁邊固定的第三視角圖像,并對圖像信息和增強處理;
10、s12:根據關節電流計算關節力矩信息,從機械臂控制器中讀取機械臂關節角信息,機械臂末端執行器位姿作為動作信息,則關節力矩信息的計算公式為:
11、???公式(1),
12、其中,表示力矩常數,表示關節電流;
13、s13:將圖像信息和關節力矩信息、關節角信息,按時間戳對齊為t時刻狀態信息,并存入干預數據集d2。
14、進一步的,步驟s2具體為:
15、s21:訓練獎勵分類器r所用的信息包括圖像信息、六維力/力矩,從干預數據集d2中獲取時間圖像信息,從干預數據集d2中獲取關節力矩信息,六維力/力矩的計算公式為:
16、???公式(2),
17、其中,表示雅可比矩陣,表示關節力矩信息;
18、得到六維力/力矩之后,再由人類專家根據專業知識,將訓練所需信息標注正樣本或負樣本,其中,最終充電槍插入成功時的信息注為正樣本,充電槍插入不成功時的信息標注為負樣本;
19、s22:構建一個cnn神經網絡,采用二元交叉熵作為損失函數,基于步驟s21的標注數據訓練獎勵分類器r。
20、進一步的,步驟s3具體為:
21、s31:初始化一個訓練進程t1負責訓練動作策略網絡p,初始化一個交互進程t2負責與環境交互;
22、s32:交互進程t2通過動作策略網絡p負責動作信息生成和收集每個時刻t的狀態數組,構建狀態-動作-獎勵數組發送給訓練進程t1;其中,代表t時刻的獎勵值,存入策略數據集d1;按照時間t排列完整的序列為:
23、公式(3);
24、s33:當動作策略網絡p輸出動作低效或陷入僵局時,人類專家實時介入干預,通過遠程遙操設備控制機械臂執行正確動作,收集環境信息,人類專家根據插槍結果標注,構建數據狀態-動作-獎勵數組發送給訓練進程t1存入干預數據集d2,通過獎勵分類器r作為動作終止判斷標準;
25、s34:從策略數據集d1和干預數據集d2等比例采樣訓練動作策略網絡p,通過目標函數使網絡收斂,目標函數的計算公式為:
26、???公式(4),
27、其中,表示時間,表示t時刻的狀態數組,表示動作分布的熵值,表示策略生成函數,表示熵值權重,表示概率密度函數,表示獎勵函數,表示狀態和動作分布下的數學期望;
28、通過隨機梯度下降法更新動作策略網絡p的參數,計算公式為:
29、???公式(5),
30、其中,表示動作策略網絡p的參數,表示學習率,表示梯度;
31、更新的動作策略網絡p參數發送給交互進程t2;
32、s35:重復步驟s31~步驟s34,此過程中,通過不斷調整充電口位置,讓動作策略網絡p學習不同位置下充電口的插入,直到不再需要人類干預,或者,動作策略網絡p可成功完成插槍動作,代表動作策略網絡p已經學會人類專家的策略,終止訓練過程。
33、進一步的,步驟s4具體為:
34、s41:重置機械臂和車輛位置環境,部署步驟s3訓練的動作策略網絡p;
35、s42:從干預數據集d2中獲取初始圖像信息,關節力矩信息、關節角信息,將三者組合為時刻t的狀態數組輸入到已訓練好的動作策略網絡p中,輸出當前應執行的動作指令,通過獎勵分類器r判斷動作是否終止;
36、s43:重復步驟s42,直到動作終止,完成插入任務。
37、進一步的,步驟s5具體為:
38、s51:在確認充電槍已成功插入且充電過程結束后,控制機械臂沿原插入路徑反向、緩慢、勻速直線運動,將充電槍從充電口平穩拔出;
39、s52:充電槍完全脫離充電口后,控制機械臂按照預設安全軌跡運動至初始待命位置,準備下一次插槍任務。
40、進一步的,步驟s11中,增強處理的方式包括加入亮度變化、對比度變化、隨機噪聲。
41、有益效果:本發明具有以下優點:構建了“人類干預”與“機器自主探索”高效協同的電動汽車自適應插槍方法,將人類在線干預的實時引導與離線強化學習的高效探索相結合,顯著提升了學習效率、策略安全性與任務泛化能力,并加入了關節力矩信息,相較于傳統的純視覺插槍方法,在充電槍和充電口最后的接觸階段存在視覺遮擋時實現柔順的插入動作,有效的降低了由于光照變化、反光、污漬或面對新車型造成的視覺影響。