本公開的各方面一般涉及人工智能,尤其涉及提供用于訓練神經網絡模型用于行為模仿的方法和裝置。
背景技術:
1、模仿學習(il)是指從專家演示中學習執行任務的問題,在許多現實世界應用中已經引起了大量關注,因為它可能能夠有效地解決順序決策問題,僅舉幾例,國際象棋游戲、電子競技游戲、自主駕駛、智能機器人等。il有兩種主要方法:行為克隆(bc),其作為監督學習問題從來自專家軌跡的狀態-動作對學習策略;以及逆強化學習(irl),其找到在其條件下專家是唯一最優的成本函數。
2、然而,bc僅在利用大量數據的情況下傾向于成功,并且irl學習成本函數,其解釋專家行為但不直接告訴學習者如何行動。鑒于學習者的真實目標通常是模仿專家采取動作,提出了利用生成式對抗網絡(gan)的骨架的名為生成式對抗模仿學習(gail)的框架,以通過直接學習來自專家的策略來告訴智能體如何行動。
3、不幸的是,由于gail也交替地訓練鑒別器和策略生成器,因此它繼承了gan的不穩定性質,gail的訓練過程具有振蕩行為并且無法達到最佳均衡。因此,期望一種用于利用gail訓練神經網絡以進行行為模仿的方法,該方法可以將gail推向均衡并實現穩定性。
技術實現思路
1、以下呈現了一個或多個方面的簡化概述,以提供對這些方面的基本理解。該概述不是對所有預期方面的廣泛概述,并且既不旨在標識所有方面的關鍵或重要元素,也不旨在描繪任何或所有方面的范圍。其唯一目的是以簡化形式呈現一個或多個方面的一些概念,作為稍后呈現的更詳細描述的序言。
2、生成式對抗模仿學習(gail)是一個框架,其目標是通過直接從專家演示中學習策略以明確地學習如何行動,而不是首先用irl恢復專家的成本函數,然后用rl從成本函數中提取策略。gail是學習順序決策策略的強大方法,使得其廣泛用于許多真實世界應用,例如但不限于國際象棋游戲、電子競技游戲、自主駕駛、智能機器人等。
3、然而,與其骨架gan相同,gail交替地訓練鑒別器和策略生成器,從而導致gail的訓練過程繼承gan的不穩定性質,其具有振蕩行為并且不穩定以達到最佳均衡。因此,需要一種用于在訓練期間將gail推向均衡并實現穩定性的方法。
4、在一方面,公開了一種用于使用生成式對抗模仿學習(gail)來訓練神經網絡模型用于行為模仿的計算機實現的方法。所述方法包括:獲得表示演示者針對任務的行為的演示數據,其中,所述演示數據包括狀態-動作對的序列,其中,狀態對應于用于決策的條件,并且動作對應于由所述演示者做出的決策;更新所述神經網絡的鑒別器以最大化第一目標函數,其中,所述第一目標函數是利用第一項修改的,所述第一項用于推動所述鑒別器在所述演示者的行為和由所述神經網絡的策略生成器生成的狀態-動作對之間變得不可區分;以及更新所述策略生成器以最小化第二目標函數,其中,所述第二目標函數是利用第二項修改的,所述第二項用于推動所述策略生成器收斂到所述演示者的行為。
5、在另一方面,所述第一項和所述第二項是分別基于第一控制器和第二控制器來確定的,所述第一控制器和所述第二控制將與所述鑒別器和所述策略生成器相對應的動態系統推送到與所述動態系統的均衡相對應的目標函數。
6、在另一方面,對應于所述鑒別器和所述策略生成器的所述動態系統是通過所述第一目標函數和所述第二目標函數相對于時間的導數來確定的。
7、在另一方面,在所述鑒別器的輸出等于1/2并且所述策略生成器的輸出與所述演示者的行為匹配的情況下,達到所述動態系統的均衡。
8、在另一方面,所述第一控制器和所述第二控制器受到漸近穩定性原理的約束,以便保持所述動態系統在所述均衡附近穩定。
9、在另一方面,所述演示數據包括在駕駛期間駕駛員行為和道路環境的記錄,并且其中,所述神經網絡被訓練用于自主駕駛。
10、在另一方面,所述演示數據包括在移動期間人類移動路徑和所述人類的周圍環境的記錄,并且其中,所述神經網絡被訓練用于機器人控制。
11、在一個方面,公開了一種用于利用如本文實施例中的一個實施例所述的方法訓練的神經網絡模型來控制智能體的方法。所述方法包括:由所述智能體收集與所述任務相關的環境數據;基于所述環境數據獲得當前時刻的狀態;利用經訓練的神經網絡模型基于所述當前時刻的所述狀態來推斷用于所述當前時刻的動作;以及基于所推斷的用于所述當前時刻的動作來控制所述智能體。
12、在一方面,公開了一種能夠自主駕駛的車輛。車輛包括:一個或多個傳感器,被配置用于收集與車輛的自主駕駛相關的環境數據的至少一部分;一個或多個處理器;以及存儲計算機可執行指令的一個或多個存儲設備,計算機可執行指令在被執行時使一個或多個處理器執行如本文公開的實施例中的一個實施例的方法的操作。
13、在一方面,公開了一種機器人。機器人包括:一個或多個傳感器,被配置用于收集機器人周圍的環境數據的至少一部分;一個或多個處理器;以及存儲計算機可執行指令的一個或多個存儲設備,計算機可執行指令在被執行時使一個或多個處理器執行如本文公開的實施例中的一個實施例的方法的操作。
14、在一方面,公開了一種計算機系統。計算機系統包括一個或多個處理器;以及存儲計算機可執行指令的一個或多個存儲設備,該計算機可執行指令在被執行時使一個或多個處理器執行如本文公開的方法中的一個方法的操作。
15、在一方面,公開了一種或多種存儲計算機可執行指令的計算機可讀存儲介質,這些計算機可執行指令在被執行時使一個或多個處理器執行如本文公開的方法中的一個方法的操作。
16、在一方面,公開了一種包括計算機可執行指令的計算機程序產品,這些計算機可執行指令在被執行時使一個或多個處理器執行如本文公開的方法中的一個方法的操作。
1.一種用于使用生成式對抗模仿學習(gail)來訓練神經網絡模型用于行為模仿的計算機實現的方法,所述方法包括:
2.根據權利要求1所述的計算機實現的方法,其中,所述第一項和所述第二項是分別基于第一控制器和第二控制器來確定的,所述第一控制器和所述第二控制將與所述鑒別器和所述策略生成器相對應的動態系統推送到與所述動態系統的均衡相對應的目標函數。
3.根據權利要求2所述的計算機實現的方法,其中,對應于所述鑒別器和所述策略生成器的所述動態系統是通過所述第一目標函數和所述第二目標函數相對于時間的導數來確定的。
4.根據權利要求2所述的計算機實現的方法,其中,在所述鑒別器的輸出等于1/2并且所述策略生成器的輸出與所述演示者的行為匹配的情況下,達到所述動態系統的均衡。
5.根據權利要求2所述的計算機實現的方法,其中,所述第一控制器和所述第二控制器受到漸近穩定性原理的約束,以便保持所述動態系統在所述均衡附近穩定。
6.根據權利要求1所述的計算機實現的方法,其中,所述演示數據包括在駕駛期間駕駛員行為和道路環境的記錄,并且其中,所述神經網絡被訓練用于自主駕駛。
7.根據權利要求1所述的計算機實現的方法,其中,所述演示數據包括在移動期間人類移動路徑和所述人類的周圍環境的記錄,并且其中,所述神經網絡被訓練用于機器人控制。
8.一種用于利用如權利要求1至7中的一項所述的方法訓練的神經網絡模型來控制智能體的方法,包括:
9.一種能夠自主駕駛的車輛,包括:
10.一種機器人,包括:
11.一種計算機系統,包括:
12.一種或多種存儲計算機可執行指令的計算機可讀存儲介質,所述計算機可執行指令在被執行時使一個或多個處理器執行如權利要求1至10中的一項所述的方法的操作。
13.一種包括計算機可執行指令的計算機程序產品,所述計算機可執行指令在被執行時使一個或多個處理器執行如權利要求1至10中的一項所述的方法的操作。