本申請涉及人工智能,尤其涉及一種模型更新方法、裝置、電子設備和存儲介質。
背景技術:
1、在電子游戲的快速迭代環境中,ai(artificial?intelligence,人工智能)智能體的訓練與優化可以提升玩家的游戲體驗和增強競技公平性。當前主流的ai訓練方法通常依賴于歷史游戲數據構建訓練集,通過監督學習或強化學習訓練模型以模擬玩家操作行為。然而,游戲的頻繁版本迭代(如數值調整、地圖修改等)導致玩家行為的模式改變,會引發訓練數據的偏移,進而使現有ai模型的性能下降或模擬的行為出現異常。
技術實現思路
1、本申請實施例提供一種模型更新方法、裝置、電子設備和存儲介質,通過循環更新受控虛擬角色的樣本集合,得到更新后的樣本集合以訓練目標虛擬角色模型,確保目標虛擬角色模型學習到玩家最新、最有效的游戲行為。
2、第一方面,本申請實施例提供一種模型更新方法,所述方法包括:
3、通過目標游戲的游戲服務器,在滿足數據收集條件時獲取目標游戲的至少一個游戲交互過程的記錄數據;
4、對所述記錄數據進行特征提取,得到所述記錄數據的特征數據,其中,所述特征數據用于更新受控虛擬角色的樣本集合,以訓練用于模擬游戲賬號的受控虛擬角色的游戲行為的目標虛擬角色模型;
5、對所述記錄數據的特征數據進行處理,得到所述受控虛擬角色的訓練數據;
6、基于所述受控虛擬角色的訓練數據對所述受控虛擬角色的樣本集合進行更新,得到所述受控虛擬角色的更新后的樣本集合;
7、響應于滿足目標游戲中的目標虛擬角色模型的迭代更新條件,基于所述更新后的樣本集合,更新所述受控虛擬角色對應的目標虛擬角色模型。
8、第二方面,本申請實施例提供一種模型更新裝置,所述裝置包括:
9、獲取模塊,用于通過目標游戲的游戲服務器,在滿足數據收集條件時獲取目標游戲的至少一個游戲交互過程的記錄數據;
10、提取模塊,用于對所述記錄數據進行特征提取,得到所述記錄數據的特征數據,其中,所述特征數據用于更新受控虛擬角色的樣本集合,以訓練用于模擬游戲賬號的受控虛擬角色的游戲行為的目標虛擬角色模型;
11、處理模塊,用于對所述記錄數據的特征數據進行處理,得到所述受控虛擬角色的訓練數據;
12、第一更新模塊,用于基于所述受控虛擬角色的訓練數據對所述受控虛擬角色的樣本集合進行更新,得到所述受控虛擬角色的更新后的樣本集合;
13、第二更新模塊,用于響應于滿足目標游戲中的目標虛擬角色模型的迭代更新條件,基于所述更新后的樣本集合,更新所述受控虛擬角色對應的目標虛擬角色模型。
14、第三方面,本申請實施例還提供一種電子設備,其包括處理器和存儲器,其中,所述存儲器存儲有計算機程序,當所述計算機程序被所述處理器執行時,使得所述處理器執行任一模型更新方法的步驟。
15、第四方面,本申請實施例還提供一種計算機可讀存儲介質,其包括處理器和存儲器,其中,所述存儲器存儲有計算機程序,當所述計算機程序被所述處理器執行時,使得所述處理器執行任一模型更新方法的步驟。
16、第五方面,本申請實施例還提供一種計算機程序產品,包括計算機程序,所述計算機程序存儲在計算機可讀存儲介質中;當電子設備的處理器從所述計算機可讀存儲介質讀取所述計算機程序時,所述處理器執行所述計算機程序,使得所述電子設備執行本申請實施例所提供的任一種所述模型更新方法的步驟。
17、采用本申請實施例的方案,通過將記錄數據轉化為訓練數據并用于更新受控虛擬角色的樣本集合,并利用更新后的樣本集合執行模型訓練,使目標虛擬角色模型能夠基于最新的記錄數據的特征數據進行學習,目標虛擬角色模型能夠根據目標游戲的變化,更高效地獲得與當前的目標游戲相匹配的更新后的目標虛擬角色模型,提升目標虛擬角色模型在當前的目標游戲中對玩家的操作行為模擬的準確性。
1.一種模型更新方法,其特征在于,所述方法包括:
2.根據權利要求1所述的模型更新方法,其特征在于,所述記錄數據包括多個數據包,其中,每一個所述數據包記錄所述游戲交互過程的一個時間點所對應的游戲狀態數據,
3.根據權利要求2所述的模型更新方法,其特征在于,所述對所述記錄數據的特征數據進行處理,得到所述受控虛擬角色的訓練數據,包括:
4.根據權利要求1所述的模型更新方法,其特征在于,所述方法還包括:
5.根據權利要求1所述的模型更新方法,其特征在于,所述基于所述更新后的樣本集合,更新所述受控虛擬角色對應的目標虛擬角色模型,包括:
6.根據權利要求5所述的模型更新方法,其特征在于,所述基于所述目標游戲的更新信息確定所述目標虛擬角色模型的目標訓練策略,包括:
7.根據權利要求6所述的模型更新方法,其特征在于,所述第一條件包括目標游戲內容的類型屬于第一指定類型,或屬于第一指定類型的目標游戲內容的數量不超過預設數量閾值;
8.根據權利要求1~7任一項所述的模型更新方法,其特征在于,所述基于所述受控虛擬角色的訓練數據對所述受控虛擬角色的樣本集合進行更新,得到所述受控虛擬角色的更新后的樣本集合之后,所述方法還包括:
9.根據權利要求1~7任一項所述的模型更新方法,其特征在于,所述訓練數據包括離散型特征,所述基于所述更新后的樣本集合,更新所述受控虛擬角色對應的目標虛擬角色模型之前,包括:
10.根據權利要求1~7任一項所述的模型更新方法,其特征在于,所述訓練數據包括連續型特征;所述基于所述更新后的樣本集合,更新所述受控虛擬角色對應的目標虛擬角色模型之前,還包括:
11.一種模型更新裝置,其特征在于,所述裝置包括:
12.一種電子設備,其特征在于,其包括處理器和存儲器,其中,所述存儲器存儲有計算機程序,當所述計算機程序被所述處理器執行時,使得所述處理器執行權利要求1~10中任一所述的模型更新方法的步驟。
13.一種計算機可讀存儲介質,其特征在于,其包括計算機程序,當所述計算機程序在電子設備上運行時,所述計算機程序用于使所述電子設備執行權利要求1~10中任一所述的模型更新方法的步驟。