本申請涉及具身智能領域,特別是涉及一種具身智能的越獄攻擊檢測方法、系統及設備。
背景技術:
1、隨著大語言模型(large?language?model,llm)?在具身智能領域的應用,具身智能獲得了理解自然語言并將其轉化為控制策略代碼的能力。然而,llm本身存在安全漏洞,容易受到越獄攻擊的影響。
2、現有技術存在的問題:目前的越獄攻擊研究主要集中在純文本對話領域。當直接將這些攻擊方法(如gcg,gptfuzzer)應用于具身智能時,存在嚴重的不適用性:
3、優化目標偏差:傳統越獄攻擊僅優化“讓模型不拒絕”,但未考慮生成的控制策略代碼是否符合python語法或具身智能api規范。導致模型雖然同意了請求,但生成的控制策略代碼無法執行和產生有害行為。
4、評估標準失效:傳統評估僅看回復中是否有敏感詞。但在具身智能領域,必須代碼能運行且產生物理傷害才算成功。現有評估器無法檢測控制策略代碼的有效性。
技術實現思路
1、本申請的目的是提供一種具身智能的越獄攻擊檢測方法、系統及設備,以解決無法檢測控制策略代碼的有效性的問題。
2、為實現上述目的,本申請提供了如下方案:
3、第一方面,本申請提供了一種具身智能的越獄攻擊檢測方法,包括:
4、構建以“人-物體-環境“風險為中心的具身智能安全數據集;所述具身智能安全數據集包括有害指令和對應的仿真場景;
5、隨機初始化對抗后綴,并設置單詞級約束;所述單詞級約束用于限定所述對抗后綴的token必須為可發音的英文單詞,且具備可發音性;
6、基于輔助llm和目標llm,根據所述有害指令和所述對抗后綴,確定損失函數;所述輔助llm,為未對齊模型,用于將有害指令直接映射至策略有效的語義子空間;所述目標llm為對齊模型;
7、計算所述損失函數相對于所述對抗后綴中每個token的梯度,并依據所述梯度更新所述對抗后綴,確定優化后的對抗后綴;
8、將附加有所述優化后的對抗后綴的有害指令輸入至目標具身智能的基于llm的規劃模塊中,生成控制策略代碼;
9、利用多個級聯的llm智能體對所述控制策略代碼進行自動化評估,判定是否構成有效越獄。
10、第二方面,本申請提供了一種具身智能的越獄攻擊檢測系統,包括:
11、具身智能安全風險數據集構建模塊,用于構建以“人-物體-環境“風險為中心的具身智能安全數據集;所述具身智能安全數據集包括有害指令和對應的仿真場景;
12、初始化模塊,用于隨機初始化對抗后綴,并設置單詞級約束;所述單詞級約束用于限定所述對抗后綴的token必須為可發音的英文單詞,且具備可發音性;
13、損失函數確定模塊,用于基于輔助llm和目標llm,根據所述有害指令和所述對抗后綴,確定損失函數;所述輔助llm,為未對齊模型,用于將有害指令直接映射至策略有效的語義子空間;所述目標llm為對齊模型;
14、對抗后綴優化模塊,用于計算所述損失函數相對于所述對抗后綴中每個token的梯度,并依據所述梯度更新所述對抗后綴,確定優化后的對抗后綴;
15、控制策略代碼生成模塊,用于將附加有所述優化后的對抗后綴的有害指令輸入至目標具身智能的基于llm的規劃模塊中,生成控制策略代碼;
16、自動化評估模塊,用于利用多個級聯的llm智能體對所述控制策略代碼進行自動化評估,判定是否構成有效越獄。
17、第三方面,本申請提供了一種計算機設備,包括:存儲器、處理器以及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述計算機程序以實現上述的具身智能的越獄攻擊檢測方法。
18、根據本申請提供的具體實施例,本申請具有以下技術效果:
19、本申請構建以“人-物體-環境“風險為中心的具身智能安全數據集,隨機初始化對抗后綴,并設置單詞級約束,使得生成的對抗后綴由發音正常的英文單詞組成,而非亂碼,確保了攻擊可以通過語音通道對具身智能實施,又基于輔助llm和目標llm,根據有害指令和對抗后綴,確定損失函數,其中,輔助llm為未對齊模型,利用未對齊模型引導,使得生成的攻擊指令在多個目標llm上的物理執行成功率顯著提高,降低了優化目標偏差;計算損失函數相對于對抗后綴中每個token的梯度,更新對抗后綴,確定優化后的對抗后綴,以輸入至目標具身智能的基于llm的規劃模塊中,生成控制策略代碼,該控制策略代碼不僅包含惡意意圖,而且符合具身智能的物理約束,從而解決了現有生成的代碼空有惡意而無法運行的問題,保證了生成的控制策略代碼具備物理可執行性,避免了評估標準失效的問題,提高了控制策略代的有效性并提升了具身智能控制策略代碼有效性評估準確率。
1.一種具身智能的越獄攻擊檢測方法,其特征在于,包括:
2.根據權利要求1所述的具身智能的越獄攻擊檢測方法,其特征在于,基于輔助llm和目標llm,根據所述有害指令和所述對抗后綴,確定損失函數,具體包括:
3.根據權利要求2所述的具身智能的越獄攻擊檢測方法,其特征在于,所述損失函數為:
4.根據權利要求1所述的具身智能的越獄攻擊檢測方法,其特征在于,計算所述損失函數相對于所述對抗后綴中每個token的梯度,并依據所述梯度更新所述對抗后綴,確定優化后的對抗后綴,具體包括:
5.根據權利要求1所述的具身智能的越獄攻擊檢測方法,其特征在于,所述多個級聯的llm智能體包括接受性智能體、有害性智能體、邏輯性智能體以及簡潔性智能體。
6.根據權利要求5所述的具身智能的越獄攻擊檢測方法,其特征在于,利用多個級聯的llm智能體對所述控制策略代碼進行自動化評估,判定是否構成有效越獄,具體包括:
7.一種具身智能的越獄攻擊檢測系統,其特征在于,所述具身智能的越獄攻擊檢測系統執行權利要求1-6任一項所述的具身智能的越獄攻擊檢測方法,所述具身智能的越獄攻擊檢測系統包括:
8.一種計算機設備,包括:存儲器、處理器以及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序以實現權利要求1-6中任一項所述的具身智能的越獄攻擊檢測方法。