1. <rt id="e600n"></rt>
      1. <pre id="e600n"><strong id="e600n"><pre id="e600n"></pre></strong></pre>
      2. 岛国免费AV,无码人妻精品一区二区三区夜夜嗨,又大又粗又硬又爽黄毛少妇,精品国产AV二区,91视频最新网址,久操无码,久久无码人妻一区二区三区午夜,国产精品视频中文字幕

        一種具身智能的越獄攻擊檢測方法、系統及設備

        文檔序號:45765506發布日期:2026-06-10 01:04閱讀:1來源:國知局

        本申請涉及具身智能領域,特別是涉及一種具身智能的越獄攻擊檢測方法、系統及設備。


        背景技術:

        1、隨著大語言模型(large?language?model,llm)?在具身智能領域的應用,具身智能獲得了理解自然語言并將其轉化為控制策略代碼的能力。然而,llm本身存在安全漏洞,容易受到越獄攻擊的影響。

        2、現有技術存在的問題:目前的越獄攻擊研究主要集中在純文本對話領域。當直接將這些攻擊方法(如gcg,gptfuzzer)應用于具身智能時,存在嚴重的不適用性:

        3、優化目標偏差:傳統越獄攻擊僅優化“讓模型不拒絕”,但未考慮生成的控制策略代碼是否符合python語法或具身智能api規范。導致模型雖然同意了請求,但生成的控制策略代碼無法執行和產生有害行為。

        4、評估標準失效:傳統評估僅看回復中是否有敏感詞。但在具身智能領域,必須代碼能運行且產生物理傷害才算成功。現有評估器無法檢測控制策略代碼的有效性。


        技術實現思路

        1、本申請的目的是提供一種具身智能的越獄攻擊檢測方法、系統及設備,以解決無法檢測控制策略代碼的有效性的問題。

        2、為實現上述目的,本申請提供了如下方案:

        3、第一方面,本申請提供了一種具身智能的越獄攻擊檢測方法,包括:

        4、構建以“人-物體-環境“風險為中心的具身智能安全數據集;所述具身智能安全數據集包括有害指令和對應的仿真場景;

        5、隨機初始化對抗后綴,并設置單詞級約束;所述單詞級約束用于限定所述對抗后綴的token必須為可發音的英文單詞,且具備可發音性;

        6、基于輔助llm和目標llm,根據所述有害指令和所述對抗后綴,確定損失函數;所述輔助llm,為未對齊模型,用于將有害指令直接映射至策略有效的語義子空間;所述目標llm為對齊模型;

        7、計算所述損失函數相對于所述對抗后綴中每個token的梯度,并依據所述梯度更新所述對抗后綴,確定優化后的對抗后綴;

        8、將附加有所述優化后的對抗后綴的有害指令輸入至目標具身智能的基于llm的規劃模塊中,生成控制策略代碼;

        9、利用多個級聯的llm智能體對所述控制策略代碼進行自動化評估,判定是否構成有效越獄。

        10、第二方面,本申請提供了一種具身智能的越獄攻擊檢測系統,包括:

        11、具身智能安全風險數據集構建模塊,用于構建以“人-物體-環境“風險為中心的具身智能安全數據集;所述具身智能安全數據集包括有害指令和對應的仿真場景;

        12、初始化模塊,用于隨機初始化對抗后綴,并設置單詞級約束;所述單詞級約束用于限定所述對抗后綴的token必須為可發音的英文單詞,且具備可發音性;

        13、損失函數確定模塊,用于基于輔助llm和目標llm,根據所述有害指令和所述對抗后綴,確定損失函數;所述輔助llm,為未對齊模型,用于將有害指令直接映射至策略有效的語義子空間;所述目標llm為對齊模型;

        14、對抗后綴優化模塊,用于計算所述損失函數相對于所述對抗后綴中每個token的梯度,并依據所述梯度更新所述對抗后綴,確定優化后的對抗后綴;

        15、控制策略代碼生成模塊,用于將附加有所述優化后的對抗后綴的有害指令輸入至目標具身智能的基于llm的規劃模塊中,生成控制策略代碼;

        16、自動化評估模塊,用于利用多個級聯的llm智能體對所述控制策略代碼進行自動化評估,判定是否構成有效越獄。

        17、第三方面,本申請提供了一種計算機設備,包括:存儲器、處理器以及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述計算機程序以實現上述的具身智能的越獄攻擊檢測方法。

        18、根據本申請提供的具體實施例,本申請具有以下技術效果:

        19、本申請構建以“人-物體-環境“風險為中心的具身智能安全數據集,隨機初始化對抗后綴,并設置單詞級約束,使得生成的對抗后綴由發音正常的英文單詞組成,而非亂碼,確保了攻擊可以通過語音通道對具身智能實施,又基于輔助llm和目標llm,根據有害指令和對抗后綴,確定損失函數,其中,輔助llm為未對齊模型,利用未對齊模型引導,使得生成的攻擊指令在多個目標llm上的物理執行成功率顯著提高,降低了優化目標偏差;計算損失函數相對于對抗后綴中每個token的梯度,更新對抗后綴,確定優化后的對抗后綴,以輸入至目標具身智能的基于llm的規劃模塊中,生成控制策略代碼,該控制策略代碼不僅包含惡意意圖,而且符合具身智能的物理約束,從而解決了現有生成的代碼空有惡意而無法運行的問題,保證了生成的控制策略代碼具備物理可執行性,避免了評估標準失效的問題,提高了控制策略代的有效性并提升了具身智能控制策略代碼有效性評估準確率。


        技術特征:

        1.一種具身智能的越獄攻擊檢測方法,其特征在于,包括:

        2.根據權利要求1所述的具身智能的越獄攻擊檢測方法,其特征在于,基于輔助llm和目標llm,根據所述有害指令和所述對抗后綴,確定損失函數,具體包括:

        3.根據權利要求2所述的具身智能的越獄攻擊檢測方法,其特征在于,所述損失函數為:

        4.根據權利要求1所述的具身智能的越獄攻擊檢測方法,其特征在于,計算所述損失函數相對于所述對抗后綴中每個token的梯度,并依據所述梯度更新所述對抗后綴,確定優化后的對抗后綴,具體包括:

        5.根據權利要求1所述的具身智能的越獄攻擊檢測方法,其特征在于,所述多個級聯的llm智能體包括接受性智能體、有害性智能體、邏輯性智能體以及簡潔性智能體。

        6.根據權利要求5所述的具身智能的越獄攻擊檢測方法,其特征在于,利用多個級聯的llm智能體對所述控制策略代碼進行自動化評估,判定是否構成有效越獄,具體包括:

        7.一種具身智能的越獄攻擊檢測系統,其特征在于,所述具身智能的越獄攻擊檢測系統執行權利要求1-6任一項所述的具身智能的越獄攻擊檢測方法,所述具身智能的越獄攻擊檢測系統包括:

        8.一種計算機設備,包括:存儲器、處理器以及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序以實現權利要求1-6中任一項所述的具身智能的越獄攻擊檢測方法。


        技術總結
        本申請公開了一種具身智能的越獄攻擊檢測方法、系統及設備,涉及具身智能領域,該方法包括:構建以“人?物體?環境“風險為中心的具身智能安全數據集;隨機初始化對抗后綴,并設置單詞級約束;基于輔助LLM和目標LLM,根據有害指令和對抗后綴,確定損失函數;計算損失函數相對于對抗后綴中每個Token的梯度,并依據梯度更新對抗后綴,確定優化后的對抗后綴;將附加有優化后的對抗后綴的有害指令輸入至目標具身智能的基于LLM的規劃模塊中,生成控制策略代碼;利用多個級聯的LLM模型智能體對控制策略代碼進行自動化評估,判定是否構成有效越獄,本申請提高了控制策略代的有效性,并提升了具身智能控制策略代碼有效性評估準確率。

        技術研發人員:冀曉宇,徐文淵,陸炫存
        受保護的技術使用者:浙江大學
        技術研發日:
        技術公布日:2026/6/9
        網友詢問留言 留言:0條
        • 還沒有人留言評論。精彩留言會獲得點贊!
        主站蜘蛛池模板: 亚洲国产另类久久久精品网站| 日韩国产亚洲欧美成人图片| a片网| 芮城县| 国产又湿又打又硬网站视频| 强奷乱码欧妇女中文字幕熟女| 熟女福利导航| 一区二区人妻| 亚洲av粉嫩性色av| 漂亮人妻中文字幕丝袜| 亚洲成a人片在线观看www| 极品人妻少妇一区二区三区 | 玖玖视频| 亚洲成AV人片在线观看无| a级在线| 久久99热只有频精品6狠狠| 国片A伏AAAA| 国产精品三级视频自拍| 隔壁老王国产在线精品| 国产色悠悠视频在线观看| 亚洲人人爱| 亚洲熟妇自拍偷拍av| 99在线精品免费视频| 在国产线视频A在线视频| 久久青青草原国产毛片| 神马午夜久久精品人妻| 日本乱码伦视频免费播放| 国产AⅤ爽aV久久久久成人| 日本专区dvd中文字幕在线| 熟妇激情一区二区三区| 国产亚洲精品久久777777| 手机看片福利日韩国产| 垫江县| 人妻综合页| 中文一区操| 男人天堂2024在线| 久久中文字幕一区二区| 九九热精品视频在线免费| 国产色在线| 五月婷婷久久中文字幕| 国产亚洲精品??码|