1. <rt id="e600n"></rt>
      1. <pre id="e600n"><strong id="e600n"><pre id="e600n"></pre></strong></pre>
      2. 岛国免费AV,无码人妻精品一区二区三区夜夜嗨,又大又粗又硬又爽黄毛少妇,精品国产AV二区,91视频最新网址,久操无码,久久无码人妻一区二区三区午夜,国产精品视频中文字幕

        基于提示向量與CLIP獎懲機制的圖像描述方法及裝置

        文檔序號:45273609發布日期:2026-04-17 20:17閱讀:18來源:國知局

        本發明屬于圖像描述,尤其涉及一種基于提示向量與clip獎懲機制的圖像描述方法及裝置。


        背景技術:

        1、近年來,隨著深度學習技術和多模態智能技術的快速發展,視覺-語言聯合建模逐漸成為圖像描述與語義生成領域的重要研究方向。基于大規模圖像-文本數據訓練的預訓練視覺-語言模型,在圖像描述與語言生成任務中展現出良好的通用性,為復雜場景下的圖像描述提供了新的技術手段。

        2、在實際應用中,圖像描述技術已被廣泛應用于目標描述、場景理解、人機交互等任務。然而,在復雜場景下,圖像中往往存在目標模糊、關鍵信息缺失、背景噪聲干擾嚴重以及目標語義不確定等問題,使得模型難以準確理解圖像所包含的核心語義信息,對語義生成方法的魯棒性和可靠性提出了更高要求。

        3、現有的語義生成方法通常依賴預訓練視覺-語言模型,通過引入提示信息或微調映射網絡實現圖像到文本的語義生成。從實現方式上看,相關方案大多通過以下途徑完成語義生成任務:一是利用大規模圖像-文本對對模型進行監督訓練,使模型學習圖像與文本之間的對應關系;二是直接利用預訓練模型的零樣本能力,在推理階段通過提示詞引導模型生成描述文本;三是通過自監督方式訓練語言生成模塊,依賴預訓練模型的跨域遷移能力實現圖像語義表達。

        4、上述方法在標準場景或信息完備條件下能夠取得一定效果,但在復雜場景中,由于圖像信息不完整或目標語義存在不確定性,模型往往難以準確聚焦于圖像中的關鍵目標,生成結果容易受到語言先驗或外部文本信息的影響,導致語義偏移或生成內容與圖像事實不一致的問題。因此,如何在復雜場景下實現穩定、可信的圖像語義生成,仍是現有技術需要解決的關鍵問題。


        技術實現思路

        1、本發明的目的是提供一種基于提示向量與clip獎懲機制的圖像描述方法及裝置,以在提升語義描述的語言邏輯性的同時抑制視覺幻覺現象。

        2、本發明采用以下技術方案:基于提示向量與clip獎懲機制的圖像描述方法,包括以下步驟:

        3、獲取輸入圖像;

        4、基于clip模型的圖像編碼器生成輸入圖像的圖像嵌入向量,基于圖像嵌入向量從預設文本庫中篩選出輸入圖像的若干個近鄰文本;

        5、基于clip模型的文本編碼器生成近鄰文本的文本嵌入向量,并根據其他近鄰文本的文本嵌入向量對當前近鄰文本的文本嵌入向量進行加權處理,將加權處理后的所有文本嵌入向量作為輸入圖像的軟提示并輸入語義生成解碼器;

        6、語義生成解碼器根據軟提示和硬提示生成輸入圖像的語義描述;其中,硬提示為近鄰文本中的關鍵詞組成的詞組。

        7、本發明的另一種技術方案:基于提示向量與clip獎懲機制的圖像描述裝置,包括存儲器、處理器以及存儲在存儲器中并在處理器上運行的計算機程序,處理器執行計算機程序時實現上述的方法。

        8、本發明的有益效果是:本發明方法基于檢索增強的軟提示機制,利用預設文本庫篩選并加權近鄰文本,引導語義生成解碼器學習符合自然語言邏輯的語義風格,同時結合硬提示能有效抑制視覺幻覺現象,并提升對實體以及關系的理解能力,使輸出的語義描述更符合輸入圖像的特征。


        技術特征:

        1.基于提示向量與clip獎懲機制的圖像描述方法,其特征在于,包括以下步驟:

        2.如權利要求1所述的基于提示向量與clip獎懲機制的圖像描述方法,其特征在于,所述加權處理的方法包括:

        3.如權利要求2所述的基于提示向量與clip獎懲機制的圖像描述方法,其特征在于,所述硬提示的生成方法為:

        4.如權利要求2或3所述的基于提示向量與clip獎懲機制的圖像描述方法,其特征在于,在所述語義生成解碼器進行訓練時,凍結所述clip模型的文本編碼器和圖像編碼器。

        5.如權利要求4所述的基于提示向量與clip獎懲機制的圖像描述方法,其特征在于,在所述語義生成解碼器進行訓練時,從所述預設文本庫中選擇候選文本作為輸入文本來替代所述輸入圖像。

        6.如權利要求5所述的基于提示向量與clip獎懲機制的圖像描述方法,其特征在于,在所述語義生成解碼器進行訓練時:

        7.如權利要求6所述的基于提示向量與clip獎懲機制的圖像描述方法,其特征在于,在所述語義生成解碼器進行訓練時,隨機丟棄預定比例的關鍵詞。

        8.如權利要求5-7任一項所述的基于提示向量與clip獎懲機制的圖像描述方法,其特征在于,在所述語義生成解碼器進行訓練時,損失函數包括帶有標簽平滑的交叉熵損失函數;

        9.如權利要求8所述的基于提示向量與clip獎懲機制的圖像描述方法,其特征在于,所述損失函數還包括向量對齊損失函數;

        10.基于提示向量與clip獎懲機制的圖像描述裝置,包括存儲器、處理器以及存儲在所述存儲器中并在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1-9任一項所述的方法。


        技術總結
        本發明屬于圖像描述技術領域,公開了基于提示向量與CLIP獎懲機制的圖像描述方法及裝置,獲取輸入圖像;基于CLIP模型的圖像編碼器生成輸入圖像的圖像嵌入向量,基于圖像嵌入向量從預設文本庫中篩選出輸入圖像的若干個近鄰文本;基于CLIP模型的文本編碼器生成近鄰文本的文本嵌入向量,并根據其他近鄰文本的文本嵌入向量對當前近鄰文本的文本嵌入向量進行加權處理,將加權處理后的所有文本嵌入向量作為輸入圖像的軟提示并輸入語義生成解碼器;語義生成解碼器根據軟提示和硬提示生成輸入圖像的語義描述;本發明方法可以在提升語義描述的語言邏輯性的同時抑制視覺幻覺現象,使輸出的語義描述更符合輸入圖像的特征。

        技術研發人員:張作偉,申瑞,劉傳琦,王祎琨,劉宏偉,段一得,楊才興
        受保護的技術使用者:西北工業大學
        技術研發日:
        技術公布日:2026/4/16
        網友詢問留言 留言:0條
        • 還沒有人留言評論。精彩留言會獲得點贊!
        主站蜘蛛池模板: 国产免费无遮挡吸奶头视频| 亚洲男人天堂| 在线观看潮喷失禁大喷水无码| 邳州市| 天天综合色天天综合网| 国产果冻豆传媒麻婆精东| 【乱子伦】国产精品11| 69人妻精品丰满熟女区| 色婷婷综合久色aⅴ五区最新| 国产老妇伦国产熟女老妇高清| 色综合久久无码五十路人妻| 国产精品一区二区在线影院| 日韩av在线不卡一区二区三区| 五月天婷婷在在线视频| 国产精品冒白浆免费视频| 久久人妻无码一区二区三区av| 影音先锋啪啪av资源网站| 性欧美丰满熟妇xxxx性久久久| 欧美成人亚洲综合精品欧美激情| 国产精品老年自拍视频| 真人无码作爱免费视频| 人妻综合另类精品| 天堂av在线播放免费| 人妻少妇白浆| 亚洲乱码一二三四区国产| 亚洲自拍制服| 欧美精品无码| 日本高清中文字幕二区在线| 欧洲中文字幕一区二区| 精品无码产区一区二| 日韩欧美亚洲| 911亚洲国产自产| 日韩欧美视频一区二区三区| 欧美人成在线播放网站免费| 最新日韩无码中文字幕| 久久精品国产久精国产一老狼| 中文字幕在线一区乱码| 日韩免费中文字幕| 西西午夜无码大胆啪啪国模| 国产三级精品三级在线看| 精品一区二区免费不卡|