本發明屬于圖像描述,尤其涉及一種基于提示向量與clip獎懲機制的圖像描述方法及裝置。
背景技術:
1、近年來,隨著深度學習技術和多模態智能技術的快速發展,視覺-語言聯合建模逐漸成為圖像描述與語義生成領域的重要研究方向。基于大規模圖像-文本數據訓練的預訓練視覺-語言模型,在圖像描述與語言生成任務中展現出良好的通用性,為復雜場景下的圖像描述提供了新的技術手段。
2、在實際應用中,圖像描述技術已被廣泛應用于目標描述、場景理解、人機交互等任務。然而,在復雜場景下,圖像中往往存在目標模糊、關鍵信息缺失、背景噪聲干擾嚴重以及目標語義不確定等問題,使得模型難以準確理解圖像所包含的核心語義信息,對語義生成方法的魯棒性和可靠性提出了更高要求。
3、現有的語義生成方法通常依賴預訓練視覺-語言模型,通過引入提示信息或微調映射網絡實現圖像到文本的語義生成。從實現方式上看,相關方案大多通過以下途徑完成語義生成任務:一是利用大規模圖像-文本對對模型進行監督訓練,使模型學習圖像與文本之間的對應關系;二是直接利用預訓練模型的零樣本能力,在推理階段通過提示詞引導模型生成描述文本;三是通過自監督方式訓練語言生成模塊,依賴預訓練模型的跨域遷移能力實現圖像語義表達。
4、上述方法在標準場景或信息完備條件下能夠取得一定效果,但在復雜場景中,由于圖像信息不完整或目標語義存在不確定性,模型往往難以準確聚焦于圖像中的關鍵目標,生成結果容易受到語言先驗或外部文本信息的影響,導致語義偏移或生成內容與圖像事實不一致的問題。因此,如何在復雜場景下實現穩定、可信的圖像語義生成,仍是現有技術需要解決的關鍵問題。
技術實現思路
1、本發明的目的是提供一種基于提示向量與clip獎懲機制的圖像描述方法及裝置,以在提升語義描述的語言邏輯性的同時抑制視覺幻覺現象。
2、本發明采用以下技術方案:基于提示向量與clip獎懲機制的圖像描述方法,包括以下步驟:
3、獲取輸入圖像;
4、基于clip模型的圖像編碼器生成輸入圖像的圖像嵌入向量,基于圖像嵌入向量從預設文本庫中篩選出輸入圖像的若干個近鄰文本;
5、基于clip模型的文本編碼器生成近鄰文本的文本嵌入向量,并根據其他近鄰文本的文本嵌入向量對當前近鄰文本的文本嵌入向量進行加權處理,將加權處理后的所有文本嵌入向量作為輸入圖像的軟提示并輸入語義生成解碼器;
6、語義生成解碼器根據軟提示和硬提示生成輸入圖像的語義描述;其中,硬提示為近鄰文本中的關鍵詞組成的詞組。
7、本發明的另一種技術方案:基于提示向量與clip獎懲機制的圖像描述裝置,包括存儲器、處理器以及存儲在存儲器中并在處理器上運行的計算機程序,處理器執行計算機程序時實現上述的方法。
8、本發明的有益效果是:本發明方法基于檢索增強的軟提示機制,利用預設文本庫篩選并加權近鄰文本,引導語義生成解碼器學習符合自然語言邏輯的語義風格,同時結合硬提示能有效抑制視覺幻覺現象,并提升對實體以及關系的理解能力,使輸出的語義描述更符合輸入圖像的特征。
1.基于提示向量與clip獎懲機制的圖像描述方法,其特征在于,包括以下步驟:
2.如權利要求1所述的基于提示向量與clip獎懲機制的圖像描述方法,其特征在于,所述加權處理的方法包括:
3.如權利要求2所述的基于提示向量與clip獎懲機制的圖像描述方法,其特征在于,所述硬提示的生成方法為:
4.如權利要求2或3所述的基于提示向量與clip獎懲機制的圖像描述方法,其特征在于,在所述語義生成解碼器進行訓練時,凍結所述clip模型的文本編碼器和圖像編碼器。
5.如權利要求4所述的基于提示向量與clip獎懲機制的圖像描述方法,其特征在于,在所述語義生成解碼器進行訓練時,從所述預設文本庫中選擇候選文本作為輸入文本來替代所述輸入圖像。
6.如權利要求5所述的基于提示向量與clip獎懲機制的圖像描述方法,其特征在于,在所述語義生成解碼器進行訓練時:
7.如權利要求6所述的基于提示向量與clip獎懲機制的圖像描述方法,其特征在于,在所述語義生成解碼器進行訓練時,隨機丟棄預定比例的關鍵詞。
8.如權利要求5-7任一項所述的基于提示向量與clip獎懲機制的圖像描述方法,其特征在于,在所述語義生成解碼器進行訓練時,損失函數包括帶有標簽平滑的交叉熵損失函數;
9.如權利要求8所述的基于提示向量與clip獎懲機制的圖像描述方法,其特征在于,所述損失函數還包括向量對齊損失函數;
10.基于提示向量與clip獎懲機制的圖像描述裝置,包括存儲器、處理器以及存儲在所述存儲器中并在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1-9任一項所述的方法。