本發明提供一種基于dinov2視覺模型的多模態零樣本檢測方法,屬于自動化視覺檢測。
背景技術:
1、自動化視覺檢測技術已成為現代工業生產的核心環節。尤其在半導體、電子元件、汽車零部件等高精度制造領域,生產線上的缺陷檢測直接關乎產品質量控制與生產成本優化。相較于傳統人工檢測方法存在的效率低下、漏檢率高、誤判風險大等缺陷,基于深度學習的視覺檢測模型通過計算機視覺與人工智能技術融合,顯著提升了檢測精度與效率,逐步成為工業質量管控的關鍵技術支撐。
2、然而,工業場景下缺陷檢測面臨根本性挑戰:異常樣本的極端稀疏性與形態多樣性。具體表現為:
3、(1)長尾分布特性顯著:劃痕、凹坑、變色等缺陷在空間形態、顏色紋理及尺寸尺度上呈現高度異質性,導致可獲取的異常樣本稀少且分布極度不均衡;
4、(2)現有技術存在三重局限:
5、泛化瓶頸:主流方法(包括基于特征嵌入、圖像重建及人工異常模擬的技術)需依賴任務相關訓練數據,對未見缺陷類型(尤其零樣本/少樣本場景)適應性差;
6、部署壁壘:新檢測任務需重新采集標注數據并訓練專用模型,難以支持產線快速換型與靈活部署;
7、定位精度與成本矛盾:像素級異常分割需大量密集標注樣本支撐,實際生產中異常區域標注成本高昂且難以規?;@取。
8、因此,突破現有方法對標注數據與定制模型的強依賴性,研發一種無需任務相關訓練、可快速遷移至新型缺陷的通用化視覺異常識別方案,已成為工業質量檢測領域亟待解決的技術難題。
9、因此,當前工業異常檢測領域,特別是在冷啟動(僅使用正常樣本)場景下,存在顯著的技術局限性?;谥亟ǖ姆椒y以準確建模復雜工業對象的正常結構,對微小或結構變化的缺陷敏感度不足,且容易因重建不完美產生大量誤報?;陬A訓練特征匹配的方法雖取得進展,但面臨特征層級選擇困境:高層imagenet特征存在領域偏差且丟失關鍵局部細節,而低層特征又缺乏足夠語義信息;同時,有效利用大量正常樣本信息與保持低推理延遲之間存在難以平衡的矛盾,受限于高層特征偏差和計算瓶頸,則依賴于圖像對齊和固定位置約束,限制了靈活性和上下文利用。
10、這些技術局限嚴重制約了工業缺陷檢測系統的準確性、魯棒性和實際部署效率。尤其是在追求高召回率以保障產品質量的嚴苛場景下,需要將檢測誤差降至最低。現有方法難以同時達到近乎完美的圖像級檢測精度、精細的像素級定位能力以及滿足工業實時性要求的低延遲推理。因此,迫切需要一種能夠突破上述核心限制的創新技術,以最大化利用正常樣本信息、最小化預訓練偏差、并實現高效推理。
技術實現思路
1、本發明針對工業異常檢測中的這些關鍵技術難題,提出了一種多模態零、少樣本工業異常檢測方法,旨在解決現有技術中高精度檢測、精確定位與低延遲難以兼顧的核心問題。
2、為了解決clip大模型在工業異常檢測任務中,尤其是在零樣本與少樣本場景下精度不足的難題,本發明提出了一種新穎的可學習文本提示策略。該策略通過qwen3模型動態生成適配特定工業場景的異常文本描述,有效彌合了文本監督與工業視覺概念之間的語義鴻溝。進而,基于clip和dinov2模型提取圖像的密集特征,從而實現了高精度的零樣本異常定位。此外,為了進一步提升少樣本場景的性能,本發明引入了一個高效的學習框架,通過比較參考圖像與待測圖像的特征,僅需極少量的正常樣本即可聯合優化視覺記憶庫與語言提示向量,顯著增強了模型的判別能力和泛化性能:
3、(1)通過圖像預處理,使圖像更適用于clip和dinov2模型提取特征。
4、(2)通過少樣本場景擴展,融合clip和dinov2兩個模型的實現少樣本缺陷檢測框架。
5、(3)通過自動生成設計詞的可學習提示策略,在無需真實異常樣本的單類設置下,自動生成判別性文本特征,顯著降低對大規模訓練數據和人工提示工程的依賴,實現零樣本/少樣本的高效異常分類。
6、本發明提供的完整技術方案:
7、本發明提出了一種基于dinov2視覺模型的多模態零樣本檢測方法,通過qwen3模型動態生成異常文本描述,顯著提升clip模型對工業異常的分類判別能力。進一步設計少樣本優化機制,通過dinov2零樣本分割與旋轉增強技術,動態構建魯棒性記憶庫。基于vit的局部塊特征提取,并引入尾部分位數聚合策略優化異常評分,實現了1-4張參考樣本下的高精度異常檢測。
8、基于dinov2視覺模型的多模態零樣本檢測方法,其特征在于,包括以下步驟:
9、s1.數據預處理:所有輸入圖像經過標準化處理確保與模型兼容。
10、s2.文本提示策略:文本提示策略通過動態生成異常描述:使用可學習前綴模板作為基礎,結合qwen3生成的異常描述與可學習后綴構建異常提示,即可實現零樣本異常分割。
11、s3.多模態特征對齊:使用線性層對圖像特征與文本特征進行語義對齊,并得出零樣本異常得分圖。
12、s4.零樣本場景擴展:在無參考樣本時,使用互評分機制,利用測試集內部分布計算異常分數。有參考樣本時,采用dinov2的vit架構提取參考圖像與待測圖像特征,并構建特征庫,最后通過比較圖像間特征的余弦相似度,獲得異常得分圖。
13、具體的:
14、s1.數據預處理:
15、將rgb圖像進行了預處理。
16、首先將每個像素值歸一化至[0,1]區間。在此基礎上,加入隨機偏移量,模以模擬不同光照強度的影響。
17、隨后,通過非線性變換調整亮度分布,其中變換參數調整亮度分布。
18、接著,利用預計算的各通道均值:和標準差,對圖像進行標準化;
19、最后,采用雙三次插值法對圖像進行縮放,其尺寸調整方式如下:
20、
21、是圖像縮放后的分辨率的寬、高,w、h是圖像的原始分辨率的寬、高。
22、s2.文本提示策略:
23、采用文本提示策略:
24、
25、
26、g_n、g_a、[v_i]、[w_i],i?∈?1,?.?.?.?,?e,分別是正常文本特征、異常文本特征、正常和異常文本提示模板中的可學習詞嵌入;以下是可學習文本提示策略的損失函數:
27、
28、是總損失函數,它綜合了全局損失和所有中間層的局部損失,是與對象無關的文本嵌入和來自輔助數據的正常/異常圖像的視覺嵌入之間的余弦相似性匹配的交叉熵損失;表示第k個中間層的局部損失。是一個超參數,用于平衡全局損失和局部損失的權重。是所使用的中間層的集合。
29、代表中間層m在位置(j,k)的視覺特征,代表異常和正常文本提示,分別代表正常和異常的預測概率,對應于圖像中的每個像素位置(j,k)。
30、
31、代表focal?loss,代表dice?loss,代表上采樣,代表拼接,s是異常圖像的掩碼圖。
32、s3.多模態特征對齊:
33、通過輕量級可學習線性變換層,實現clip模型文本與視覺特征的高效對齊,具體包含以下核心要素:
34、(1)架構設計
35、采用對稱式雙線性投影結構;
36、文本流:;
37、視覺流:;
38、投影維度保持與clip原始特征同維;
39、是clip的文本特征提取層、視覺特征提取層,、、、為超參數;
40、(2)優化目標
41、對比損失:;
42、正則化項:;
43、溫度系數τ=0.05經網格搜索確定;
44、(3)訓練策略
45、學習率5e-5,batch?size?256;
46、兩階段優化:先固定clip訓練投影層50epochs,后聯合微調10epochs;
47、采用randaugment和隨機掩碼數據增強;
48、異常得分計算:
49、
50、s4.零樣本場景擴展:
51、給定特征提取器,將圖像映射為塊特征元組,其中n取決于圖像分辨率和塊大?。?/p>
52、給定k≥1個正常參考樣本,將所有塊特征存儲在記憶庫中:
53、
54、對于測試樣本x_test,提取其特征,計算每個塊到記憶庫m的最小距離:
55、
56、其中距離度量使用余弦距離:
57、
58、圖像級異常分數通過聚合統計量q計算:
59、
60、默認q定義為1%最異常塊的平均距離:
61、
62、其中包含集合中1%最高值。
63、對于像素級異常定位,使用雙線性上采樣和高斯平滑;將塊距離轉換為像素級異常分數。利用dinov2的零樣本分割能力,通過閾值化塊特征的第一主成分來區分前景和背景。;
64、在批處理零樣本設置中,方法調整為相互評分方式:
65、
66、塊級異常分數計算改為:
67、
68、其中包含中低于分位數的值,設為0.1%。
69、本發明帶來的有益效果如下:
70、(1)通過文本提示策略和多尺度特征提取,本發明能夠更精確地識別圖像中的異常區域,即使在沒有或只有極少數標注數據的情況下。
71、(2)本發明不依賴于大量標注數據,能夠適應不同的工業視覺檢測任務,從而提高了模型在多樣化場景下的泛化能力。
72、(3)由于在訓練過程中不需要大量的標注數據,因此可以顯著降低模型訓練的成本,包括數據收集、標注和計算資源的消耗。