本公開涉及微調(diào)文本到圖像擴散模型。
背景技術(shù):
1、擴散模型已經(jīng)被應(yīng)用于各種數(shù)據(jù)模態(tài)(諸如點云、音頻、深度圖)以及除生成之外的各種任務(wù)(諸如圖像修復(fù)(inpainting)、超分辨率、分割、對象檢測),并且被應(yīng)用于解決各種線性和非線性反轉(zhuǎn)問題。因為擴散模型能夠捕獲基本數(shù)據(jù)分布,所以它們用作良好的數(shù)據(jù)驅(qū)動的高容量先驗。然而,由于缺乏微調(diào),擴散模型的泛化(generalized)應(yīng)用沒有被配置用于執(zhí)行指定的任務(wù)。
技術(shù)實現(xiàn)思路
1、在實施例中,提供了一種用于微調(diào)文本到圖像擴散模型(諸如文本到圖像擴散模型)的方法。該方法包括:接收基于圖像的數(shù)據(jù)樣本和嵌入的文本樣本,其中:基于圖像的數(shù)據(jù)樣本是具有缺陷的制造產(chǎn)品的圖像;并且嵌入的文本樣本是指示缺陷的基于文本的數(shù)據(jù)樣本的嵌入;執(zhí)行變分自編碼器以輸出基于圖像的數(shù)據(jù)樣本的潛在空間表示;執(zhí)行噪聲模型以輸出潛在空間表示的有噪聲版本;將潛在空間表示的有噪聲版本和嵌入的文本樣本提供給文本到圖像潛在擴散模型的卷積神經(jīng)網(wǎng)絡(luò);執(zhí)行卷積神經(jīng)網(wǎng)絡(luò)以使用在不同空間分辨率下的多個交叉注意力圖來學(xué)習(xí)預(yù)測基于圖像的數(shù)據(jù)樣本的噪聲;基于不同空間分辨率中給定的一個空間分辨率的交叉注意力圖和與基于圖像的數(shù)據(jù)樣本相對應(yīng)的分割掩碼,計算平均缺陷掩碼損失參數(shù);至少部分地基于平均缺陷掩碼損失參數(shù)來更新卷積神經(jīng)網(wǎng)絡(luò)的一個或多個權(quán)重;以及輸出具有經(jīng)更新的一個或多個權(quán)重的經(jīng)微調(diào)的文本到圖像潛在擴散模型,用于檢測其他制造產(chǎn)品的其他基于圖像的數(shù)據(jù)樣本中的缺陷。
2、在另一個實施例中,一種系統(tǒng),包括處理器和包含指令的存儲器,當由處理器執(zhí)行時,所述指令使得處理器實行這些步驟。
3、在另一個實施例中,一種非暫時性計算機可讀介質(zhì)包括指令,當由處理器執(zhí)行時,所述指令使得處理器實行這些步驟。
1.一種用于微調(diào)文本到圖像潛在擴散模型的計算機實現(xiàn)的方法,包括:
2.根據(jù)權(quán)利要求1所述的計算機實現(xiàn)的方法,還包括:
3.根據(jù)權(quán)利要求2所述的計算機實現(xiàn)的方法,還包括:
4.根據(jù)權(quán)利要求2所述的計算機實現(xiàn)的方法,其中所述隨機梯度下降是adam優(yōu)化器。
5.根據(jù)權(quán)利要求1所述的計算機實現(xiàn)的方法,還包括:
6.根據(jù)權(quán)利要求5所述的計算機實現(xiàn)的方法,其中:
7.根據(jù)權(quán)利要求1所述的計算機實現(xiàn)的方法,其中所述噪聲模型被配置成具有預(yù)定的噪聲時間表,所述預(yù)定的噪聲時間表逐漸地降低所述基于圖像的數(shù)據(jù)樣本的所述潛在空間表示的信噪比。
8.根據(jù)權(quán)利要求1所述的計算機實現(xiàn)的方法,還包括:
9.根據(jù)權(quán)利要求1所述的計算機實現(xiàn)的方法,其中所述文本到圖像潛在擴散模型是穩(wěn)定擴散模型。
10.根據(jù)權(quán)利要求1所述的計算機實現(xiàn)的方法,其中所述卷積神經(jīng)網(wǎng)絡(luò)被配置成具有u-net架構(gòu)。
11.根據(jù)權(quán)利要求1所述的計算機實現(xiàn)的方法,其中所述基于圖像的數(shù)據(jù)樣本是螺栓、螺釘或螺母的圖像。
12.一種用于微調(diào)文本到圖像擴散模型的計算機實現(xiàn)的方法,包括:
13.根據(jù)權(quán)利要求12所述的計算機實現(xiàn)的方法,其中:
14.根據(jù)權(quán)利要求12所述的計算機實現(xiàn)的方法,還包括執(zhí)行噪聲模型以輸出所述基于圖像的數(shù)據(jù)樣本的所述有噪聲版本,其中所述噪聲模型被配置成具有預(yù)定的噪聲時間表,所述預(yù)定的噪聲時間表逐漸地降低所述基于圖像的數(shù)據(jù)樣本的信噪比。
15.根據(jù)權(quán)利要求12所述的計算機實現(xiàn)的方法,還包括:
16.根據(jù)權(quán)利要求15所述的計算機實現(xiàn)的方法,還包括:
17.一種非暫時性計算機可讀介質(zhì),存儲程序指令,當在一個或多個處理器上或跨所述一個或多個處理器執(zhí)行時,所述程序指令使得所述一個或多個處理器:
18.根據(jù)權(quán)利要求17所述的非暫時性計算機可讀介質(zhì),其中,為了生成所述基于圖像的數(shù)據(jù)樣本的所述有噪聲版本,所述程序指令使得所述一個或多個處理器執(zhí)行噪聲模型,所述噪聲模型逐漸地降低所述基于圖像的數(shù)據(jù)樣本的信噪比。
19.根據(jù)權(quán)利要求18所述的非暫時性計算機可讀介質(zhì),其中所述程序指令還使得所述一個或多個處理器:
20.根據(jù)權(quán)利要求19所述的非暫時性計算機可讀介質(zhì),其中所述程序指令使得所述一個或多個處理器