本技術(shù)涉及大語言模型,尤其涉及一種大語言模型輸出保護(hù)方法、一種大語言模型輸出保護(hù)裝置、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和一種電子設(shè)備。
背景技術(shù):
1、近年來,大語言模型(large?language?models,llms)因其在自然語言處理任務(wù)中的出色表現(xiàn)而受到廣泛關(guān)注。這些模型基于深度學(xué)習(xí)技術(shù),尤其是變換器(transformer)架構(gòu),能夠理解和生成自然語言。llms的訓(xùn)練通常依賴于大量的文本數(shù)據(jù),通過無監(jiān)督或自監(jiān)督學(xué)習(xí)的方式,模型學(xué)習(xí)到語言的結(jié)構(gòu)、語義和上下文信息。隨著計(jì)算能力的提高和數(shù)據(jù)集的擴(kuò)展,llms的規(guī)模不斷增大,模型參數(shù)數(shù)量達(dá)到億級乃至萬億級,使得它們在文本生成、問答系統(tǒng)、翻譯等任務(wù)中展現(xiàn)出卓越的性能。語言模型頭層
2、然而,隨著隱私和安全問題的日益嚴(yán)重,使用云端服務(wù)進(jìn)行l(wèi)lms推理時(shí),用戶的輸出可能暴露敏感信息。尤其是當(dāng)云端能夠獲得lm?head(語言模型頭)的輸出概率分布向量時(shí),就有可能推斷出大模型的輸出文本。因此,如何保護(hù)這些輸出的隱私成為了一個(gè)重要的研究課題。
3、目前相關(guān)的一些方案主要集中在對輸入數(shù)據(jù)加密、模型分割等方面,但這些方法一部分存在保護(hù)輸出隱私問題上效果不佳,另一部分則需要加解密以及較大的網(wǎng)絡(luò)訓(xùn)練成本,其他的方案則需要在本地承擔(dān)較大的存儲(chǔ)和計(jì)算開銷。以上方案使得輸出隱私性保護(hù)的廣泛落地具有較大障礙。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。為此,本技術(shù)的第一個(gè)目的在于提出一種大語言模型輸出保護(hù)方法,從云服務(wù)器端獲取大語言模型的語言模型頭層對應(yīng)的原始權(quán)重矩陣的維度信息、輸入向量和第一輸出向量,其中,第一輸出向量基于輸入向量和原始權(quán)重矩陣確定,基于原始權(quán)重矩陣的維度信息確定第一低秩矩陣和第二低秩矩陣,基于輸入向量、第一低秩矩陣和第二低秩矩陣確定第二輸出向量,基于第一輸出向量和第二輸出向量確定大語言模型輸出的目標(biāo)詞概率分布向量,由此,能夠防止云端根據(jù)語言模型頭的輸出直接推測出模型整體的文本輸出,增強(qiáng)隱私保護(hù),同時(shí)還能夠降低將完整語言模型頭層部署在本地所帶來的存儲(chǔ)和計(jì)算開銷,還可以提高大語言模型在下游任務(wù)上的適應(yīng)性。
2、本技術(shù)的第二個(gè)目的在于提出一種大語言模型輸出保護(hù)裝置。
3、本技術(shù)的第三個(gè)目的在于提出一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
4、本技術(shù)的第四個(gè)目的在于提出一種電子設(shè)備。
5、為達(dá)到上述目的,本技術(shù)第一方面實(shí)施例提出了一種大語言模型輸出保護(hù)方法,應(yīng)用于本地端,所述方法包括:從云服務(wù)器端獲取所述大語言模型的語言模型頭層對應(yīng)的原始權(quán)重矩陣的維度信息、輸入向量和第一輸出向量,其中,所述第一輸出向量基于輸入向量和所述原始權(quán)重矩陣確定;基于所述原始權(quán)重矩陣的維度信息確定第一低秩矩陣和第二低秩矩陣;基于所述輸入向量、所述第一低秩矩陣和所述第二低秩矩陣確定第二輸出向量;基于所述第一輸出向量和所述第二輸出向量確定所述大語言模型輸出的目標(biāo)詞概率分布向量。
6、根據(jù)本技術(shù)實(shí)施例的大語言模型輸出保護(hù)方法,從云服務(wù)器端獲取大語言模型的語言模型頭層對應(yīng)的原始權(quán)重矩陣的維度信息、輸入向量和第一輸出向量,其中,第一輸出向量基于輸入向量和原始權(quán)重矩陣確定,基于原始權(quán)重矩陣的維度信息確定第一低秩矩陣和第二低秩矩陣,基于輸入向量、第一低秩矩陣和第二低秩矩陣確定第二輸出向量,基于第一輸出向量和第二輸出向量確定大語言模型輸出的目標(biāo)詞概率分布向量。由此,該方法能夠防止云端根據(jù)語言模型頭的輸出直接推測出模型整體的文本輸出,增強(qiáng)隱私保護(hù),同時(shí)還能夠降低將完整語言模型頭層部署在本地所帶來的存儲(chǔ)和計(jì)算開銷,還可以提高大語言模型在下游任務(wù)上的適應(yīng)性。
7、另外,根據(jù)本技術(shù)上述實(shí)施例的大語言模型輸出保護(hù)方法還可以具有如下的附加技術(shù)特征:
8、根據(jù)本技術(shù)的一個(gè)實(shí)施例,所述基于所述第一輸出向量和所述第二輸出向量確定目標(biāo)詞概率分布向量,包括:基于所述第一輸出向量和所述第二輸出向量進(jìn)行求和得到目標(biāo)向量;基于所述目標(biāo)向量和目標(biāo)函數(shù)確定所述目標(biāo)詞概率分布向量,其中,所述目標(biāo)函數(shù)為softmax函數(shù)。
9、根據(jù)本技術(shù)的一個(gè)實(shí)施例,基于所述輸入向量、所述第一低秩矩陣和所述第二低秩矩陣確定第二輸出向量,包括:基于所述輸入向量、所述第一低秩矩陣和所述第二低秩矩陣的乘積,確定所述第二輸出向量。
10、根據(jù)本技術(shù)的一個(gè)實(shí)施例,所述維度信息包括所述語言模型頭層的輸入維度和詞匯表長度,所述基于所述原始權(quán)重矩陣的維度信息確定第一低秩矩陣和第二低秩矩陣,包括:基于所述原始權(quán)重矩陣的維度信息確定所述第一低秩矩陣或所述第二低秩矩陣的目標(biāo)秩數(shù);基于所述輸入維度和所述目標(biāo)秩數(shù)確定第一低秩矩陣,其中,所述第一低秩矩陣的行數(shù)對應(yīng)所述輸入維度,所述第一低秩矩陣的列數(shù)對應(yīng)所述目標(biāo)秩數(shù);基于所述目標(biāo)秩數(shù)和所述詞匯表長度確定第二低秩矩陣,其中,所述第二低秩矩陣的行數(shù)對應(yīng)所述目標(biāo)秩數(shù),所述第二低秩矩陣的列數(shù)對應(yīng)所述詞匯表長度,其中,所述目標(biāo)秩數(shù)小于所述輸入維度和所述詞匯表長度。
11、根據(jù)本技術(shù)的一個(gè)實(shí)施例,所述方法還包括:對所述第一低秩矩陣和所述第二低秩矩陣進(jìn)行初始化設(shè)置,其中,所述初始化設(shè)置包括基于全零或隨機(jī)初始化的方式對所述第一低秩矩陣和所述第二低秩矩陣的初始參數(shù)進(jìn)行設(shè)置;基于目標(biāo)數(shù)據(jù)集對所述第一低秩矩陣和所述第二低秩矩陣的參數(shù)進(jìn)行調(diào)整。
12、根據(jù)本技術(shù)的一個(gè)實(shí)施例,所述基于目標(biāo)數(shù)據(jù)集對所述第一低秩矩陣和所述第二低秩矩陣的參數(shù)進(jìn)行調(diào)整,包括:基于所述目標(biāo)數(shù)據(jù)集確定損失函數(shù);基于反向傳播算法計(jì)算所述損失函數(shù)對所述第一低秩矩陣和所述第二低秩矩陣的梯度;基于所述梯度和優(yōu)化算法對所述第一低秩矩陣和所述第二低秩矩陣的參數(shù)進(jìn)行調(diào)整,以最小化損失函數(shù),其中,所述優(yōu)化算法包括自適應(yīng)矩估計(jì)優(yōu)化算法或隨機(jī)梯度下降優(yōu)化算法。
13、根據(jù)本技術(shù)的一個(gè)實(shí)施例,所述第一輸出向量和所述第二輸出向量的維度相同。
14、為達(dá)到上述目的,本技術(shù)第二方面實(shí)施例提出了一種大語言模型輸出保護(hù)裝置,應(yīng)用于本地端,所述裝置包括:獲取模塊,用于從云服務(wù)器端獲取所述大語言模型的語言模型頭層對應(yīng)的原始權(quán)重矩陣的維度信息、輸入向量和第一輸出向量,其中,所述第一輸出向量基于輸入向量和所述原始權(quán)重矩陣確定;第一確定模塊,用于基于所述原始權(quán)重矩陣的維度信息確定第一低秩矩陣和第二低秩矩陣;第二確定模塊,用于基于所述輸入向量、所述第一低秩矩陣和所述第二低秩矩陣確定第二輸出向量;第三確定模塊,用于基于所述第一輸出向量和所述第二輸出向量確定所述大語言模型輸出的目標(biāo)詞概率分布向量。
15、根據(jù)本技術(shù)實(shí)施例的大語言模型輸出保護(hù)裝置,獲取模塊用于從云服務(wù)器端獲取大語言模型的語言模型頭層對應(yīng)的原始權(quán)重矩陣的維度信息、輸入向量和第一輸出向量,其中,第一輸出向量基于輸入向量和原始權(quán)重矩陣確定,第一確定模塊用于基于原始權(quán)重矩陣的維度信息確定第一低秩矩陣和第二低秩矩陣,第二確定模塊,用于基于輸入向量、第一低秩矩陣和第二低秩矩陣確定第二輸出向量,第三確定模塊用于基于第一輸出向量和第二輸出向量確定大語言模型輸出的目標(biāo)詞概率分布向量。由此,該裝置能夠防止云端根據(jù)語言模型頭的輸出直接推測出模型整體的文本輸出,增強(qiáng)隱私保護(hù),同時(shí)還能夠降低將完整語言模型頭層部署在本地所帶來的存儲(chǔ)和計(jì)算開銷,還可以提高大語言模型在下游任務(wù)上的適應(yīng)性。
16、為達(dá)到上述目的,本技術(shù)第三方面實(shí)施例提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的大語言模型輸出保護(hù)方法。
17、根據(jù)本技術(shù)實(shí)施例的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),通過執(zhí)行時(shí)實(shí)現(xiàn)上述的大語言模型輸出保護(hù)方法,能夠防止云端根據(jù)語言模型頭的輸出直接推測出模型整體的文本輸出,增強(qiáng)隱私保護(hù),同時(shí)還能夠降低將完整語言模型頭層部署在本地所帶來的存儲(chǔ)和計(jì)算開銷,還可以提高大語言模型在下游任務(wù)上的適應(yīng)性。
18、為達(dá)到上述目的,本技術(shù)第四方面實(shí)施例提出的一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的程序,所述處理器執(zhí)行所述程序時(shí),實(shí)現(xiàn)上述的大語言模型輸出保護(hù)方法。
19、根據(jù)本技術(shù)實(shí)施例的電子設(shè)備,通過執(zhí)行上述的大語言模型輸出保護(hù)方法,能夠防止云端根據(jù)語言模型頭的輸出直接推測出模型整體的文本輸出,增強(qiáng)隱私保護(hù),同時(shí)還能夠降低將完整語言模型頭層部署在本地所帶來的存儲(chǔ)和計(jì)算開銷,還可以提高大語言模型在下游任務(wù)上的適應(yīng)性。
20、本技術(shù)附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本技術(shù)的實(shí)踐了解到。