本發(fā)明涉及自然語(yǔ)言處理,尤其是指一種大語(yǔ)言模型個(gè)性化偏好自動(dòng)感知與對(duì)齊方法。
背景技術(shù):
1、大語(yǔ)言模型(llms)在自然語(yǔ)言處理領(lǐng)域展現(xiàn)出復(fù)雜推理、創(chuàng)造性生成以及跨領(lǐng)域任務(wù)解決的強(qiáng)大能力,為各類(lèi)文本處理與交互場(chǎng)景提供了高效的技術(shù)支撐。然而,如何將大語(yǔ)言模型與人類(lèi)價(jià)值觀相結(jié)合,確保模型輸出結(jié)果有益、安全、誠(chéng)實(shí)且符合上下文環(huán)境,成為該技術(shù)領(lǐng)域亟待解決的核心挑戰(zhàn)。
2、傳統(tǒng)的模型對(duì)齊技術(shù)以基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(rlhf)為典型代表,這類(lèi)技術(shù)在提升模型有用性和安全性方面取得了一定成效,但該類(lèi)技術(shù)存在根本性的設(shè)計(jì)局限。其核心假設(shè)為人類(lèi)的偏好可以通過(guò)單一標(biāo)量獎(jiǎng)勵(lì)函數(shù)進(jìn)行近似,這種設(shè)計(jì)會(huì)隱式地模擬“平均用戶(hù)”或“大眾用戶(hù)”的偏好,完全忽視了人類(lèi)價(jià)值觀的多樣性、異質(zhì)性特點(diǎn)。在實(shí)際應(yīng)用中,人類(lèi)偏好存在多維度且相互沖突的需求,例如需要在信息真實(shí)性與創(chuàng)造性之間進(jìn)行平衡,或在有用性與無(wú)害性之間進(jìn)行權(quán)衡。將多維度的偏好需求壓縮為單一獎(jiǎng)勵(lì)分?jǐn)?shù),不僅會(huì)丟失偏好結(jié)構(gòu)中的細(xì)粒度信息,還會(huì)導(dǎo)致訓(xùn)練出的模型只能迎合“平均用戶(hù)”的需求,無(wú)法滿(mǎn)足不同群體、不同應(yīng)用場(chǎng)景下的個(gè)性化需求,最終造成模型在特定場(chǎng)景下的輸出既不夠?qū)I(yè)也不夠貼切。
3、為解決上述問(wèn)題,學(xué)術(shù)界和工業(yè)界的研究重心逐漸從單一目標(biāo)的標(biāo)量獎(jiǎng)勵(lì)優(yōu)化,轉(zhuǎn)向多目標(biāo)偏好對(duì)齊。現(xiàn)有多目標(biāo)偏好對(duì)齊方法主要分為三類(lèi):
4、第一類(lèi)是模型融合技術(shù),以rewarded?soups(rs)為代表,該技術(shù)針對(duì)安全性、有用性等每個(gè)獨(dú)立目標(biāo),分別微調(diào)訓(xùn)練對(duì)應(yīng)的“專(zhuān)家模型”,在推理階段通過(guò)線(xiàn)性插值各專(zhuān)家模型的權(quán)重獲得新模型,以此實(shí)現(xiàn)不同目標(biāo)之間的權(quán)衡。
5、第二類(lèi)是多目標(biāo)優(yōu)化訓(xùn)練技術(shù),這類(lèi)方法旨在訓(xùn)練階段直接優(yōu)化多個(gè)目標(biāo),通過(guò)改進(jìn)損失函數(shù)或梯度更新策略來(lái)尋找帕累托最優(yōu)解。其中,gapo將對(duì)齊視為顯式的多目標(biāo)優(yōu)化問(wèn)題,提出動(dòng)態(tài)調(diào)整梯度的機(jī)制,保證模型每一步更新都能同時(shí)改善或至少不損害所有目標(biāo),僅需訓(xùn)練一個(gè)模型即可實(shí)現(xiàn)帕累托前沿;amopo則提出一種無(wú)需獎(jiǎng)勵(lì)模型和參考模型的方法,進(jìn)一步降低了資源消耗,能夠自適應(yīng)平衡多個(gè)偏好維度以實(shí)現(xiàn)帕累托最優(yōu)解。
6、第三類(lèi)是推理時(shí)引導(dǎo)與條件化訓(xùn)練技術(shù),該類(lèi)方法分為兩部分,一部分針對(duì)模型推理的解碼部分進(jìn)行優(yōu)化,以滿(mǎn)足用戶(hù)的多樣化需求;另一部分針對(duì)模型本身能力開(kāi)展條件化訓(xùn)練,顯式訓(xùn)練模型理解用戶(hù)的多樣需求。其中,mod提出無(wú)需重訓(xùn)練的解碼時(shí)對(duì)齊算法,在推理階段通過(guò)線(xiàn)性加權(quán)組合多個(gè)單目標(biāo)模型輸出的logits(預(yù)測(cè)概率),實(shí)現(xiàn)對(duì)多樣化對(duì)齊目標(biāo)的動(dòng)態(tài)精確控制;ric與cpo將獎(jiǎng)勵(lì)數(shù)值直接作為輸入問(wèn)題的一部分輸入給模型,使模型學(xué)會(huì)根據(jù)給定的獎(jiǎng)勵(lì)期望生成回復(fù),僅需單次訓(xùn)練即可實(shí)現(xiàn)動(dòng)態(tài)偏好調(diào)整。
7、盡管現(xiàn)有多目標(biāo)偏好對(duì)齊方法在一定程度上提升了模型的個(gè)性化適配能力,但仍存在以下顯著缺陷:
8、第一,訓(xùn)練-推理不一致性:絕大多數(shù)條件化訓(xùn)練方法以及部分多目標(biāo)優(yōu)化方法中,模型在訓(xùn)練階段依賴(lài)外部獎(jiǎng)勵(lì)模型提供的顯式偏好分?jǐn)?shù),將該分?jǐn)?shù)與原始輸入拼接以引導(dǎo)模型學(xué)習(xí);而在推理階段,模型需要接收用戶(hù)手動(dòng)設(shè)定的偏好分?jǐn)?shù)來(lái)控制生成過(guò)程。訓(xùn)練與推理階段偏好信號(hào)來(lái)源的差異,導(dǎo)致模型訓(xùn)練時(shí)內(nèi)化的是獎(jiǎng)勵(lì)模型誘導(dǎo)的偏好分布,推理時(shí)卻要響應(yīng)用戶(hù)人工設(shè)定的偏好分?jǐn)?shù)。兩類(lèi)分?jǐn)?shù)在分布特性和隱含語(yǔ)義信息上存在明顯差異,這種分布錯(cuò)位使得模型推理時(shí)難以準(zhǔn)確對(duì)齊用戶(hù)真實(shí)意圖,最終導(dǎo)致生成結(jié)果偏離最優(yōu)解,呈現(xiàn)次優(yōu)性能。
9、第二,用戶(hù)交互負(fù)擔(dān)高:現(xiàn)有方法在推理階段普遍要求用戶(hù)顯式手動(dòng)設(shè)定偏好分?jǐn)?shù)或權(quán)重組合,以此控制模型行為。該操作對(duì)用戶(hù)提出了較高的認(rèn)知與操作要求,用戶(hù)不僅需要理解偏好分?jǐn)?shù)在模型內(nèi)部對(duì)應(yīng)的語(yǔ)義及對(duì)生成結(jié)果的影響,還需要確保設(shè)定的分?jǐn)?shù)能夠準(zhǔn)確反映真實(shí)意圖,且與模型訓(xùn)練階段學(xué)習(xí)到的偏好分布保持一致,否則會(huì)導(dǎo)致模型響應(yīng)偏離預(yù)期。在真實(shí)的人機(jī)交互場(chǎng)景中,用戶(hù)通常以自然語(yǔ)言與大模型交互,不會(huì)主動(dòng)提供結(jié)構(gòu)化的偏好信號(hào)或數(shù)值化約束,因此這類(lèi)方法顯著增加了用戶(hù)的交互負(fù)擔(dān),削弱了技術(shù)在實(shí)際應(yīng)用中的可用性與普適性。
10、第三,推理效率受限:模型融合方法以及多目標(biāo)優(yōu)化方法在推理階段,需要根據(jù)不同用戶(hù)需求動(dòng)態(tài)調(diào)整或切換線(xiàn)性插值策略,以此實(shí)現(xiàn)細(xì)粒度的行為控制,這種在線(xiàn)調(diào)整機(jī)制會(huì)引入額外的計(jì)算開(kāi)銷(xiāo)與調(diào)度成本,增加整體推理延遲。同時(shí),現(xiàn)有的推理時(shí)對(duì)齊方法普遍依賴(lài)一個(gè)或多個(gè)輔助模型,對(duì)基礎(chǔ)模型的輸出進(jìn)行監(jiān)督、評(píng)估或約束,多模型協(xié)同推理的范式不可避免地帶來(lái)更高的推理延遲,以及顯著的顯存與計(jì)算資源消耗,限制了這些方法在低延遲或資源受限場(chǎng)景中的實(shí)際可用性。
技術(shù)實(shí)現(xiàn)思路
1、為此,旨在解決現(xiàn)有大語(yǔ)言模型多目標(biāo)對(duì)齊方法存在的訓(xùn)練-推理不一致、用戶(hù)交互負(fù)擔(dān)高、推理效率受限的技術(shù)問(wèn)題,實(shí)現(xiàn)模型對(duì)用戶(hù)多維度個(gè)性化偏好的自適應(yīng)感知與精準(zhǔn)對(duì)齊。
2、為解決上述技術(shù)問(wèn)題,本發(fā)明提供了一種大語(yǔ)言模型個(gè)性化偏好自動(dòng)感知與對(duì)齊方法,包括以下步驟:
3、步驟s1:采集由用戶(hù)問(wèn)題文本、目標(biāo)回答文本以及多維真實(shí)偏好分?jǐn)?shù)向量組成的三元組數(shù)據(jù)集;
4、步驟s2:構(gòu)建一個(gè)共享表示空間的偏好感知對(duì)齊模型,包括:基于預(yù)訓(xùn)練大語(yǔ)言模型構(gòu)建共享骨干網(wǎng)絡(luò),在所述共享骨干網(wǎng)絡(luò)上層并行配置自適應(yīng)偏好感知模塊與條件生成模塊,其中所述自適應(yīng)偏好感知模塊采用輕量級(jí)多層感知機(jī),用于將用戶(hù)問(wèn)題文本的語(yǔ)義特征映射為預(yù)測(cè)偏好分?jǐn)?shù)向量,所述條件生成模塊采用預(yù)訓(xùn)練大語(yǔ)言模型原生配置的語(yǔ)言模型頭部,用于接收用戶(hù)問(wèn)題文本與真實(shí)偏好分?jǐn)?shù)向量組成的增強(qiáng)輸入,并生成符合要求的回答文本;
5、步驟s3:將所述三元組數(shù)據(jù)集中的用戶(hù)問(wèn)題文本輸入所述共享骨干網(wǎng)絡(luò)提取語(yǔ)義特征,通過(guò)所述自適應(yīng)偏好感知模塊輸出預(yù)測(cè)偏好分?jǐn)?shù)向量,結(jié)合預(yù)設(shè)的維度重要性權(quán)重向量與真實(shí)偏好分?jǐn)?shù)向量,計(jì)算加權(quán)多維均方誤差損失作為偏好感知損失;
6、步驟s4:將所述用戶(hù)問(wèn)題文本與真實(shí)偏好分?jǐn)?shù)向量拼接為增強(qiáng)輸入序列,輸入所述共享骨干網(wǎng)絡(luò)與所述條件生成模塊,計(jì)算每個(gè)詞元的生成概率,進(jìn)而得到序列級(jí)交叉熵?fù)p失作為條件生成損失;其中,所述詞元為模型生成的回復(fù)文本經(jīng)過(guò)分詞處理后得到的最小語(yǔ)義單元;
7、步驟s5:基于所述偏好感知損失和所述條件生成損失,得到總損失函數(shù),基于所述總損失函數(shù)對(duì)所述偏好感知對(duì)齊模型的共享骨干網(wǎng)絡(luò)、自適應(yīng)偏好感知模塊、條件生成模塊的所有參數(shù)進(jìn)行端到端聯(lián)合優(yōu)化,使模型學(xué)習(xí)從問(wèn)題到偏好分?jǐn)?shù)的映射關(guān)系及在偏好引導(dǎo)下的回答生成能力,直至模型收斂,得到訓(xùn)練完成的偏好感知對(duì)齊模型;
8、步驟s6:將用戶(hù)輸入的自然語(yǔ)言問(wèn)題輸入所述訓(xùn)練完成的偏好感知對(duì)齊模型,通過(guò)偏好感知模塊自動(dòng)預(yù)測(cè)偏好分?jǐn)?shù)向量,并將其與原問(wèn)題的嵌入特征拼接為增強(qiáng)輸入,輸入至條件生成模塊,生成符合用戶(hù)個(gè)性化需求的回答文本。
9、在本發(fā)明的一個(gè)實(shí)施例中,所述偏好感知損失的構(gòu)建方法如下:
10、給定用戶(hù)問(wèn)題文本,預(yù)測(cè)一個(gè)連續(xù)的理想偏好分?jǐn)?shù)向量,用以量化用戶(hù)在個(gè)不同偏好維度上的潛在需求強(qiáng)度;在訓(xùn)練階段,為每個(gè)訓(xùn)練樣本評(píng)估得到的真實(shí)偏好分?jǐn)?shù)向量,記為;
11、為學(xué)習(xí)從所述用戶(hù)問(wèn)題文本到理想偏好分?jǐn)?shù)向量的映射關(guān)系,對(duì)給定問(wèn)題時(shí)真實(shí)偏好分?jǐn)?shù)向量的條件分布進(jìn)行建模,其分布服從以模型輸出的預(yù)測(cè)偏好分?jǐn)?shù)向量為均值,協(xié)方差矩陣的多元高斯分布;
12、由于個(gè)偏好維度在給定問(wèn)題條件下相互獨(dú)立,將所述協(xié)方差矩陣簡(jiǎn)化為各向同性的對(duì)角矩陣;其中,表示控制分布不確定性的超參數(shù),為單位矩陣;
13、以最大化所述真實(shí)偏好分?jǐn)?shù)向量在所述多元高斯分布下的對(duì)數(shù)似然為模型訓(xùn)練目標(biāo),其等價(jià)于最小化由真實(shí)偏好分?jǐn)?shù)向量和預(yù)測(cè)偏好分?jǐn)?shù)向量之間誤差的加權(quán)平方和構(gòu)成的損失項(xiàng);
14、基于所述維度重要性權(quán)重向量,對(duì)所有偏好維度的損失項(xiàng)進(jìn)行加權(quán)計(jì)算,得到偏好感知損失。
15、在本發(fā)明的一個(gè)實(shí)施例中,所述偏好感知損失的計(jì)算公式如下:
16、,
17、其中,和分別表示真實(shí)偏好分?jǐn)?shù)向量和模型預(yù)測(cè)均值向量在第k個(gè)維度上的分量;表示維度重要性權(quán)重向量中第個(gè)偏好維度的權(quán)重。
18、在本發(fā)明的一個(gè)實(shí)施例中,所述維度重要性權(quán)重向量中,對(duì)應(yīng)任意第個(gè)偏好維度的權(quán)重滿(mǎn)足且的條件,其獲取方法如下:
19、對(duì)任意第個(gè)偏好維度,從高斯分布采樣未歸一化的權(quán)重因子:,其中和為該維度的先驗(yàn)超參數(shù);
20、利用以下公式對(duì)所有維度的未歸一化權(quán)重因子進(jìn)行歸一化處理,得到歸一化后的權(quán)重:
21、。
22、在本發(fā)明的一個(gè)實(shí)施例中,所述條件生成損失的構(gòu)建方法如下:
23、基于所述三元組數(shù)據(jù)集,其中為用戶(hù)問(wèn)題文本,為多維真實(shí)偏好分?jǐn)?shù)向量,為由多個(gè)詞元構(gòu)成的回復(fù)文本;
24、將用戶(hù)問(wèn)題文本和所述真實(shí)偏好分?jǐn)?shù)向量進(jìn)行自然語(yǔ)言拼接,得到增強(qiáng)輸入序列;
25、將所述增強(qiáng)輸入序列輸入所述共享骨干網(wǎng)絡(luò),通過(guò)多頭注意力與前饋神經(jīng)網(wǎng)絡(luò)編碼,得到融合問(wèn)題語(yǔ)義特征與偏好約束信息的隱藏狀態(tài)序列;
26、將所述隱藏狀態(tài)序列輸入所述條件生成模塊,逐詞元計(jì)算回復(fù)文本中所有目標(biāo)詞元的生成概率;
27、基于概率鏈?zhǔn)椒▌t,基于所述所有目標(biāo)詞元的生成概率,計(jì)算所述回復(fù)文本y的聯(lián)合概率,并對(duì)其取對(duì)數(shù)后取負(fù)數(shù),得到負(fù)對(duì)數(shù)似然;以最小化所述負(fù)對(duì)數(shù)似然為優(yōu)化目標(biāo),得到序列級(jí)交叉熵?fù)p失,即條件生成損失。
28、在本發(fā)明的一個(gè)實(shí)施例中,將所述隱藏狀態(tài)序列輸入所述條件生成模塊,逐詞元計(jì)算回復(fù)文本中所有目標(biāo)詞元的生成概率的方法如下:
29、提取所述隱藏狀態(tài)序列的最終隱藏狀態(tài)向量,將該向量輸入至所述條件生成模塊,作為其生成過(guò)程的初始上下文狀態(tài);其中,表示增強(qiáng)輸入序列經(jīng)過(guò)分詞后得到的詞元序列長(zhǎng)度;
30、對(duì)于第t個(gè)時(shí)間步,所述條件生成模塊基于第t個(gè)詞元之前的歷史生成序列和所述初始上下文狀態(tài),通過(guò)線(xiàn)性變換與特征映射輸出當(dāng)前時(shí)間步的未歸一化對(duì)數(shù)概率向量;
31、采用softmax函數(shù)對(duì)所述未歸一化對(duì)數(shù)概率向量進(jìn)行歸一化處理,轉(zhuǎn)化為詞元級(jí)生成概率分布:
32、,其中,表示第t個(gè)時(shí)間步向量中,目標(biāo)詞元對(duì)應(yīng)的對(duì)數(shù)概率值;表示模型可生成的所有唯一詞元的總數(shù);表示詞元序列表的索引變量;表示第t個(gè)時(shí)間步向量中,詞元序列表第個(gè)詞元對(duì)應(yīng)的對(duì)數(shù)概率值;
33、重復(fù)上述步驟,持續(xù)生成后續(xù)詞元的概率分布,直至模型生成預(yù)設(shè)結(jié)束符或生成的詞元長(zhǎng)度達(dá)到回復(fù)文本中的詞元最大長(zhǎng)度t,得到回復(fù)文本中所有目標(biāo)詞元的生成概率:。
34、在本發(fā)明的一個(gè)實(shí)施例中,基于所述所有目標(biāo)詞元的生成概率,計(jì)算所述回復(fù)文本y的聯(lián)合概率的公式如下:
35、。
36、在本發(fā)明的一個(gè)實(shí)施例中,所述條件生成損失的計(jì)算公式如下:
37、,
38、其中,為模型參數(shù)為時(shí)的條件概率分布,表示在輸入問(wèn)題和偏好向量的約束下,模型生成回復(fù)文本y的概率;表示目標(biāo)文本序列包含的詞元數(shù)量;表示序列生成的時(shí)間步索引;表示模型在第個(gè)時(shí)間步輸出的未歸一化對(duì)數(shù)概率向量,維度為,由共享骨干網(wǎng)絡(luò)基于歷史上下文、問(wèn)題和偏好向量計(jì)算得到;表示第t個(gè)時(shí)間步向量中,目標(biāo)詞元對(duì)應(yīng)的對(duì)數(shù)概率值;表示模型可生成的所有唯一詞元的總數(shù);表示詞元序列表的索引變量;表示第t個(gè)時(shí)間步向量中,詞元序列表第個(gè)詞元對(duì)應(yīng)的對(duì)數(shù)概率值。
39、本發(fā)明還提供了一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)所述大語(yǔ)言模型個(gè)性化偏好自動(dòng)感知與對(duì)齊方法。
40、本發(fā)明還提供了一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述大語(yǔ)言模型個(gè)性化偏好自動(dòng)感知與對(duì)齊方法。
41、本發(fā)明的上述技術(shù)方案相比現(xiàn)有技術(shù)具有以下有益效果:
42、本發(fā)明通過(guò)構(gòu)建共享表示空間的雙頭架構(gòu)并實(shí)施端到端聯(lián)合優(yōu)化,具備四大核心優(yōu)點(diǎn):一是徹底解決傳統(tǒng)方法的訓(xùn)練-推理不一致問(wèn)題,依托自適應(yīng)偏好感知模塊讓模型在推理階段自動(dòng)預(yù)測(cè)偏好向量,保證推理分布與訓(xùn)練分布高度一致,顯著提升回復(fù)的對(duì)齊精度與魯棒性;二是實(shí)現(xiàn)語(yǔ)義驅(qū)動(dòng)的無(wú)感交互,用戶(hù)無(wú)需手動(dòng)設(shè)定偏好分?jǐn)?shù)或具備專(zhuān)業(yè)知識(shí),僅通過(guò)自然語(yǔ)言輸入即可獲得個(gè)性化回復(fù),大幅降低交互門(mén)檻與認(rèn)知負(fù)擔(dān);三是突破多目標(biāo)推理的效率瓶頸,僅需增加一個(gè)輕量級(jí)多層感知機(jī)模塊,無(wú)需加載額外輔助模型,就能在與基礎(chǔ)模型同等推理速度和顯存占用的前提下,實(shí)現(xiàn)多目標(biāo)優(yōu)化空間的帕累托最優(yōu)權(quán)衡,適配低延遲、資源受限的工業(yè)級(jí)場(chǎng)景;四是增強(qiáng)模型對(duì)復(fù)雜偏好的內(nèi)化能力,通過(guò)復(fù)合損失函數(shù)的聯(lián)合優(yōu)化,促使模型敏銳捕捉用戶(hù)細(xì)微的偏好差異,在安全性與有用性、真實(shí)性與創(chuàng)造性等沖突目標(biāo)間找到最佳平衡點(diǎn),有效避免“平均用戶(hù)謬誤”,生成更專(zhuān)業(yè)貼切的回復(fù)。