本發(fā)明涉及數(shù)據(jù)處理,尤其涉及一種多教師聯(lián)合蒸餾與插件式模型擴展方法。
背景技術(shù):
1、目前,在現(xiàn)有技術(shù)中,多教師聯(lián)合蒸餾通常采用對不同教師輸出或中間特征進行加權(quán)融合的方式對學生模型進行統(tǒng)一訓練。當教師模型來源于不同任務(wù)或不同數(shù)據(jù)分布時,上述方式容易在學生模型內(nèi)部產(chǎn)生特征表達沖突與冗余存儲,使得模型難以形成穩(wěn)定、可復(fù)用的通用表示結(jié)構(gòu)。同時,當系統(tǒng)需要引入新任務(wù)或新能力時,往往需要對學生模型進行整體重訓練或大規(guī)模參數(shù)更新,不僅訓練成本高,而且容易破壞已學習任務(wù)的性能表現(xiàn),影響模型在線擴展與持續(xù)演化能力。
2、可見,亟需一種靈活性和適應(yīng)性高的多教師聯(lián)合蒸餾與插件式模型擴展方法。
技術(shù)實現(xiàn)思路
1、有鑒于此,本發(fā)明實施例提供一種多教師聯(lián)合蒸餾與插件式模型擴展方法,至少部分解決現(xiàn)有技術(shù)中存在靈活性和適應(yīng)性較差的問題。
2、本發(fā)明實施例提供了一種多教師聯(lián)合蒸餾與插件式模型擴展方法,包括:
3、步驟1,構(gòu)建解耦式學生模型,其中,所述解耦式學生模型包括一個共享主干網(wǎng)絡(luò)和對應(yīng)于多個教師任務(wù)的多個任務(wù)特定適配器;
4、步驟2,利用多個教師模型對解耦式學生模型進行聯(lián)合蒸餾訓練,在訓練過程中對共享主干網(wǎng)絡(luò)輸出的共性特征與任務(wù)特定適配器輸出的任務(wù)特性特征施加特征解耦約束,得到訓練好的解耦式學生模型;
5、步驟3,執(zhí)行插件化推理,在推理階段,利用訓練好的解耦式學生模型根據(jù)任務(wù)標識動態(tài)調(diào)用對應(yīng)的任務(wù)特定適配器,與共享主干網(wǎng)絡(luò)聯(lián)合處理輸入數(shù)據(jù),得到與該任務(wù)標識對應(yīng)的推理結(jié)果;
6、步驟4,執(zhí)行插件式增量擴展,當接入新教師模型以引入新任務(wù)時,響應(yīng)于新教師模型的接入,保持共享主干網(wǎng)絡(luò)不變,新增并訓練與新教師模型對應(yīng)的新任務(wù)特定適配器,以實現(xiàn)模型能力的增量擴展。
7、根據(jù)本發(fā)明實施例的一種具體實現(xiàn)方式,所述步驟1具體包括:
8、步驟1.1,構(gòu)建具有深層特征提取能力的神經(jīng)網(wǎng)絡(luò)作為共享主干網(wǎng)絡(luò),用于提取輸入數(shù)據(jù)的通用共性特征;
9、步驟1.2,針對多個教師任務(wù),分別構(gòu)建輕量化的任務(wù)特定適配器,用于提取各自教師任務(wù)的任務(wù)特性特征;
10、步驟1.3,通過加性融合方式生成針對第i個教師任務(wù)的最終融合特征
11、;
12、其中,和的特征維度保持一致。
13、根據(jù)本發(fā)明實施例的一種具體實現(xiàn)方式,所述進行聯(lián)合蒸餾訓練的步驟,包括:
14、基于多個教師模型在同一輸入樣本上的輸出,構(gòu)建用于表征多教師共識知識的主干監(jiān)督信號;
15、以主干監(jiān)督信號約束共享主干網(wǎng)絡(luò)的特征表示,使共享主干網(wǎng)絡(luò)聚焦于學習跨任務(wù)的通用共性知識。
16、根據(jù)本發(fā)明實施例的一種具體實現(xiàn)方式,所述構(gòu)建用于表征多教師共識知識的主干監(jiān)督信號的步驟,包括:
17、計算多個教師模型輸出的共識中心和分歧協(xié)方差矩陣,其中,所述共識中心的表達式為:
18、;
19、其中,表示引入的教師模型的總數(shù)量,表示教師模型的索引序號,取值為自然數(shù)1到n,表示第i個教師模型針對同一輸入樣本x輸出的特征向量;
20、所述分歧協(xié)方差矩陣的表達式為:
21、;
22、其中,上標表示矩陣的轉(zhuǎn)置操作;
23、基于分歧協(xié)方差矩陣構(gòu)建共識投影算子
24、;
25、其中,為單位矩陣,表示跡運算,為防止分母為零的數(shù)值穩(wěn)定常數(shù);
26、基于共識投影算子,將共享主干網(wǎng)絡(luò)的輸出投影至教師共識子空間后與共識中心對齊,構(gòu)建共性蒸餾損失:
27、。
28、根據(jù)本發(fā)明實施例的一種具體實現(xiàn)方式,所述特征解耦約束具體為特征空間正交解耦約束,通過最小化任務(wù)特定適配器輸出的任務(wù)特性特征在共享主干網(wǎng)絡(luò)輸出的共性特征方向上的投影分量,實現(xiàn)二者在特征空間中的正交化解耦。
29、根據(jù)本發(fā)明實施例的一種具體實現(xiàn)方式,所述特征空間正交解耦約束對應(yīng)的特征解耦損失函數(shù)為:
30、;
31、其中,表示共享主干特征與第個任務(wù)特定適配器輸出之間的內(nèi)積,用于衡量二者在特征空間中的相關(guān)強度;表示主干特征的尺度因子,用于消除尺度變化帶來的不穩(wěn)定影響。
32、根據(jù)本發(fā)明實施例的一種具體實現(xiàn)方式,所述聯(lián)合蒸餾訓練采用聯(lián)合損失函數(shù)優(yōu)化解耦式學生模型,其中,所述聯(lián)合損失函數(shù)的表達式為
33、;
34、其中,表示用于約束學生模型最終輸出與教師模型輸出一致性的總體蒸餾損失,,,為平衡權(quán)重。
35、根據(jù)本發(fā)明實施例的一種具體實現(xiàn)方式,所述根據(jù)任務(wù)標識動態(tài)調(diào)用對應(yīng)的任務(wù)特定適配器的步驟,包括:
36、在資源受限的部署環(huán)境中,將共享主干網(wǎng)絡(luò)的參數(shù)常駐內(nèi)存,將多個任務(wù)特定適配器的參數(shù)以獨立文件形式存儲于外部存儲介質(zhì);
37、根據(jù)輸入數(shù)據(jù)的任務(wù)標識,從外部存儲介質(zhì)動態(tài)加載對應(yīng)的目標任務(wù)特定適配器參數(shù)至內(nèi)存;
38、將輸入數(shù)據(jù)依次經(jīng)過共享主干網(wǎng)絡(luò)和加載的任務(wù)特定適配器處理,融合二者的輸出特征后得到推理結(jié)果。
39、根據(jù)本發(fā)明實施例的一種具體實現(xiàn)方式,所述新增并訓練新任務(wù)特定適配器的步驟,包括:
40、凍結(jié)已訓練完成的共享主干網(wǎng)絡(luò)的參數(shù);
41、實例化一個與所述新教師模型對應(yīng)的新任務(wù)特定適配器;
42、利用新任務(wù)的訓練數(shù)據(jù),以新教師模型的輸出為監(jiān)督,訓練新任務(wù)特定適配器,并在訓練過程中保持新任務(wù)特定適配器的輸出與共享主干網(wǎng)絡(luò)的輸出滿足特征解耦約束;
43、將訓練完成的新任務(wù)特定適配器的參數(shù)獨立存儲,并注冊至適配器插件庫中。
44、本發(fā)明實施例中的多教師聯(lián)合蒸餾與插件式模型擴展方案,包括:步驟1,構(gòu)建解耦式學生模型,其中,所述解耦式學生模型包括一個共享主干網(wǎng)絡(luò)和對應(yīng)于多個教師任務(wù)的多個任務(wù)特定適配器;步驟2,利用多個教師模型對解耦式學生模型進行聯(lián)合蒸餾訓練,在訓練過程中對共享主干網(wǎng)絡(luò)輸出的共性特征與任務(wù)特定適配器輸出的任務(wù)特性特征施加特征解耦約束,得到訓練好的解耦式學生模型;步驟3,執(zhí)行插件化推理,在推理階段,利用訓練好的解耦式學生模型根據(jù)任務(wù)標識動態(tài)調(diào)用對應(yīng)的任務(wù)特定適配器,與共享主干網(wǎng)絡(luò)聯(lián)合處理輸入數(shù)據(jù),得到與該任務(wù)標識對應(yīng)的推理結(jié)果;步驟4,執(zhí)行插件式增量擴展,當接入新教師模型以引入新任務(wù)時,響應(yīng)于新教師模型的接入,保持共享主干網(wǎng)絡(luò)不變,新增并訓練與新教師模型對應(yīng)的新任務(wù)特定適配器,以實現(xiàn)模型能力的增量擴展。
45、本發(fā)明實施例的有益效果為:
46、1.?有效解決了多教師知識融合中的特征混疊與負遷移問題,提升了模型底層表征的泛化能力。
47、現(xiàn)有技術(shù)在融合多教師知識時,往往因梯度沖突導(dǎo)致共享特征空間混亂。本發(fā)明通過主干共性蒸餾機制,利用多教師輸出分布的共識重心作為監(jiān)督信號,強制引導(dǎo)學生模型的主干網(wǎng)絡(luò)聚焦于跨任務(wù)的通用共識知識。這種“求同”策略有效過濾了單一教師任務(wù)特有的噪聲與偏差,使得訓練得到的主干網(wǎng)絡(luò)具備極強的魯棒性與泛化性,為多任務(wù)學習構(gòu)建了穩(wěn)固的共性特征底座。
48、2.?實現(xiàn)了特征空間的深度正交解耦與參數(shù)極致利用,顯著降低了模型冗余度。
49、針對傳統(tǒng)適配器技術(shù)中存在的“適配器重復(fù)學習主干知識”這一參數(shù)浪費痛點,本發(fā)明創(chuàng)新性地引入了特征正交解耦約束(decouple?loss)。從數(shù)學幾何層面強制任務(wù)適配器生成的特征向量與主干特征向量保持正交,確保適配器僅存儲與主干線性無關(guān)的“純凈”殘差信息。這一機制使得適配器能夠以極小的參數(shù)規(guī)模精準表征特定任務(wù),極大地提升了模型的參數(shù)表達效率與存儲經(jīng)濟性。
50、3.?具備“零災(zāi)難性遺忘”的低成本增量擴展能力,支持模型的持續(xù)無損演化。
51、在面對新任務(wù)擴展需求時,本發(fā)明通過凍結(jié)主干與增量適配的策略,有效緩解了傳統(tǒng)持續(xù)學習方法中常見的災(zāi)難性遺忘問題。由于新能力的引入完全依賴于新增的獨立插件,且主干參數(shù)保持恒定,因此在結(jié)構(gòu)上嚴格保證了舊任務(wù)性能的零回退。同時,無需對龐大的主干網(wǎng)絡(luò)進行重訓練,無需回放歷史數(shù)據(jù),極大地降低了模型迭代的算力成本與時間周期,實現(xiàn)了真正意義上的低成本、可持續(xù)的模型演進。
52、4.?支持面向資源受限環(huán)境的動態(tài)插件式部署,大幅提升了邊緣側(cè)應(yīng)用靈活性。
53、基于本發(fā)明構(gòu)建的“底座+插件”解耦架構(gòu),為工程部署提供了極大的靈活性。在移動端或嵌入式等資源受限環(huán)境中,系統(tǒng)無需加載多個完整的重型模型,而是采用“一主多從”的按需加載模式。推理引擎僅需常駐一份主干網(wǎng)絡(luò),根據(jù)實際業(yè)務(wù)請求動態(tài)切換毫秒級的輕量化適配器文件。這種存算分離的部署形態(tài)顯著降低了運行時的內(nèi)存(ram)占用與存儲(rom)開銷,使單一邊緣設(shè)備具備了處理大規(guī)模異構(gòu)任務(wù)的能力。