本發明涉及人工智能與神經網絡結構優化,尤其涉及一種基于biocircuit?transformer原型反饋的跨層路徑調度機制。
背景技術:
1、?transformer架構作為當前人工智能領域中自然語言處理、計算機視覺等任務的核心基礎模型,其通過自注意力機制實現了對序列數據的并行化處理,顯著提升了模型對長距離依賴關系的捕捉能力。然而,隨著模型層數的加深以及處理任務復雜度的提升,傳統transformer在跨層信息傳播過程中逐漸暴露出一系列關鍵技術問題,嚴重制約了模型深層語義表示的穩定性與推理效率;
2、在傳統transformer中,token(令牌)的跨層傳播路徑通常是靜態的,主要依賴殘差連接或固定跳躍連接。這種方式存在以下缺陷:
3、1、信息傳播不穩定:隨著模型層數的增加,token激活狀態易因逐層傳遞過程中的累積效應被過度放大或削弱,導致深層語義表示與初始輸入語義出現語義漂移,尤其在處理長文本序列時,該問題更為突出;
4、2、冗余計算嚴重:所有token均需強制逐層傳遞并參與每一層的完整計算流程,缺乏針對冗余令牌的動態裁剪機制,大量算力被消耗在對任務貢獻度極低的令牌處理上,導致模型推理效率低下;
5、3、缺乏語義適應性:固定跳躍連接對關鍵token與冗余token采用無差別處理策略,無法根據令牌的語義重要性動態調整傳播路徑,使得深層模型難以維持對核心語義信息的魯棒性,在噪聲數據或高冗余任務中性能衰減明顯;
6、為解決傳統transformer的上述問題,相關技術領域提出了biocircuittransformer(bct)架構,bct架構引入了原型反饋與能量調節機制,通過構建同層或局部上下游令牌間的原型聚合與能量約束,在一定程度上優化了token的局部語義表示。具體而言,bct通過原型聚合單元(pau/mspa)將局部token映射至原型空間,生成局部原型響應并計算原型能量標度,以此實現對局部token語義的校準與能量平衡。然而,bct的原型反饋機制仍存在顯著局限性:其反饋作用范圍僅局限于同層內部或相鄰幾層的局部token,尚未形成對跨層信息傳播的系統性調節路徑。這種局部反饋設計導致bct架構在深層模型中依然面臨兩大關鍵問題:一是反饋調節失衡,即部分層出現反饋信號不足(欠調節),無法有效校準語義漂移,而部分層則因反饋信號過強(過調節),導致token激活狀態震蕩;二是梯度分布失衡,層間反饋的不連貫性使得梯度在反向傳播過程中易出現消失或爆炸,進一步加劇了深層模型的訓練不穩定性。因此,我們提出了一種基于biocircuit?transformer原型反饋的跨層路徑調度機制來解決上述問題。
技術實現思路
1、本發明針對現有技術中的反饋調節失衡與梯度分布失衡的缺陷,提供一種基于biocircuit?transformer原型反饋的跨層路徑調度機制。
2、本發明是通過如下技術方案實現的:
3、一種基于biocircuit?transformer原型反饋的跨層路徑調度機制,應用于神經網絡模型第l+1層的輸入序列,包括以下步驟:
4、s1、跨層反饋構造:依據第l層的原型集合及原型能量,對每個位置i計算跨層原型響應權重;
5、s2、門控判定:先計算第l+1層每個位置i的跨層反饋特征,再將第l+1層第i個令牌的輸入表示與對應的跨層反饋特征拼接,通過門控映射計算門控系數,并且設定高閾值和低閾值,且>,根據門控系數劃分第l+1層令牌的三態集合:激活集合、抑制集合;
6、s3、三路徑執行與寫回:包括主路徑執行中對激活集合中的令牌執行qkv注意力計算,得到主路徑更新結果;
7、副路徑執行中對抑制集合中的令牌,利用對應的跨層反饋特征進行反饋調節得到副路徑更新結果;
8、剪枝路徑執行中對裁剪集合中的令牌,采用等長剪枝或物理剪枝方式處理,得到剪枝路徑結果;
9、s4、融合與對接:根據三態集合的掩碼信息,將主路徑結果、副路徑結果剪枝路徑結果按位融合,得到第l+1層的輸出,該輸出作為神經網絡模型第下一層的輸入。
10、在本發明一較佳實施例中,所述s1中跨層原型響應權重的計算公式為,其中為大于0的溫度/銳化系數,β是一組針對當前令牌的原型權重,它綜合方向一致性(cos)與原型可信強度(log),把上一層的模式共識定量地映射到“該令牌應參考哪些原型、各占多少比重”。
11、在本發明一較佳實施例中,所述第l層的原型集合的基本形式為,通過以下步驟獲得:
12、原型空間投影:第l層第i個令牌的輸入表示為,通過兩層前饋網絡對每個令牌的輸入表示進行投影,得到原型空間投影向量;
13、鄰域相似度與響應權重計算:對每個位置i,計算其與鄰域內其他位置j的相似度
14、
15、其中d為隱藏維度,為縮放因子,選取位置i的top-k鄰域nk(i),對鄰域內的相似度進行歸一化,得到響應權重;
16、局部原型響應計算:對每個位置i,根據鄰域響應權重和原型空間投影向量,計算局部原型響應;
17、層原型聚合:設定每層原型個數m,通過非負歸一權重∈[0,1]對全體局部原型響應進行聚合,得到第l層的原型集合。
18、在本發明一較佳實施例中,所述原型能量為在第l層,對每個原型定義其的能量標度,其基本形式為:
19、
20、,為大于0的數值穩定常數,取值范圍為10-8~10-6對應向量的二范數,度量該位置的向量強度,z?是全層響應強度的歸一化因子,為第u個原型的能量標度,是該原型承載的響應強度相對于層總強度的比例化量。
21、在本發明一較佳實施例中,所述第l+1層每個位置i的跨層反饋特征的計算公式為。跨層反饋特征是上一層對該token的合成建議。它是對原型集合的組合(β非負且和為1),因此位于原型的語義包內,表達該token應朝向哪些穩定模式靠攏。后續門控把f與e共同作為依據,決定該token的傳播強弱。
22、在本發明一較佳實施例中,所述門控系數的計算過程為先計算,在通過sigmoid函數映射得到。
23、在本發明一較佳實施例中,所述高閾值和低閾值的設定方式包括固定閾值和自適應閾值兩種:采用固定閾值直接設定和的具體數值,例如(,)=(0.30,0.70);采用自適應閾值設為與,其中quantile(·,q)為經驗分位數;,是分位點水平,且、,∈(0,1)。
24、一種基于biocircuit?transformer原型反饋的跨層路徑調度機制的系統,包括輸入與嵌入模塊、原型處理模塊、層間反饋門控模塊、動態路徑調度模塊以及層輸出融合模塊;
25、所述輸入與嵌入模塊用于對離散令牌序列進行分詞處理,生成令牌索引和位置索引,并通過詞嵌入查表函數和位置嵌入矩陣計算得到令牌的初始嵌入表示,其中;為第i個離散令牌的索引;為位置索引;為詞嵌入查表函數,背后對應可訓練矩陣∈rv×d,v詞表大小,d嵌入維度/隱藏維度,r是實數域;∈rp×d為現有的可訓練嵌入矩陣,p為位置嵌入覆蓋的最大序列長度;
26、所述原型處理模塊用于對神經網絡模型第l層的輸入序列進行處理,生成第l層的原型集合和原型能量標度,且原型處理模塊包括原型空間投影單元、鄰域相似度計算單元、局部原型響應單元、層原型聚合單元以及原型能量計算單元;
27、所述層間反饋門控模塊用于依據原型處理模塊輸出的第l層原型集合和原型能量標度,對第l+1層的輸入序列進行處理,生成門控系數,且層間反饋門控模塊包括跨層原型響應權重計算單元、跨層反饋特征計算單元以及門控系數映射單元;
28、所述動態路徑調度模塊用于根據層間反饋門控模塊輸出的門控系數,對第l+1層的令牌進行動態路徑調度,且動態路徑調度模塊包括三態集合劃分單元、主路徑執行單元、副路徑執行單元以及剪枝路徑執行單元;
29、所述層輸出融合模塊用于根據三態集合的掩碼信息,將動態路徑調度模塊輸出的主路徑結果、副路徑結果和剪枝路徑結果按位融合,輸出第l+1層的最終輸出,并該輸出作為神經網絡模型第下一層的輸入。
30、在本發明一較佳實施例中,所述原型處理模塊中的原型空間投影單元采用兩層前饋網絡對每個令牌的輸入表示進行投影,輸出原型空間投影向量;
31、鄰域相似度計算單元計算每個位置i與鄰域內位置j的相似度,并對鄰域內的相似度進行歸一化,輸出響應權重;
32、局部原型響應單元根據鄰域響應權重和原型空間投影向量計算并輸出局部原型響應;
33、層原型聚合單元通過非負歸一權重對全體局部原型響應進行聚合,輸出第l層的原型集合;
34、原型能量計算單元根據局部原型響應的二范數和非負歸一權重,計算并輸出第l層的原型能量標度。
35、在本發明一較佳實施例中,所述層間反饋門控模塊中的跨層原型響應權重計算單元根據余弦相似度和原型能量標度的對數,通過歸一化,計算并輸出跨層原型響應權重;
36、跨層反饋特征計算單元根據跨層原型響應權重和第l層原型集合,計算并輸出跨層反饋特征;
37、門控系數映射單元將第l+1層令牌的輸入表示與跨層反饋特征拼接后,通過線性變換和sigmoid映射,計算并輸出門控系數。
38、本發明的有益效果是:
39、本發明通過將“跨層反饋門控”與“動態路徑開關”結合,由跨層反饋門控模塊作為信號生成端,基于上一層全局原型集合與能量標度,通過余弦相似度計算、softmax歸一化、sigmoid映射,為每個token生成精準的跨層語義反饋信號,同時通過動態路徑開關作為決策執行端,以門控系數g為依據,通過雙閾值判定機制,將反饋信號轉化為激活、抑制、裁剪三種路徑指令,同時將這種信號生成到決策執行的閉環設計,使跨層反饋從局部語義校準升級為全局路徑調度,突破了現有技術中反饋與路徑分離的架構局限,有效減少冗余令牌的無效傳播,降低不必要的計算開銷,同時能讓深層模型根據令牌語義價值動態調整處理策略,大幅提升對復雜任務的自適應建模能力。