本發明涉及詞元表示,特別是一種詞元表示方法、裝置及電子設備。
背景技術:
1、當前大規模語言模型通常采用基于子詞(subword)的分詞技術將文本映射為離散詞元序列,并通過詞嵌入矩陣將詞元映射為向量表示后輸入transformer等結構進行建模。常見分詞技術包括bpe、byte-level?bpe、unigram、sentencepiece等。
2、傳統bpe/子詞分詞的邊界限制問題:現有分詞訓練通常在一定“邊界假設”下進行(例如以空格或特定分隔符作為天然邊界,或在學習合并規則時傾向于局部子串)。這會導致跨詞邊界的高頻短語(例如固定搭配、術語、多詞實體等)難以以緊湊方式表達,模型輸入序列長度增大,進而使transformer的計算成本上升。
3、現有技術中通過擴詞表/新增token的常見改進及其不足:
4、為表達詞組級語義并減少輸入序列長度,現有技術中常見做法是將高頻詞組直接加入詞表形成新的詞元,從而在編碼階段以單一詞元替代多個基礎詞元。但該類方案通常需要同步擴大詞表與嵌入矩陣以容納新增詞元并引入額外參數;同時,為保證新增詞元的嵌入表示質量,還需對新增詞元進行專門訓練或在下游任務中進行微調,否則易出現表示不穩定或語義不準確的問題。此外,新增詞元可能改變預訓練模型既有嵌入空間的幾何結構與兼容性,導致與原模型參數或既有推理/部署流程產生不一致,并在工程落地中帶來額外的存儲、加載與訓練成本。
5、現有技術中通過“輸入壓縮/池化融合”類方案的局限:
6、另一類現有技術嘗試在不顯式擴詞表的情況下,通過對若干基礎詞元嵌入向量進行平均池化、加權求和或采用輕量網絡進行融合,以達到縮短序列、降低計算的目的。然而,這類方案在融合單元的確定方面通常缺乏基于大規模語料統計的自動學習機制,多依賴人工規則、固定窗口或啟發式策略,導致融合邊界不穩定且難以覆蓋跨詞邊界的高頻詞組組合;同時,簡單池化或線性融合難以充分建模詞組內部的結構關系與組合語義,融合表示的表達能力受限,容易引入輸入表示分布偏移,從而影響模型穩定性與性能表現。
技術實現思路
1、為解決上述問題,本發明提供一種詞元表示方法、裝置及電子設備。
2、本發明提供如下技術方案:一種詞元表示方法,包括如下步驟:
3、s1、采用第一分詞器對輸入文本進行分詞,獲得按輸入文本的順序排列的第一詞元序列;采用第二分詞器對輸入文本進行分詞,獲得按輸入文本的順序排列的第二詞元序列;
4、所述第一分詞器不跨邊界進行分詞;所述第二分詞器跨邊界進行分詞;
5、s2、提取第二詞元序列中與第一詞元序列不同的詞元形成組合詞組集合;
6、s3、將第一詞元序列所對應的詞元轉換成第一嵌入序列,將組合詞組集合中的詞組所對應的詞元轉換成嵌入向量然后融合成第二嵌入序列;采用第二嵌入序列中的元素替換第一嵌入序列中對應的元素,獲得壓縮后的嵌入序列。
7、進一步地,所述邊界為預定義字符集合,所述預定義字符集合包括空格、引號、書名號、逗號、頓號、破折號、省略號、冒號、括號、百分號中的一種或多種。
8、進一步地,所述第二分詞器通過如下步驟構建:
9、在大規模語料上訓練字節級字節對編碼分詞器(byte-level?byte?pairencoding),其合并統計允許在預定義字符集合限定的邊界處跨邊界執行分詞,從而獲得候選詞組集合,并根據其中各候選詞組的頻次、左鄰接熵、右鄰接熵、和長度懲罰項計算各候選詞組的評分函數,根據評分函數對各候選詞組集合進行篩選,獲得用于匹配的匹配詞組集合。
10、進一步地,所述評分函數具體如下:
11、評分函數=log(頻次+1)+左鄰接熵+右鄰接熵-長度懲罰項。
12、進一步地,采用第二分詞器對輸入文本進行分詞的步驟如下:
13、第二分詞器對輸入文本進行分詞,獲得分詞集合,將分詞集合中與匹配詞組集合中相同的詞元按輸入文本的順序排列,獲得第二詞元序列。
14、進一步地,步驟s3中,通過預訓練語言模型的嵌入矩陣將第一詞元序列轉換成第一嵌入序列;通過預訓練語言模型的嵌入矩陣將組合詞組集合中的詞組所對應的詞元分別轉換成若干詞元嵌入向量,然后通過編碼融合模塊對詞組對應的嵌入向量進行融合獲得第二嵌入序列。
15、一種詞元表示裝置,包括:
16、分詞模塊,用于采用第一分詞器對輸入文本進行分詞,獲得按輸入文本的順序排列的第一詞元序列;采用第二分詞器對輸入文本進行分詞,獲得按輸入文本的順序排列的第二詞元序列;所述第一分詞器不跨邊界進行分詞;所述第二分詞器跨邊界進行分詞;
17、提取模塊,用于提取第二詞元序列中與第一詞元序列不同的詞元形成組合詞組集合;
18、壓縮模塊,用于將第一詞元序列所對應的詞元轉換成第一嵌入序列,將組合詞組集合中的詞組所對應的詞元轉換成嵌入向量然后融合成第二嵌入序列;采用第二嵌入序列中的元素替換第一嵌入序列中對應的元素,獲得壓縮后的嵌入序列。
19、一種電子設備,包括:
20、一個或多個處理器;
21、存儲器,用于存儲一個或多個程序;
22、當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現如上述的方法。
23、一種計算機可讀存儲介質,其上存儲有計算機指令,該指令被處理器執行時實現如上述方法的步驟。
24、本發明的有益效果如下:
25、本發明的方法在不擴展嵌入矩陣、不引入新增詞元標識的前提下通過第一分詞器、第二分詞器的使用以及對第一嵌入序列和第二嵌入序列的處理構建詞組級表示,在保持原模型嵌入矩陣可復用的前提下,通過對高頻跨詞邊界詞組進行動態融合以縮短序列長度,從而提升后續模型計算效率與表示能力。
1.一種詞元表示方法,其特征在于,包括如下步驟:
2.根據權利要求1所述的方法,其特征在于,所述邊界為預定義字符集合,所述預定義字符集合包括空格、引號、書名號、逗號、頓號、破折號、省略號、冒號、括號、百分號中的一種或多種。
3.根據權利要求1所述的方法,其特征在于,所述第二分詞器通過如下步驟構建:在大規模語料上訓練字節級字節對編碼分詞器,其合并統計允許在預定義字符集合限定的邊界處跨邊界執行分詞,從而獲得候選詞組集合,并根據其中各候選詞組的頻次、左鄰接熵、右鄰接熵、和長度懲罰項計算各候選詞組的評分函數,根據評分函數對各候選詞組集合進行篩選,獲得用于匹配的匹配詞組集合。
4.根據權利要求3所述的方法,其特征在于,所述評分函數具體如下:
5.根據權利要求3所述的方法,其特征在于,采用第二分詞器對輸入文本進行分詞的步驟如下:
6.根據權利要求1所述的方法,其特征在于,步驟s3中,通過預訓練語言模型的嵌入矩陣將第一詞元序列轉換成第一嵌入序列;通過預訓練語言模型的嵌入矩陣將組合詞組集合中的詞組所對應的詞元分別轉換成若干詞元嵌入向量,然后通過編碼融合模塊對詞組對應的嵌入向量進行融合獲得第二嵌入序列。
7.一種詞元表示裝置,其特征在于,包括:
8.一種電子設備,其特征在于,包括:
9.一種計算機可讀存儲介質,其上存儲有計算機指令,其特征在于,該指令被處理器執行時實現如權利要求1-6中任一項所述方法的步驟。