本發(fā)明涉及大模型語言處理,尤其涉及一種雙階段多維度融合的檢索增強生成方法及系統(tǒng)。
背景技術(shù):
1、檢索增強生成(rag)是一種將大型語言模型(llm)與外部知識庫相結(jié)合的技術(shù),旨在通過提供精準的、基于事實的上下文來提升大型語言模型回答的準確性和時效性,從而有效緩解其固有的“幻覺”問題。
2、現(xiàn)有rag技術(shù)在實現(xiàn)和應(yīng)用中面臨多重挑戰(zhàn)。檢索方法的內(nèi)在局限性表現(xiàn)為,以bm25為代表的稀疏檢索雖對精確術(shù)語匹配效果好,卻無法理解深層語義,導致召回率受限。相對地,以向量檢索為代表的密集檢索能處理語義匹配,但可能忽略關(guān)鍵的特定詞匯,且模型成本較高。單一采用任一方法都難以在處理復雜查詢時取得最優(yōu)效果。系統(tǒng)效率與可擴展性問題同樣突出。當知識庫規(guī)模巨大時,全局密集檢索會帶來巨大的計算開銷和不可接受的查詢延遲。索引的構(gòu)建和維護成本高昂,而一些優(yōu)化方法如樹狀檢索又因其結(jié)構(gòu)復雜、實現(xiàn)和維護難度較大而受限。
3、上下文信息質(zhì)量不高也是一個難題,檢索出的文本片段如果信息密度低、包含噪聲或缺失關(guān)鍵元數(shù)據(jù),會直接降低提供給llm的上下文質(zhì)量,影響最終生成內(nèi)容的準確性。
技術(shù)實現(xiàn)思路
1、因此,本發(fā)明的目的在于提供一種雙階段多維度融合的檢索增強生成方法,旨在解決如何通過智能化的檢索策略來提升大型語言模型回答的準確性和完整性,同時有效降低計算成本并提高系統(tǒng)可擴展性。
2、為了實現(xiàn)上述目的,本發(fā)明提供的一種雙階段多維度融合的檢索增強生成方法,包括以下步驟:
3、?s1、雙階段混合檢索:對用戶查詢,首先進行文件級粗選,通過并行執(zhí)行的bm25檢索與向量檢索分別獲取基于字面匹配和語義匹配的候選文檔集,并對兩檢索結(jié)果進行動態(tài)加權(quán)融合,篩選出初選文檔;隨后進行內(nèi)容級精選,對所述初選文檔進行精選,提取與查詢最相關(guān)的文本段落,形成初始檢索上下文;
4、s2、智能內(nèi)容完整性判斷:利用經(jīng)過訓練的小型語言模型,對所述初始檢索上下文進行三維度評估,所述三維度包括:與查詢的相關(guān)性、回答問題的完整性、以及生成答案的充分性;當評估結(jié)果低于預設(shè)閾值時,觸發(fā)補充檢索機制;
5、s3、多源信息融合生成:將所述初始檢索上下文或經(jīng)補充檢索機制擴展后的上下文作為多源信息輸入,采用基于注意力機制的融合模型進行信息整合與去冗余,生成增強的上下文表征,并基于上下文表征驅(qū)動大型語言模型生成附有信息來源標注的最終答案。
6、進一步,在s1中,所述內(nèi)容級精選具體為:采用滑動窗口將初選文檔分割為文本塊,使用基于transformer的段落重排序模型計算各文本塊與查詢的相關(guān)性得分,據(jù)此篩選出預定數(shù)量的文本段落。
7、進一步,所述獲取基于字面匹配和語義匹配的候選文檔集,并對兩檢索結(jié)果進行動態(tài)加權(quán)融合時,bm25和向量檢索在兩個獨立的線程池中運行,動態(tài)加權(quán)融合采用如下公式所示的基于特異性感知的動態(tài)加權(quán)融合:
8、;
9、其中,是關(guān)于查詢特異性的單調(diào)遞增函數(shù),為bm25檢索結(jié)果,為向量檢索結(jié)果。
10、進一步,在s2中,所述小型語言模型采用distilbert架構(gòu),所述distilbert架構(gòu)為6層transformer,模型壓縮采用知識蒸餾技術(shù),其中,
11、蒸餾損失函數(shù)l?=?α*?l_task?+?β*?l_distill?+?γ*?l_hidden
12、其中,l_task為任務(wù)損失,l_distill為蒸餾損失,l_hidden為隱藏層損失,α=0.5,β=0.3,γ=0.2。
13、進一步,在s2中,所述觸發(fā)補充檢索機制包括:擴大檢索范圍、調(diào)整相似度閾值、或調(diào)用樹狀層次化檢索算法,以獲取更全面的信息。
14、進一步,所述樹狀層次化檢索算法基于樹狀層次化索引執(zhí)行,所述索引通過以下方式構(gòu)建:自文檔的底層語義單元開始,遞歸調(diào)用大型語言模型對相鄰節(jié)點進行語義總結(jié)并生成上層節(jié)點,直至形成表征整個文檔核心語義的根節(jié)點,從而構(gòu)建出自底向上的樹形結(jié)構(gòu)。
15、進一步,還包括s4、小模型的訓練數(shù)據(jù)構(gòu)建采用自動化方式,以樹狀檢索結(jié)果為基準,通過對比分析自動標注正負樣本;正樣本包含回答問題所需的全部信息,負樣本存在信息缺口,依據(jù)正負樣本采用包含在線學習與對抗訓練的持續(xù)優(yōu)化策略,以提升模型的判斷精度與魯棒性。
16、進一步,還包括:s5、異步隊列處理與系統(tǒng)管理:采用基于分布式消息隊列的異步處理架構(gòu),對文檔處理、檢索與生成任務(wù)進行調(diào)度;所述架構(gòu)支持多優(yōu)先級任務(wù)管理、基于lru策略的緩存機制、以及包含重試、熔斷與降級的多層次故障恢復策略,以保障系統(tǒng)的高并發(fā)處理能力與高可用性。
17、本發(fā)明還提供一種雙階段多維度融合的檢索增強生成系統(tǒng),包括:
18、雙階段混合檢索引擎:對用戶查詢,首先進行文件級粗選,通過并行執(zhí)行的bm25檢索與向量檢索分別獲取基于字面匹配和語義匹配的候選文檔集,并對兩檢索結(jié)果進行動態(tài)加權(quán)融合,篩選出初選文檔;隨后進行內(nèi)容級精選,對所述初選文檔進行精選,提取與查詢最相關(guān)的文本段落,形成初始檢索上下文;
19、智能內(nèi)容完整性判斷模塊:利用經(jīng)過訓練的小型語言模型,對所述初始檢索上下文進行三維度評估,所述三維度包括:與查詢的相關(guān)性、回答問題的完整性、以及生成答案的充分性;當評估結(jié)果低于預設(shè)閾值時,觸發(fā)補充檢索機制;
20、多源信息查詢?nèi)诤夏K:將所述初始檢索上下文或經(jīng)補充檢索機制擴展后的上下文作為多源信息輸入,采用基于注意力機制的融合模型進行信息整合與去冗余,生成增強的上下文表征,并基于上下文表征驅(qū)動大型語言模型生成附有信息來源標注的最終答案。
21、本申請公開的雙階段多維度融合的檢索增強生成方法及系統(tǒng),與現(xiàn)有技術(shù)相比至少具有以下優(yōu)點:
22、通過雙階段混合檢索機制,在文件級粗選中并行融合bm25的精確術(shù)語匹配能力與向量檢索的深層語義理解能力,實現(xiàn)了“字面+語義”的雙重覆蓋;在內(nèi)容級精選中采用基于transformer的段落重排序,從初選文檔中精準提取最相關(guān)文本片段。該設(shè)計既保證了在大規(guī)模知識庫中的檢索速度,又顯著提高了查全率與查準率,有效解決了單一檢索方法在復雜查詢下的局限性
23、創(chuàng)新性地引入輕量級智能判斷模型,對檢索結(jié)果的相關(guān)性、完整性、充分性進行實時、三維度評估。該模型能在信息不足時主動觸發(fā)補充檢索(如調(diào)用樹狀檢索),從源頭上避免了因檢索缺陷導致大語言模型產(chǎn)生“幻覺”或錯誤答案的問題,大幅提升了生成答案的可靠性和用戶可信度;
24、通過構(gòu)建樹狀層次化索引并實施自頂向下的檢索策略,能夠?qū)﹂L文檔、復雜結(jié)構(gòu)知識進行多粒度、層次化的語義挖掘。結(jié)合基于注意力機制的多源信息融合模型,能夠動態(tài)加權(quán)整合來自不同檢索路徑和文本片段的異構(gòu)信息,生成信息密度高、連貫性強的增強上下文,從而支撐大語言模型產(chǎn)出更全面、準確的答案。
1.一種雙階段多維度融合的檢索增強生成方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求2所述的雙階段多維度融合的檢索增強生成方法,其特征在于,在s1中,所述內(nèi)容級精選具體為:采用滑動窗口將初選文檔分割為文本塊,使用基于transformer的段落重排序模型計算各文本塊與查詢的相關(guān)性得分,據(jù)此篩選出預定數(shù)量的文本段落。
3.根據(jù)權(quán)利要求2所述的雙階段多維度融合的檢索增強生成方法,其特征在于,所述獲取基于字面匹配和語義匹配的候選文檔集,并對兩檢索結(jié)果進行動態(tài)加權(quán)融合時,bm25和向量檢索在兩個獨立的線程池中運行,動態(tài)加權(quán)融合采用如下公式所示的基于特異性感知的動態(tài)加權(quán)融合:
4.根據(jù)權(quán)利要求2所述的雙階段多維度融合的檢索增強生成方法,其特征在于,在s2中,所述小型語言模型采用distilbert架構(gòu),所述distilbert架構(gòu)為6層transformer,模型壓縮采用知識蒸餾技術(shù),其中,
5.根據(jù)權(quán)利要求2所述的雙階段多維度融合的檢索增強生成方法,其特征在于,在s2中,所述觸發(fā)補充檢索機制包括:擴大檢索范圍、調(diào)整相似度閾值、或調(diào)用樹狀層次化檢索算法,以獲取更全面的信息。
6.根據(jù)權(quán)利要求5所述的雙階段多維度融合的檢索增強生成方法,其特征在于,所述樹狀層次化檢索算法基于樹狀層次化索引執(zhí)行,所述索引通過以下方式構(gòu)建:自文檔的底層語義單元開始,遞歸調(diào)用大型語言模型對相鄰節(jié)點進行語義總結(jié)并生成上層節(jié)點,直至形成表征整個文檔核心語義的根節(jié)點,從而構(gòu)建出自底向上的樹形結(jié)構(gòu)。
7.根據(jù)權(quán)利要求5所述的雙階段多維度融合的檢索增強生成方法,其特征在于,還包括s4、小模型的訓練數(shù)據(jù)構(gòu)建采用自動化方式,以樹狀檢索結(jié)果為基準,通過對比分析自動標注正負樣本;正樣本包含回答問題所需的全部信息,負樣本存在信息缺口,依據(jù)正負樣本采用包含在線學習與對抗訓練的持續(xù)優(yōu)化策略,以提升模型的判斷精度與魯棒性。
8.根據(jù)權(quán)利要求5所述的雙階段多維度融合的檢索增強生成方法,其特征在于,還包括:步驟五、異步隊列處理與系統(tǒng)管理:采用基于分布式消息隊列的異步處理架構(gòu),對文檔處理、檢索與生成任務(wù)進行調(diào)度;所述架構(gòu)支持多優(yōu)先級任務(wù)管理、基于lru策略的緩存機制、以及包含重試、熔斷與降級的多層次故障恢復策略,以保障系統(tǒng)的高并發(fā)處理能力與高可用性。
9.一種雙階段多維度融合的檢索增強生成系統(tǒng),其特征在于,包括: