本發明涉及數據處理與智能分析領域,具體涉及一種基于大模型的行為數據智能分析方法。
背景技術:
1、隨著互聯網業務、移動應用與工業信息系統的快速發展,用戶點擊瀏覽、搜索下單、工單流轉以及終端操作等行為數據呈現高頻、多源、強時序特征。企業通常依賴行為分析實現轉化漏斗評估、功能迭代驗證、異常風險識別與精細化運營,因此對分析結果的穩定性、可解釋性與可復核性提出了更高要求。
2、現有方案一般通過埋點sdk、日志采集鏈路或消息隊列匯聚行為數據,經過清洗去重、字段標準化與會話劃分后構建事件序列,再采用分群統計、漏斗轉化、留存回訪、路徑分析等方式輸出指標結果;部分系統使用規則引擎或機器學習模型進行歸因篩選與異常檢測,并在報表平臺中提供多維篩選、鉆取與可視化展示。隨著大模型應用的出現,部分平臺引入自然語言檢索與自動解釋能力,用于對分析請求進行解析并生成結論描述。
3、由于行為數據來源多樣且采集口徑、字段含義與語義映射規則在不同系統間不一致,分析過程往往難以形成可復現的統一計算鏈路與可核驗的證據引用關系,導致同一分析目標在不同時間或不同數據口徑下輸出結果波動,結論難以穩定追溯與復核,從而影響其在關鍵決策場景中的可信度與可用性。
技術實現思路
1、針對現有技術的不足,本發明提供了一種基于大模型的行為數據智能分析方法,以解決現有技術中存在的技術問題。
2、本發明的上述技術目的是通過以下技術方案得以實現的:
3、一種基于大模型的行為數據智能分析方法,包括以下步驟:
4、s1:行為事件化構建:獲取來自至少兩類數據源的行為數據,對行為數據進行事件化封裝以生成行為事件流,行為事件流中的每個行為事件至少包括主體標識、行為類型、對象標識、發生時間、來源標識以及上下文屬性,上下文屬性包括會話標識、終端標識、頁面標識和業務流程標識中的一項或多項;
5、s2:行為語義對齊與原語映射:基于行為語義對齊規則建立行為原語庫,并將行為事件流中的行為事件映射為行為原語序列;
6、s3:行為片段與時序鏈構建:按照時間窗對行為原語序列進行切分以生成多個行為片段,并針對每個行為片段構建時序鏈,時序鏈至少包括起始原語、關鍵原語、結束原語以及原語轉移關系;
7、s4:分析計劃生成:接收分析請求,調用預訓練大模型對分析請求進行解析,以確定分析目標、指標集合、約束條件、分群維度以及置信度要求,并以結構化字段形式輸出分析計劃,結構化字段至少包括分析目標、指標集合、約束條件、分群維度、置信度要求、指標計算步驟、數據過濾條件、分群邏輯以及歸因候選路徑;
8、s5:統計特征生成與確定性指標計算:基于行為片段及時序鏈生成統計特征,并依據分析計劃通過確定性執行通路對統計特征進行指標計算以得到指標結果;
9、s6:證據包檢索與組裝:依據分析計劃從證據庫檢索并組裝證據包,證據包至少包括指標口徑定義、行為原語映射關系以及歷史相似行為片段;
10、s7:大模型歸因推理:通過大模型推理通路將證據包與指標結果輸入預訓練大模型,以生成歸因解釋、關鍵驅動因素以及與行為原語或行為片段相對應的優化動作;
11、s8:一致性校驗與策略觸發:對確定性執行通路輸出的指標結果與大模型推理通路輸出的歸因解釋進行一致性校驗,當一致性校驗不通過時觸發重新生成分析計劃或觸發降級策略以生成降級分析結果;
12、s9、結果輸出與可信標注:輸出分析結果,并為分析結果生成置信度評分,同時輸出與置信度評分對應的證據引用索引以及可復現執行標識。
13、優選地,所述步驟s1包括:
14、對來自不同數據源的行為數據進行時間戳對齊,以形成統一的時間基準;
15、依據主體標識對不同行為數據源對應的行為事件執行跨源關聯,將同一主體在同一會話標識對應的時間范圍內的行為事件合并到同一行為事件流;
16、為行為事件補全上下文屬性,并將補全后的行為事件按發生時間進行排序,以形成全局時間一致的行為事件流,從而為后續行為原語序列映射與行為片段切分提供統一輸入。
17、優選地,所述步驟s2中建立的行為原語庫至少包括原語編碼、原語語義描述、觸發條件模板、字段映射關系以及映射版本標識;
18、所述觸發條件模板用于限定行為事件滿足的事件類型條件與上下文屬性條件,以觸發對應行為原語的匹配;
19、所述字段映射關系用于將行為事件字段映射為行為原語的標準字段集合,并基于映射版本標識對不同版本下生成的行為原語序列進行區分,以支持對歷史分析結果的回溯復現與審計追溯。
20、優選地,所述步驟s3包括:
21、采用固定時間窗與事件觸發窗相結合的行為片段切分策略,固定時間窗用于生成基礎行為片段,事件觸發窗用于在檢測到預設關鍵原語時截取以關鍵原語為中心的增強行為片段,預設關鍵原語為行為原語庫中標注為關鍵的行為原語或由分析計劃指定的行為原語;
22、將時序鏈構建為有向結構,并為每一條原語轉移關系記錄轉移次數、轉移時間間隔與轉移方向,以生成時序鏈特征;
23、時序鏈特征至少用于支撐歸因候選路徑生成與歷史相似行為片段檢索。
24、優選地,所述步驟s5包括:
25、基于行為片段生成統計特征,統計特征至少包括頻次特征、停留時長特征、轉化路徑長度特征、回訪間隔特征與漏斗轉化特征中的兩項或多項;
26、依據分析計劃生成結構化查詢語句或領域特定語言腳本,并在隔離的受控執行環境中執行以輸出指標結果;
27、在輸出指標結果時同步輸出樣本量統計、異常值統計與缺失值統計,以形成對指標結果的可驗證支撐信息;
28、當樣本量統計不滿足置信度要求或異常值比例超過預設閾值時,觸發對數據過濾條件或分群維度進行調整,并重新執行確定性執行通路以更新指標結果。
29、優選地,所述步驟s4輸出的分析計劃進一步包括執行預算與校驗閾值,執行預算用于限定指標計算的最大數據量、最大執行時長或最大分群組合數,校驗閾值用于限定一致性校驗的通過條件;
30、當執行預算被觸發時,降級策略至少包括降低分群粒度、縮短時間窗范圍或減少指標集合中的非關鍵指標,以生成滿足執行預算約束的降級分析結果,并使降級分析結果與分析目標保持一致;
31、所述分析計劃還用于輸出與歸因候選路徑相匹配的行為原語覆蓋集合,以約束證據檢索范圍并提升后續歸因推理的一致性。
32、優選地,所述步驟s6包括:
33、基于行為原語映射關系確定與指標集合對應的原語覆蓋集合,并從證據庫中檢索與原語覆蓋集合匹配的歷史相似行為片段;
34、對歷史相似行為片段計算相似度并進行排序以獲得topk相似片段,相似度至少基于關鍵原語序列重合度、時序鏈轉移模式相似度與統計特征的距離度量中的兩項或多項確定;
35、將topk相似片段對應的片段摘要、關鍵原語序列、歷史指標結果以及映射版本標識寫入證據包形成證據條目,以使后續歸因推理能夠基于歷史對照證據輸出穩定結論。
36、優選地,所述步驟s7生成的歸因解釋為結構化輸出,結構化輸出至少包括歸因結論、驅動因素列表、影響方向、影響強度以及對應證據引用索引;
37、所述證據引用索引指向證據包中的指標口徑定義、行為原語映射關系或歷史相似行為片段的證據條目;
38、所述歸因解釋進一步包括反事實對照信息,反事實對照信息用于表征在剔除驅動因素列表中選定的驅動因素對應的行為原語或行為片段后,基于分析計劃重新執行確定性執行通路所得到的對照指標結果變化趨勢,以增強歸因解釋的可核驗性。
39、優選地,所述步驟s8的一致性校驗至少包括以下校驗項中的兩項或多項:
40、樣本量一致性校驗,用于判定歸因解釋覆蓋的樣本范圍與指標結果對應的樣本范圍是否一致;
41、邊界一致性校驗,用于判定歸因解釋涉及的關鍵指標變化是否落入指標結果的閾值范圍;
42、趨勢一致性校驗,用于判定歸因解釋描述的趨勢方向是否與指標結果的時間序列趨勢方向一致;
43、當任一校驗項不滿足校驗閾值時,觸發分析計劃重新生成,以重新生成證據包并重新執行確定性執行通路與大模型推理通路;
44、當重規劃次數達到預設上限或執行預算被觸發時,執行降級策略并輸出降級分析結果。
45、優選地,所述步驟s9中的置信度評分由至少以下因素共同確定:
46、樣本量得分,用于表征指標結果的統計穩定性;
47、一致性得分,用于表征一致性校驗的通過程度;
48、證據覆蓋得分,用于表征證據包對指標集合及行為原語映射關系的覆蓋程度;
49、所述可復現執行標識包括結構化查詢語句的哈希值、領域特定語言腳本的版本號或執行計劃標識符中的一項或多項,以支持對分析結果的復現驗證;
50、所述方法還包括漂移監測與更新步驟,用于監測行為原語序列分布、指標結果分布或驅動因素類別分布,并生成漂移分數,當漂移分數超過漂移閾值時觸發對行為原語庫的觸發條件模板、字段映射關系或映射版本標識進行更新,同時對證據庫中的指標口徑定義與歷史相似行為片段進行版本迭代,以維持分析結果在行為模式變化下的一致性與可解釋性。
51、綜上所述,本發明主要具有以下有益效果:
52、本發明通過將來自至少兩類數據源的行為數據進行事件化封裝并形成行為事件流,進一步通過時間戳對齊與跨源關聯構建全局時間一致的統一輸入,使得不同來源、不同采集口徑的行為數據能夠在同一會話標識與上下文屬性框架下被一致處理;通過建立包含原語編碼、觸發條件模板與字段映射關系的行為原語庫,并對映射過程引入映射版本標識,使得行為事件流能夠穩定映射為行為原語序列并具備可追溯的口徑基準,從而在行為數據存在字段差異、來源差異與長期演進的情況下,仍可實現面向行為分析的統一語義對齊與結果復現能力,降低跨源數據融合導致的歧義與分析偏差。
53、本發明通過按固定時間窗與事件觸發窗相結合的方式生成行為片段,并構建包含起始原語、關鍵原語、結束原語及原語轉移關系的時序鏈,同時記錄轉移次數與轉移時間間隔形成時序鏈特征,使得行為路徑的變化能夠以結構化方式被刻畫并用于后續檢索與歸因;通過接收分析請求并調用預訓練大模型輸出結構化字段的分析計劃,且在確定性執行通路中依據分析計劃生成結構化查詢語句或領域特定語言腳本并在隔離的受控執行環境中執行,同時輸出樣本量統計、異常值統計與缺失值統計,從而實現指標結果的確定性計算與可驗證支撐,避免僅依賴推理生成導致的口徑漂移與結果不可復核問題,提高行為數據分析的穩定性與可實施性。
54、本發明通過依據分析計劃從證據庫檢索并組裝包含指標口徑定義、行為原語映射關系及歷史相似行為片段的證據包,并對歷史相似行為片段進行相似度排序獲得topk相似片段,將證據條目與指標結果共同輸入預訓練大模型生成結構化歸因解釋,且對歸因解釋與指標結果進行一致性校驗,當一致性校驗不通過時觸發重新生成分析計劃或執行降級策略,使得大模型推理通路受到確定性執行通路與證據引用索引的約束,從而在輸出歸因結論與優化動作的同時保持可核驗性與一致性;并通過生成置信度評分、輸出可復現執行標識以及實施漂移監測與版本迭代,使得行為模式變化條件下仍可維持分析結果的可信標注、復現驗證與長期穩定運行,提升行為數據智能分析在實際業務中的可用性與可靠性。。