本發(fā)明涉及語音識別處理技術(shù)和自然語言處理,具體涉及一種基于聲學(xué)模型與大語言模型思維鏈的對話矛盾識別方法及系統(tǒng)。
背景技術(shù):
1、在當(dāng)前的信息科技環(huán)境下,隨著深度學(xué)習(xí)技術(shù)的迭代,尤其是語音識別技術(shù)、聲紋識別技術(shù)、大語言模型技術(shù)的飛速發(fā)展,語音識別準(zhǔn)確率、自然語言文本理解能力大幅提升,使得通過it技術(shù)手段實現(xiàn)識別對話角色、理解對話內(nèi)容、識別對話矛盾點成為可能。為了更準(zhǔn)確地區(qū)分說話人角色、更高效更智能地理解對話內(nèi)容、更準(zhǔn)確地識別多方對話內(nèi)容中可能存在的矛盾點,本發(fā)明提供了一種構(gòu)建核心對話矛盾分析引擎方法。該方法融合聲學(xué)模型技術(shù)及大語言模型思維鏈技術(shù),快速精準(zhǔn)識別聲紋角色、分析對話內(nèi)容、識別對話矛盾點。該方法可靈活運用于司法庭審、糾紛調(diào)解、審訊筆錄、企業(yè)談判等不同場景需求,可顯著提升說話人在復(fù)雜對話場景中的信息感知效率,輔助其快速聚焦關(guān)鍵矛盾問題,降低認(rèn)知負(fù)荷與決策誤判風(fēng)險。
技術(shù)實現(xiàn)思路
1、本發(fā)明目的是提供一種基于聲學(xué)模型與大語言模型思維鏈的對話矛盾識別方法及系統(tǒng),其可以基于聲學(xué)模型以及角色核驗等技術(shù)來自動識別說話人身份,通過大模型思維鏈分析對話上下文各說話人語義,逐步挖掘?qū)υ拑?nèi)容中的所述事件的核心信息,快速識別矛盾點。
2、為實現(xiàn)上述目的,本發(fā)明的技術(shù)方案包括以下內(nèi)容。
3、一種基于聲學(xué)模型與大語言模型思維鏈的對話矛盾識別方法,所述方法包括:
4、對多方說話人混雜語音信號進行處理,獲取說話人的子句文本數(shù)據(jù);其中,所述子句文本數(shù)據(jù)包括:說話人子句文本信息、說話人子句時間戳和說話人業(yè)務(wù)角色名稱;
5、根據(jù)說話人子句時間戳,組裝各說話人子句文本信息及對應(yīng)的說話人業(yè)務(wù)角色名稱,得到對話上下文內(nèi)容;
6、基于私有知識庫,獲取該對話上下文內(nèi)容的知識條目文本集合;其中,所述私有知識庫中的知識數(shù)據(jù)來源于法律法規(guī)、司法實務(wù)和行業(yè)規(guī)范;
7、在對話上下文內(nèi)容以及該對話上下文內(nèi)容的知識條目文本集合的基礎(chǔ)上,調(diào)用大語言模型推理該多方說話人混雜語音信號中的對話矛盾。
8、進一步地,對多方說話人混雜語音信號進行處理,獲取目標(biāo)說話人的子句語音數(shù)據(jù),包括:
9、采用語音流式處理技術(shù)對多方說話人混雜語音信號進行處理,得到長語音流式信號;
10、采用噪聲抑制技術(shù)對長語音流式信號進行降噪處理,得到降噪后的語音信號;
11、采用語音端點檢測技術(shù)對降噪后的語音信號進行斷句,得到子句語音信號組;
12、采用分角色語音識別技術(shù)對子句語音信號組中的各子句語音信號進行識別,得到原子語音數(shù)據(jù);其中,所述原子語音數(shù)據(jù)包括:原子語音信號、原子文本、原子時間戳和原子角色編號;
13、按原子角色編號對原子語音數(shù)據(jù)進行分組,得到說話人子句語音數(shù)據(jù);其中,所述說話人子句語音數(shù)據(jù)包括:說話人子句語音信號、說話人子句文本內(nèi)容和說話人子句時間戳;
14、將說話人子句語音信號送入語音角色核驗樣本池,通過計算說話人子句語音信號與樣本信號的相似度,得到說話人業(yè)務(wù)角色名稱;
15、生成包含說話人子句文本內(nèi)容、說話人子句時間戳以及說話人業(yè)務(wù)角色名稱的子句文本數(shù)據(jù)。
16、進一步地,按原子角色編號對原子語音數(shù)據(jù)進行分組,得到說話人子句語音數(shù)據(jù),包括:
17、根據(jù)原子角色編號對原子語音數(shù)據(jù)進行分組,得到若干個的原子語音數(shù)據(jù)組;
18、對于每一原子語音數(shù)據(jù)組,按原子時間戳分別升序拼接原子語音信號與原子文本,得到說話人子句語音信號和說話人子句文本內(nèi)容;
19、將該原子語音數(shù)據(jù)組中最小的原子時間戳作為說話人子句時間戳。
20、進一步地,所述私有數(shù)據(jù)庫包括:文本數(shù)據(jù)庫和向量數(shù)據(jù)庫;
21、構(gòu)建所述私有知識庫的過程包括:
22、將知識數(shù)據(jù)轉(zhuǎn)換為特定格式特征的文本片段,得到知識條目;
23、識別并建立知識條目之間的業(yè)務(wù)關(guān)聯(lián)關(guān)系;
24、將知識條目的文本內(nèi)容及知識條目之間的業(yè)務(wù)關(guān)聯(lián)關(guān)系保存到文本數(shù)據(jù)庫;
25、采用embedding模型將知識條目的文本內(nèi)容進行向量化處理,得到知識向量數(shù)據(jù),并將該知識向量數(shù)據(jù)保存到向量數(shù)據(jù)庫。
26、進一步地,基于私有知識庫,獲取該對話上下文內(nèi)容的知識條目文本集合,包括:
27、對該對話上下文內(nèi)容進行分詞,得到一組token,并根據(jù)該token檢索文本數(shù)據(jù)庫,得到第一知識條目文本集合;
28、采用embedding模型將對話上下文內(nèi)容進行向量化,得到一組上下文向量數(shù)據(jù),并根據(jù)該上下文向量數(shù)據(jù)檢索向量數(shù)據(jù)庫,得到第二知識條目文本集合;
29、合并第一知識條目文本集合與第二知識條目文本集合,得到該對話上下文內(nèi)容的知識條目文本集合。
30、進一步地,在對話上下文內(nèi)容以及該對話上下文內(nèi)容的知識條目文本集合的基礎(chǔ)上,調(diào)用大語言模型推理該多方說話人混雜語音信號中的對話矛盾,包括:
31、以確定對話所涉事件、提取事件核心要素為目的的第一思維鏈調(diào)用大語言模型,分析對話上下文內(nèi)容,得到事件列表;
32、以識別事件間相關(guān)性為目的的第二思維鏈調(diào)用大語言模型,對事件列表中的事件進行分組,得到事件組列表;
33、以識別事件矛盾為目的的第三思維鏈調(diào)用大語言模型,分析事件組列表和對話上下文內(nèi)容的知識條目文本集合,得到矛盾識別結(jié)果;
34、將矛盾識別結(jié)果與事件列表相結(jié)合,得到該多方說話人混雜語音信號中的對話矛盾。
35、進一步地,所述第一思維鏈對應(yīng)的提示指令模板包含對話文本內(nèi)容槽以及描述任務(wù)內(nèi)容、提取規(guī)則、輸出要求的提示語料;其中,所述提取規(guī)則用于定義大語言模型提取的事件核心要素,所述事件核心要素包括:事件內(nèi)容、發(fā)生時間、事件經(jīng)過、事件起因、事件結(jié)果、人物、地點、問答概括和關(guān)系屬性,所述關(guān)系屬性包括:人與人關(guān)系、人與組織關(guān)系和人與資產(chǎn)關(guān)系,所述人與人關(guān)系包括:人物之間的親屬關(guān)系、人物之間的涉及職務(wù)關(guān)系和人物之間的法律關(guān)系。
36、進一步地,所述第二思維鏈對應(yīng)的提示指令模板包含事件列表信息槽,以及描述任務(wù)內(nèi)容、輸出要求的提示語料;其中,所述任務(wù)內(nèi)容為根據(jù)事件列表中事件內(nèi)容字段、事件起因字段的描述,識別出相同事件或相似事件,對事件進行分組,按事件組重新組裝事件對象列表,最終以json格式輸出;所述事件組信息包含:事件組id、事件組主題、最早發(fā)生時間和事件對象列表。
37、進一步地,所述第三思維鏈對應(yīng)的提示指令模板包含事件組對象列表信息槽、參考知識信息槽,以及描述任務(wù)內(nèi)容、矛盾識別規(guī)則、輸出要求的提示語料;其中,所述任務(wù)內(nèi)容為根據(jù)事件組對象列表中各個事件的詳情信息,識別出含義存在矛盾或沖突的字段,得到?jīng)_突事件列表,最終以json格式輸出;所述矛盾或沖突包括:同一事件不同人表述不一致,同一事件同一個人前后表述不一致,事件發(fā)生的時間、地點、經(jīng)過不符合生活常識、民間習(xí)俗、普適價值觀,事件發(fā)生的時間、地點、經(jīng)過不符合參考知識條目信息中對于法律、法條、行業(yè)規(guī)范的描述,多個事件之間存在關(guān)聯(lián)性矛盾。
38、一種基于聲學(xué)模型與大語言模型思維鏈的對話矛盾識別系統(tǒng),所述系統(tǒng)包括:
39、語音信號處理模塊,用于對多方說話人混雜語音信號進行處理,獲取說話人的子句文本數(shù)據(jù);其中,所述子句文本數(shù)據(jù)包括:說話人子句文本信息、說話人子句時間戳和說話人業(yè)務(wù)角色名稱;
40、上下文內(nèi)容生成模塊,用于根據(jù)說話人子句時間戳,組裝各說話人子句文本信息及對應(yīng)的說話人業(yè)務(wù)角色名稱,得到對話上下文內(nèi)容;
41、知識條目獲取模塊,用于基于私有知識庫,獲取該對話上下文內(nèi)容的知識條目文本集合;其中,所述私有知識庫中的知識數(shù)據(jù)來源于法律法規(guī)、司法實務(wù)和行業(yè)規(guī)范;
42、對話矛盾生成模塊,用于在對話上下文內(nèi)容以及該對話上下文內(nèi)容的知識條目文本集合的基礎(chǔ)上,調(diào)用大語言模型推理該多方說話人混雜語音信號中的對話矛盾。
43、與現(xiàn)有技術(shù)相比,本發(fā)明通過語音識別技術(shù)、聲紋識別技術(shù)、大語言模型技術(shù)融合,實現(xiàn)更準(zhǔn)確的說話人角色識別、更智能的對話語義理解能力、更合理更全面的對話矛盾識別,可顯著提升說話人在復(fù)雜對話場景中的信息感知效率,輔助其快速聚焦關(guān)鍵矛盾問題,降低認(rèn)知負(fù)荷與決策誤判風(fēng)險。