基于聲學(xué)模型與大語言模型思維鏈的對話矛盾識別方法及系統(tǒng)與流程

文檔序號：45266259發(fā)布日期：2026-04-17 19:54閱讀：9來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及語音識別處理技術(shù)和自然語言處理，具體涉及一種基于聲學(xué)模型與大語言模型思維鏈的對話矛盾識別方法及系統(tǒng)。

背景技術(shù)：

1、在當(dāng)前的信息科技環(huán)境下，隨著深度學(xué)習(xí)技術(shù)的迭代，尤其是語音識別技術(shù)、聲紋識別技術(shù)、大語言模型技術(shù)的飛速發(fā)展，語音識別準(zhǔn)確率、自然語言文本理解能力大幅提升，使得通過it技術(shù)手段實現(xiàn)識別對話角色、理解對話內(nèi)容、識別對話矛盾點成為可能。為了更準(zhǔn)確地區(qū)分說話人角色、更高效更智能地理解對話內(nèi)容、更準(zhǔn)確地識別多方對話內(nèi)容中可能存在的矛盾點，本發(fā)明提供了一種構(gòu)建核心對話矛盾分析引擎方法。該方法融合聲學(xué)模型技術(shù)及大語言模型思維鏈技術(shù)，快速精準(zhǔn)識別聲紋角色、分析對話內(nèi)容、識別對話矛盾點。該方法可靈活運用于司法庭審、糾紛調(diào)解、審訊筆錄、企業(yè)談判等不同場景需求，可顯著提升說話人在復(fù)雜對話場景中的信息感知效率，輔助其快速聚焦關(guān)鍵矛盾問題，降低認(rèn)知負(fù)荷與決策誤判風(fēng)險。

技術(shù)實現(xiàn)思路

1、本發(fā)明目的是提供一種基于聲學(xué)模型與大語言模型思維鏈的對話矛盾識別方法及系統(tǒng)，其可以基于聲學(xué)模型以及角色核驗等技術(shù)來自動識別說話人身份，通過大模型思維鏈分析對話上下文各說話人語義，逐步挖掘?qū)υ拑?nèi)容中的所述事件的核心信息，快速識別矛盾點。

2、為實現(xiàn)上述目的，本發(fā)明的技術(shù)方案包括以下內(nèi)容。

3、一種基于聲學(xué)模型與大語言模型思維鏈的對話矛盾識別方法，所述方法包括：

4、對多方說話人混雜語音信號進行處理，獲取說話人的子句文本數(shù)據(jù)；其中，所述子句文本數(shù)據(jù)包括：說話人子句文本信息、說話人子句時間戳和說話人業(yè)務(wù)角色名稱；

5、根據(jù)說話人子句時間戳，組裝各說話人子句文本信息及對應(yīng)的說話人業(yè)務(wù)角色名稱，得到對話上下文內(nèi)容；

6、基于私有知識庫，獲取該對話上下文內(nèi)容的知識條目文本集合；其中，所述私有知識庫中的知識數(shù)據(jù)來源于法律法規(guī)、司法實務(wù)和行業(yè)規(guī)范；

7、在對話上下文內(nèi)容以及該對話上下文內(nèi)容的知識條目文本集合的基礎(chǔ)上，調(diào)用大語言模型推理該多方說話人混雜語音信號中的對話矛盾。

8、進一步地，對多方說話人混雜語音信號進行處理，獲取目標(biāo)說話人的子句語音數(shù)據(jù)，包括：

9、采用語音流式處理技術(shù)對多方說話人混雜語音信號進行處理，得到長語音流式信號；

10、采用噪聲抑制技術(shù)對長語音流式信號進行降噪處理，得到降噪后的語音信號；

11、采用語音端點檢測技術(shù)對降噪后的語音信號進行斷句，得到子句語音信號組；

12、采用分角色語音識別技術(shù)對子句語音信號組中的各子句語音信號進行識別，得到原子語音數(shù)據(jù)；其中，所述原子語音數(shù)據(jù)包括：原子語音信號、原子文本、原子時間戳和原子角色編號；

13、按原子角色編號對原子語音數(shù)據(jù)進行分組，得到說話人子句語音數(shù)據(jù)；其中，所述說話人子句語音數(shù)據(jù)包括：說話人子句語音信號、說話人子句文本內(nèi)容和說話人子句時間戳；

14、將說話人子句語音信號送入語音角色核驗樣本池，通過計算說話人子句語音信號與樣本信號的相似度，得到說話人業(yè)務(wù)角色名稱；

15、生成包含說話人子句文本內(nèi)容、說話人子句時間戳以及說話人業(yè)務(wù)角色名稱的子句文本數(shù)據(jù)。

16、進一步地，按原子角色編號對原子語音數(shù)據(jù)進行分組，得到說話人子句語音數(shù)據(jù)，包括：

17、根據(jù)原子角色編號對原子語音數(shù)據(jù)進行分組，得到若干個的原子語音數(shù)據(jù)組；

18、對于每一原子語音數(shù)據(jù)組，按原子時間戳分別升序拼接原子語音信號與原子文本，得到說話人子句語音信號和說話人子句文本內(nèi)容；

19、將該原子語音數(shù)據(jù)組中最小的原子時間戳作為說話人子句時間戳。

20、進一步地，所述私有數(shù)據(jù)庫包括：文本數(shù)據(jù)庫和向量數(shù)據(jù)庫；

21、構(gòu)建所述私有知識庫的過程包括：

22、將知識數(shù)據(jù)轉(zhuǎn)換為特定格式特征的文本片段，得到知識條目；

23、識別并建立知識條目之間的業(yè)務(wù)關(guān)聯(lián)關(guān)系；

24、將知識條目的文本內(nèi)容及知識條目之間的業(yè)務(wù)關(guān)聯(lián)關(guān)系保存到文本數(shù)據(jù)庫；

25、采用embedding模型將知識條目的文本內(nèi)容進行向量化處理，得到知識向量數(shù)據(jù)，并將該知識向量數(shù)據(jù)保存到向量數(shù)據(jù)庫。

26、進一步地，基于私有知識庫，獲取該對話上下文內(nèi)容的知識條目文本集合，包括：

27、對該對話上下文內(nèi)容進行分詞，得到一組token，并根據(jù)該token檢索文本數(shù)據(jù)庫，得到第一知識條目文本集合；

28、采用embedding模型將對話上下文內(nèi)容進行向量化，得到一組上下文向量數(shù)據(jù)，并根據(jù)該上下文向量數(shù)據(jù)檢索向量數(shù)據(jù)庫，得到第二知識條目文本集合；

29、合并第一知識條目文本集合與第二知識條目文本集合，得到該對話上下文內(nèi)容的知識條目文本集合。

30、進一步地，在對話上下文內(nèi)容以及該對話上下文內(nèi)容的知識條目文本集合的基礎(chǔ)上，調(diào)用大語言模型推理該多方說話人混雜語音信號中的對話矛盾，包括：

31、以確定對話所涉事件、提取事件核心要素為目的的第一思維鏈調(diào)用大語言模型，分析對話上下文內(nèi)容，得到事件列表；

32、以識別事件間相關(guān)性為目的的第二思維鏈調(diào)用大語言模型，對事件列表中的事件進行分組，得到事件組列表；

33、以識別事件矛盾為目的的第三思維鏈調(diào)用大語言模型，分析事件組列表和對話上下文內(nèi)容的知識條目文本集合，得到矛盾識別結(jié)果；

34、將矛盾識別結(jié)果與事件列表相結(jié)合，得到該多方說話人混雜語音信號中的對話矛盾。

35、進一步地，所述第一思維鏈對應(yīng)的提示指令模板包含對話文本內(nèi)容槽以及描述任務(wù)內(nèi)容、提取規(guī)則、輸出要求的提示語料；其中，所述提取規(guī)則用于定義大語言模型提取的事件核心要素，所述事件核心要素包括：事件內(nèi)容、發(fā)生時間、事件經(jīng)過、事件起因、事件結(jié)果、人物、地點、問答概括和關(guān)系屬性，所述關(guān)系屬性包括：人與人關(guān)系、人與組織關(guān)系和人與資產(chǎn)關(guān)系，所述人與人關(guān)系包括：人物之間的親屬關(guān)系、人物之間的涉及職務(wù)關(guān)系和人物之間的法律關(guān)系。

36、進一步地，所述第二思維鏈對應(yīng)的提示指令模板包含事件列表信息槽，以及描述任務(wù)內(nèi)容、輸出要求的提示語料；其中，所述任務(wù)內(nèi)容為根據(jù)事件列表中事件內(nèi)容字段、事件起因字段的描述，識別出相同事件或相似事件，對事件進行分組，按事件組重新組裝事件對象列表，最終以json格式輸出；所述事件組信息包含：事件組id、事件組主題、最早發(fā)生時間和事件對象列表。

37、進一步地，所述第三思維鏈對應(yīng)的提示指令模板包含事件組對象列表信息槽、參考知識信息槽，以及描述任務(wù)內(nèi)容、矛盾識別規(guī)則、輸出要求的提示語料；其中，所述任務(wù)內(nèi)容為根據(jù)事件組對象列表中各個事件的詳情信息，識別出含義存在矛盾或沖突的字段，得到?jīng)_突事件列表，最終以json格式輸出；所述矛盾或沖突包括：同一事件不同人表述不一致，同一事件同一個人前后表述不一致，事件發(fā)生的時間、地點、經(jīng)過不符合生活常識、民間習(xí)俗、普適價值觀，事件發(fā)生的時間、地點、經(jīng)過不符合參考知識條目信息中對于法律、法條、行業(yè)規(guī)范的描述，多個事件之間存在關(guān)聯(lián)性矛盾。

38、一種基于聲學(xué)模型與大語言模型思維鏈的對話矛盾識別系統(tǒng)，所述系統(tǒng)包括：

39、語音信號處理模塊，用于對多方說話人混雜語音信號進行處理，獲取說話人的子句文本數(shù)據(jù)；其中，所述子句文本數(shù)據(jù)包括：說話人子句文本信息、說話人子句時間戳和說話人業(yè)務(wù)角色名稱；

40、上下文內(nèi)容生成模塊，用于根據(jù)說話人子句時間戳，組裝各說話人子句文本信息及對應(yīng)的說話人業(yè)務(wù)角色名稱，得到對話上下文內(nèi)容；

41、知識條目獲取模塊，用于基于私有知識庫，獲取該對話上下文內(nèi)容的知識條目文本集合；其中，所述私有知識庫中的知識數(shù)據(jù)來源于法律法規(guī)、司法實務(wù)和行業(yè)規(guī)范；

42、對話矛盾生成模塊，用于在對話上下文內(nèi)容以及該對話上下文內(nèi)容的知識條目文本集合的基礎(chǔ)上，調(diào)用大語言模型推理該多方說話人混雜語音信號中的對話矛盾。

43、與現(xiàn)有技術(shù)相比，本發(fā)明通過語音識別技術(shù)、聲紋識別技術(shù)、大語言模型技術(shù)融合，實現(xiàn)更準(zhǔn)確的說話人角色識別、更智能的對話語義理解能力、更合理更全面的對話矛盾識別，可顯著提升說話人在復(fù)雜對話場景中的信息感知效率，輔助其快速聚焦關(guān)鍵矛盾問題，降低認(rèn)知負(fù)荷與決策誤判風(fēng)險。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：柏罡,吳正午,劉廣華,熊友旺,侯昌明,胡鑫,劉忠麟
技術(shù)所有人：中國司法大數(shù)據(jù)研究院有限公司
我是此專利的發(fā)明人

網(wǎng)友詢問留言留言:0條

還沒有人留言評論。精彩留言會獲得點贊！

文明留言，給您點贊！

同類技術(shù)