抽取式機器智能閱讀理解問答系統的制作方法

文檔序號：22084151發布日期：2020-09-01 19:50閱讀：939來源：國知局

本發明涉及機器閱讀理解領域，具體涉及抽取式閱讀理解智能問答技術。尤其是抽取式機器智能閱讀理解問答系統。

背景技術：

隨著信息技術的發展,互聯網信息的爆炸式增長,各種信息在網絡上交相輝映，給互聯網用戶帶來了更加豐富多樣的信息。面對互聯網上海量的信息,人們越來越依靠搜索引擎獲取信息。但是普通互聯網用戶很難從搜索引擎檢索的網頁列表中快速定位與問題相匹配的正確的答案。傳統的搜索引擎檢索返回與用戶查詢相關的網頁,用戶需要花費大量時間和精力從中獲取所需信息。傳統的檢索式問答系統采用基于流水線方式的問答算法,該類問答算法只能捕捉輸入信息中的淺層語義關聯,且存在著優化成本高和優化難度大等問題。隨著一系列大規模高質量數據集的發布和深度學習技術的快速發展，機器閱讀理解領域發展迅速，各類任務如開放域式、多選式、聊天式和多跳式等不斷涌現，同時問答任務的種類也越來越多樣化。文本問答是自然語言處理中的一個重要領域。文本問答旨在要求機器理解由自然語言組成的問題并給出答案，是邁向通用人工智能的重要課題和探索人類語言機理的經典人物。為了使得基于閱讀理解的知識問答系統獲得更好的效果,機器閱讀理解技術一般用于問答系統。早在上世紀50年代，文本問答就通“機器智能”這一概念被alanm.truing所探討。文本問答涉及到自然語言處理技術的方方面面。為了正確回答問題，一個問答系統需要進行詞性標注以標記文本中單詞的特定詞性，通過命名實體識別找出文本中的實體信息，執行句法分析來理解文本的語法結構，以及完成指代消解來理解鏈指關系等,其能夠為用戶提供簡短和準確的結果。

機器閱讀理解(machinereadingcomprehension，mrc)又稱為閱讀理解式問答，自2015年以來取得了突飛猛進的發展。目前已成為文本問答的一種主流形式，尤其是在開放領域的問答系統中。機器閱讀理解是指：給定一段文本，如果對于任何有關該文本的問題，大多數母語人士能夠正確回答，且機器可以提供一個字符串，使那些發言者同意該字符串能夠回答此問題，并且不包含與之無關的信息，機器閱讀理解是文本問答的一個子類，旨在令機器閱讀并理解一段自然語言組成的文本，并回答相關問題。通過這種任務形式，可以對機器的自然語言理解水平進行評估。早期的閱讀理解研究受限于數據集規模以及自然語言處理技術的發展，進展較為緩慢。直到2015年谷歌發布首個大規模完形填空類閱讀理解數據集cnn/dailymai，引發了基于神經網絡的閱讀理解研究熱潮。在2016年之前，大家使用更多的是統計學習的方法，包含了大量的特征工程，非常耗時耗力。在2016年之后，squad數據集被斯坦福大學發布，并迅速成為了抽取式閱讀理解的基準測試集。squad數據集發布之后，出現了一些基于注意力機制的匹配模型，比如bidaf、lstm等等。這之后出現了各種網絡結構比較復雜的模型，相關工作試圖通過復雜的網絡結構去捕捉問題和篇章之間的匹配關系。雖然在這個階段跳過了一些復雜的特征工程，但是似乎又陷入了更加復雜的網絡結構工程。在2018年之后，隨著各種預訓練語言模型的出現，閱讀理解模型效果得到了近一步大幅的提升，因為表示層的能力變的很強大，任務相關的網絡結構開始變的簡單起來。機器閱讀理解是對文本的自動、無監督理解，讓計算機具備通過文本數據獲取知識和回答問題的能力。機器閱讀理解是賦予計算機與人類同等的閱讀能力，即讓計算機閱讀一篇文章，隨后讓計算機解答與文中信息相關的問題。早期的閱讀理解數據集僅包含數百篇故事以及對應的問題-答案對以用于驗證和測試，且無訓練數據。這一階段的閱讀理解系統主要以模式匹配搭配額外的自動語義處理技術為主。由此可以看出，閱讀理解式問答與之前的檢索式問答、知識庫問答存在著顯著區別。一方面，為了正確回答問題，機器需要閱讀并理解一段文本，因此該任務可以用來評估機器的自然語言理解水平；另一方面，之前的問答類別需要從結構化知識庫或半結構化數據源中尋找答案，而機器閱讀理解則是基于非結構化文本來預測答案，其形式更加豐富也更具挑戰性。因此，閱讀理解式問答有著重大的研究價值與深遠的現實意義。傳統的檢索式問答通常是用戶在輸入一個問題之后，從海量的文檔集中檢索出若干候選文檔，并對這些若干候選文檔做段落切分和排序，最后以段落為單位作為答案直接反饋給用戶。但是通常這樣的段落還包含了較多的冗余信息。文檔(document)問答旨在基于海量知識源如維基百科或互聯網來回答任意給定的問題，主要采用抽取式問答的方式，需要結合信息檢索、閱讀理解、答案排序等多種技術手段。閱讀理解題目的形式是非常多樣的，包括選擇題、回答題等。但是從主流的學術研究和技術落地來看，我們更加關注抽取式數據理解。抽取式數據理解是指給定篇章p和問題q，我們希望從p當中抽取出答案a，并且通常答案a是篇章p當中的連續片段。

近年來，抽取式問答取得了飛速發展，成為了文本問答領域新的熱門研究方向。隨著深度學習技術的飛速發展，通過使用循環神經網絡、注意力機制、強化學習以及上下文詞嵌入等技術來自動學習特征表示，持續地推進了抽取式問答技術的發展。最近，一系列預訓練語言模型的出現進一步提升了機器閱讀理解的水平，不斷促進模型自然語言理解能力的提升。

雖然目前已經有大量抽取式閱讀理解模型被提出，但是這些模型無論在模型結構還是訓練方法上都存在一些問題。例如，注意力的缺乏，即多個注意力分布未能關注到原文的重要部分。又比如，目前多數抽取式閱讀理解模型在模型訓練的過程中僅考慮了語料本身的特征，沒有考慮外部特征對閱讀理解性能的增益。當前的閱讀理解模型往往是一個大的黑盒(black-box)神經網絡，主要關注回答事實類問題，導致的問題是模型可解釋性差。一個好的閱讀理解系統應該不僅能提供最終答案，還要能夠提供做出該預測背后的邏輯。然而，由于開放域問答需要經歷檢索-閱讀的流水線過程，且需要為每個問題-文檔樣例重新編碼，導致這些系統面臨實時性方面的嚴峻挑戰。如何基于常識和背景知識進行推理以獲得答案仍舊是一個巨大的挑戰。針對離散推理閱讀理解任務，當前方法通常面臨答案類型覆蓋不全、無法支持多答案預測以及孤立預測算術表達式等問題。

技術實現要素：

本發明的發明目的是針對當前閱讀理解集成模型效率低下的問題和現有技術存在的不足之處，提供一種能夠實現文檔庫中相關文檔的檢索，并能提升問答查詢的效率和閱讀理解式問答的可用性與實用性的抽取式機器智能閱讀理解問答系統。

本發明的上述目的可以通過以下技術方案予以實現：一種抽取式機器智能閱讀理解問答系統，包括：文本特征提取模塊，相連文檔庫的文檔檢索模塊、相連閱讀理解模型的閱讀理解模塊、答案合并預測模塊和模型優化模塊，其特征在于：文檔檢索模塊針對文檔庫中的海量文本文檔，構建全文本搜索引擎es檢索和語義檢索兩級文檔檢索體系，實現與查詢問題匹配文檔的粗篩選和精篩選，完成關聯文檔的縮減與排序，基于用戶問題輸入，采用es檢索技術實現海量文檔的粗檢索，形成問答查詢的初步文檔集，采用語義檢索技術實現問題與文檔的進一步匹配，形成問答查詢的最終文檔集；閱讀理解模塊通過閱讀理解預訓練模型提取問題與文檔深層語義特征，按人工設定規則提取問題與文檔的結構特征，結合語義特征和結構特征，完成問題與文檔的聯合特征表示，進而利用多層神經網絡模型對答案是否存在于文檔中進行預測，判斷文檔存在答案的概率，并采用指針網絡預測答案的起點和終點，獲取問題答案，完成答案的抽取，輸出答案的起點和終點；答案合并預測模塊綜合閱讀理解模型輸出的答案、起點終點對應概率對冗余答案進行合并，得到可能的答案列表以及對應的答案概率，選擇概率最高的答案作為問題的最終答案，向用戶提供答案。模型優化模塊通過已標注文檔集實現閱讀理解模型的訓練與優化，為問答系統提供更好的閱讀理解模型。

本發明的有益效果是：

問答查詢的效率高。本發明針對文檔庫中的海量文本文檔，構建全文本搜索引擎es檢索和語義檢索兩級文檔檢索體系，完成關聯文檔與查詢問題匹配文檔的粗篩選和精篩選，完成關聯文檔的縮減與排序。借助雙重檢索體系，查詢的數據項、數據量、跨度得以縮減，查詢響應速度快，用戶無需建立龐大的問答庫，提升了問答查詢的效率，極大降低了用戶對于知識庫的運營成本。

具有可用性與實用性。本發明著眼于文檔檢索、語義檢索、預訓練模型、深度學習等人工智能前沿技術，實現閱讀理解抽取式問答技術的系統性設計。通過預訓練模型挖掘問題與文檔的深層語義特征，并構建支撐答案準確抽取的結構特征模型，語義特征與結構特征的聯合實現了問題與文檔語義特征的精確表示，進一步通過閱讀理解模型優化，實現閱讀理解模型的更新，改善閱讀理解式問答的性能，提升了閱讀理解式問答的可用性與實用性。

附圖說明

圖1是本發明抽取式機器智能閱讀理解問答系統工作原理示意圖；

圖2是圖1的全文本搜索引擎es檢索流程框圖；

圖3是圖1文檔檢索模塊的文檔語義檢索流程框圖；

圖4是圖1閱讀理解問答模型的閱讀理解流程框圖；

圖5是圖1基于bert預訓練模型的閱讀理解流程示意圖；

圖6是bert預訓練模型工作流程示意圖；

圖7是多頭注意力attention機制示意圖；

圖8是多層神經網絡示意圖；

圖9是指針網絡示意圖；

圖10是結構特征提取框圖；

圖11是閱讀理解答案合并生成框圖。

為使本發明的目的、技術方案和優點更加清楚，下面結合實施方式和附圖，對本發明作進一步地詳細描述。

具體實施方式

參見圖1。在以下描述的優選實施例中，一種抽取式機器智能閱讀理解問答系統，包括：文本特征提取模塊,相連文檔庫的文檔檢索模塊、相連閱讀理解模型的閱讀理解模塊、答案合并預測模塊和模型優化模塊，其中文檔檢索模塊針對文檔庫中的海量文本文檔，構建全文本搜索引擎es檢索和語義檢索兩級文檔檢索體系，實現與查詢問題匹配文檔的粗篩選和精篩選，完成關聯文檔的縮減與排序，基于用戶問題輸入，采用es檢索技術實現海量文檔的粗檢索，形成問答查詢的初步文檔集，采用語義檢索技術實現問題與文檔的進一步匹配，形成問答查詢的最終文檔集；文本特征提取模塊通過閱讀理解預訓練模型提取問題與文檔深層語義特征，按人工設定規則提取問題與文檔的結構特征，結合語義特征和結構特征，完成問題與文檔的聯合特征表示；進而利用多層神經網絡模型對答案是否存在于文檔中進行預測，判斷文檔存在答案的概率，并采用指針網絡預測答案的起點和終點，獲取問題答案，完成答案的抽取，輸出答案的起點和終點；答案合并預測模塊綜合閱讀理解模型輸出的答案起點終點、對應概率對冗余答案進行合并，得到可能的答案列表以及對應的答案概率，選擇概率最高的答案作為問題的最終答案，向用戶提供答案。模型優化模塊通過已標注文檔集實現閱讀理解模型的訓練與優化，為問答系統提供更好的閱讀理解模型。

參見圖2。文檔檢索模塊通過全文本搜索引擎es(elasticsearch)技術實現文檔粗檢索，可以近乎實時的存儲、檢索數據。

全文本搜索引擎es將檢索分為查詢和取回兩個階段，在檢索查詢階段，全文本搜索引擎es采用基于概率檢索模型的bm25算法來評價搜索詞(問題)和文檔(document)之間相關性，利用bm25算法來計算問題與文檔的相似度。

bm25算法的流程可以概述為：bm25算法將單詞和文檔d之間的相關性、單詞和query之間的相關性和每個單詞的權重3部分組成單詞的分數；假設有一個查詢query和一批文檔ds，現在要計算查詢query和每篇文檔d之間的相關性分數：計算查詢query字符串和文檔d之間的分數，對單詞和文檔d之間的相關性、單詞和查詢query之間的相關性、每個單詞的權重中單詞的分數求和，對查詢query進行切分，得到單詞。查詢階段僅僅標識哪些文檔滿足搜索請求，獲取詳細文檔的過程在取回階段實現。

在取回階段：bm25算法首先創建一個主查詢請求對象：多線程下載軟件multiget，從服務器信息接口、搜索接口上獲取數據，執行多個get(multi-getrequest)請求，接收請求的接口的ip地址，獲取請求過來的地址，獲得表單提交的數據，批量獲取文檔，協調節點計算出文檔需要被取回并向相關分片提交多個get請求；每個分片加載并豐富文檔，遍歷數組，獲取當前系統相關聯的路徑信息，將獲取所有form表單中name屬性為“name”的值，返回一個數組，返回當前鏈接使用的協議，可得到value值；返回此次請求發送的cookie對象和包含在請求rul中路徑后面的查詢字符串，以字節數的長度返回請求體，并返回文檔給協調節點；一旦所有文檔都被取回了，協調節點將結果返回。

參見圖3。文檔檢索模塊基于詞移距離實現文檔語義檢索，從文本的整體上利用兩篇文檔的相似度，按相似度高低對全文本搜索引擎es檢索的文檔進行排序，采用無監督詞移距離wmd(wordmover’sdistance)方式的語義檢索來計算輸入語義檢索相關文檔的相似度，對于一個長度為n的詞匯表，每一個詞都有一個word2vec的嵌入embedding表示，這些embedding構成一個x∈r^d×n矩陣，其中每一列xi∈r^d代表一個d維嵌入embedding向量，r表示實數空間，d表示embedding的維度。

具體計算流程如下：

(1)文檔檢索模塊根據表示第i個詞的embeddingxi在文中出現的次數ci，計算每個單詞的歸一化詞袋模型(nbow)權重：

(2)計算第i個單詞的embeddingxi和第j個單詞的embeddingxj之間的距離：c(i，j)＝||xi-xj||2；

(3)根據nbow權重和單詞距離c(i,j)計算文檔doc和文檔doc'之間的距離，其中，i和j表示單詞序號。

設文檔doc中的任意一個詞i轉移到文檔doc'任何一個詞j的轉移代價是c(i，j)，為保證將文檔doc全部轉移到文檔doc'，必須滿足：文檔doc中從某單詞i流出的權重之和等于該單詞在文檔doc'中的nbow權重，即文檔doc'中流入某個單詞j的權重之和等于該單詞在文檔doc的nbow的權重，即其中，tij表示單詞i有多少的權重轉移到單詞j，表示文檔doc'中單詞j的nbow權重。

(4)文檔檢索模塊為使得到帶權重距離求和最小，構建單詞匹配目標函數，其表達式如下：

得到距離的最小值即為兩篇文檔的相似度，其中，t表示轉移矩陣，s.t表示約束條件(subjectto)。

參見圖4。閱讀理解模型是文檔問答的核心部分，是一個由問題和文檔到答案抽取的過程。本實施例中閱讀理解模型包括：語義特征提取子模塊及相連的多層神經網絡、定位網絡。語義特征提取子模塊針對用戶輸入的問題和文檔的組合，通過預訓練模型(如bert預訓練模型)等深度神經網絡模型將文本轉換為語義特征，即其中包含了上下文語義信息，也包含注意力機制引入的關鍵語義信息等的詞向量wordembedding；多層神經網絡根據語義特征提取子模塊所提取的語義特征，判斷當前文檔是否包含答案，定位網絡針對語義特征提取子模塊提取到的語義特征，定位答案的區間。

參見圖5。本實施例的閱讀理解模型可以分為語義特征挖掘層、答案存在概率計算層和答案起點終點計算層三個層次，第一層語義特征挖掘層采用bert預訓練模型級聯人工規則相結合的方式提取問題和文檔的語義特征；第二層答案存在概率計算層判斷當前文檔是否包含答案以及答案存在的概率；第三層答案起點終點計算層從當前文檔中提取出答案所在的區間以及起點和終點的概率。

參見圖6。bert預訓練模型的具體工作流程為：

①問題與文檔連接，進行分詞或分字處理，在前端加入分類標記字符[cls]，問題末端加入分割標記分隔符號sep字符，文檔末端加入同樣的分割標記字符[sep]。

②預處理之后的輸入通過讀取bert預訓練模型詞典得到每個字的wordembedding，根據分割字符，采用不同的編碼將問題與文檔分開，編碼即為句子的編碼向量segmentembedding，采用余弦距離計算每個字的位置信息，即positionembedding。

③三個嵌入層embedding信息疊加之后輸入到bert預訓練模型的編碼層，采用由自注意力和前饋神經網絡組成的transformer模型中的多個編碼器疊加而成，通過多頭注意力機制，來挖掘文檔的多重語義信息。

參見圖7。多頭注意力機制包括多個縮放點積注意力模塊，縮放點積注意力模塊根據下層線性層輸入的鍵k、值v、查詢q，對每個縮放點積注意力模塊提取的信息進行級聯，利用表示鍵向量維度dk的平方根鍵k、鍵值矩陣v、查詢q執行注意力計算。基于注意力attention機制神經網絡的注意力計算公式經過編碼器之后輸入的每個字符均有一個對應的特征表示，其中，t表示矩陣轉置，softmax表示歸一化指數函數。

參見圖8。問題和文檔首先經過結構特征模型中的命名實體識別，提取出問題和文檔中的實體，通過由人工設定的特征規則，以問題中實體個數為向量長度，向量中各元素初始值為0，將問題中實體與文檔中實體進行比對，如果問題中的某個實體包含在文檔中，則將當前實體對應的向量中元素值設置為1，反之則設置為0，構建出結構特征。

參見圖9。本實施例中的多層神經網絡包括：由bert預訓練模型和人工規則提取的聯合特征的輸入層、采用s型生長曲線sigmoid函數作為神經元的激勵函數的隱藏層、輸出層。由bert預訓練模型和人工規則提取的聯合特征作為輸入層神經元的輸入，隱藏層的輸出作為輸出層的輸入，隱藏層用采神經網絡的閾值函數sigmoid作為神經元的激勵函數經過歸一化指數函數softmax分別處理各個原始輸出值，將變量映射到0和1之間，得到文檔存在答案的概率，其中，wj為神經元對xj的權重，xj是輸入的第j個特征，b表示偏置。

參見圖10。本實施例采用指針網絡pointernetwork來預測答案區間的起點和終點，具體流程為：問題和文檔的聯合特征f0、f1、f2…f6輸入循環神經網絡rnn+注意力attention層，指針網絡產生一系列指向輸入序列元素的指針，對可變長度序列或集合的元素進行排序，捕捉文檔中答案的起點位置信息和對應的概率，選取概率最大的位置作為答案的起點；將答案起點對應的特征與循環神經網絡rnn中的隱藏狀態做注意力運算，得到所有特征對應的概率分布p0、p1…p6，選擇概率最大值對應的位置信息作為答案的終點。

參見圖11。針對一個問題，一篇文檔可能存在多個相似答案，本實施例，首先以輸入的答案起點、答案的終點和文檔概率，通過相似度計算確定相似答案，然后對相似答案進行合并，去除冗余答案，生成答案列表及對應的概率，并選擇概率最高的答案作為最終的答案輸出。

針對文檔的多樣性及問題類型的多樣性，本實施例通過采用開源的已標注語料實現模型的再訓練和模型優化，經測試達到指標要求后發布給問答系統。模型優化可以提升問答系統的泛化能力。

當前第1頁1 2

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：潘磊;代翔;黃細鳳;楊露
技術所有人：西南電子技術研究所(中國電子科技集團公司第十研究所)
我是此專利的發明人

上一篇：互聯網協議操作和管理選項的制作方法
下一篇：一種機織織物成品料加工用的烘干裝置的制作方法

該領域下的技術專家

1、李老師：1.計算力學 2.無損檢測

2、畢老師：機構動力學與控制

3、袁老師：1.計算機視覺 2.無線網絡及物聯網

4、王老師：1.計算機網絡安全 2.計算機仿真技術

5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態勢感知、輿情分析和控制 3.區塊鏈及應用

網友詢問留言留言:0條

還沒有人留言評論。精彩留言會獲得點贊！

文明留言，給您點贊！

同類技術