數據搜索方法和裝置的制作方法

文檔序號：6435891研發日期：2011年閱讀：211來源：國知局

技術簡介：
本專利針對傳統核心詞提取依賴人工模板導致效率低、召回率差的問題，提出基于詞性統計與相似度的自動提取方法。通過分析預設詞性詞語的歷史數據及相似性，無需人工模板即可精準提取核心詞，提升搜索召回率與準確性，同時支持多維度特征修正，優化搜索效果。
關鍵詞：核心詞提取,數據搜索方法

專利名稱：數據搜索方法和裝置的制作方法
技術領域：
本申請涉及互聯網領域，具體而言，涉及一種數據搜索方法和裝置。
背景技術：
隨著互聯網的發展，用戶越來越多地在網站上發布信息，這些發布的信息通常包括以短句的形式存在標題、信息內容等，當其他用戶通過網站對某類信息進行搜索時，網站可以通過查找之前發布的信息來將符合搜索條件的信息返回給該用戶。為了更快地查找出符合搜索條件的信息，網站需要對之前發布的信息提取核心詞(或稱為關鍵詞)，然后基于核心詞來進行搜索，這樣可以縮小查找范圍和提高查找的準確度。在現有的技術中，從發布信息中的短句中提取核心詞的方法主要采用的是基于詞性標簽模板的核心詞提取方法，其包括如下步驟SI,人工標記大量的模板,例如，模板I為η η η,其中，η表不名詞，第三個詞(Term)是核心詞；模板2為n pt pt η,其中，pt表示普通詞,第二個η是核心詞；S2，接收用戶輸入的短句，并對短句進行分詞，得到多個詞語以及該詞語對應的詞性；S3，將分詞得到的詞語對應的詞性以及詞性的位置關系與之前人工標記的模板進行匹配；S4,若成功匹配到一個標記的模板，則按照該模板的規定來確定用戶輸入的短句中哪個詞作為核心詞。例如，當輸入的短句為3G蘋果手機，通過分詞之后得到3個詞，即“3G”、“蘋果”和“手機”以及上述3個詞對應的詞性“η η η”;在與模板匹配的過程中，發現該短句中的3個詞的詞性及其位置關系與模板I相匹配，這樣，按照模板I的規定，將該短句中第3個詞作為核心詞，即，將“手機”作為核心詞；S5，若匹配不到相應的模板，則返回提取失敗消息。然而，上述數據搜索方法存在以下缺陷I)上述發布信息中的核心詞的提取步驟依賴于人工標識的模板，而由于漢語表達的靈活性和多樣性，若要窮盡所有的表達形式，則要事先標記大量的模板，這將導致在進行用戶輸入的短句與模板匹配時，需要與大量的模板進行匹配，無疑將增加匹配的時間，最終降低搜索的效率。而且通常情況下人工無法標識出所有可能存在的模板，從而導致部分發布信息無法提取出核心詞，以便無法將上述部分發布信息與其核心詞存儲在數據庫中。這樣，在搜索的過程，部分發布信息即使是查詢信息所要搜索的對象，但是，由于預先無法提取出這些發布信息的核心詞并將其存儲在數據庫中，因此使得通過在數據庫中搜索到與查詢信息中關鍵詞相對應的核心詞的方式，無法搜索到上述部分發布信息，從而不能將這些發布信息作為搜索到的結果返回，導致返回的搜索結果的數量較少，發布信息的召回率較低；2)隨著漢語表達的不斷更新，需要對模板進行動態的補充和更新，這樣需要持續投入大量的人力，從而造成人力成本較高，可升級性差；
3)由于人工標識的模板僅憑人為的經驗來規定核心詞，因此，往往會造成核心詞判斷不夠準確，從而導致搜索結果也不夠準確。

發明內容
本申請的主要目的在于提供一種數據搜索方法和裝置，以至少解決現有技術中由于核心詞提取不當導致的搜索召回率較低的問題。根據本申請的一個方面，提供了一種數據搜索方法，其包括接收包含關鍵詞的查詢信息；在數據庫中搜索與關鍵詞相對應的核心詞；將搜索到的核心詞所屬的發布信息作為搜索結果進行返回；其中，通過以下步驟預先在數據庫中存儲核心詞與核心詞所屬的發布信息接收輸入的發布信息，并對發布信息進行分詞得到一個或多個詞語以及與該詞語對應的詞性；從分詞得到的所有詞語中獲取詞性為預設詞性的詞語；根據詞性為預設詞性的詞語的歷史統計信息和/或詞性為預設詞性的詞語之間的相似度來從所獲取的詞性為預設詞性的詞語中提取發布信息的核心詞，并將該核心詞與該核心詞所屬的發布信息存儲在數據庫中。進一步的，根據詞性為預設詞性的詞語的歷史統計信息和/或詞性為預設詞性的詞語之間的相似度來從所獲取的詞性為預設詞性的詞語中提取短句的核心詞的步驟包括如果所獲取的詞性為預設詞性的詞語為I個，則將所獲取的詞性為預設詞性的詞語確定為發布信息的核心詞；如果所獲取的詞性為預設詞性的詞語為2個，則根據詞性為預設詞性的詞語的歷史統計信息從2個詞性為預設詞性的詞語中確定出發布信息的核心詞；如果所獲取的詞性為預設詞性的詞語多于2個，則將發布信息中最后一個詞性為預設詞性的詞語確定為發布信息的核心詞，并計算發布信息中詞性為預設詞性的其他詞語與最后一個詞性為預設詞性的詞語的相似度，在詞性為預設詞性的其他詞語中的一個與最后一個詞性為預設詞性的詞語的相似度大于第一預定閾值時，將詞性為預設詞性的其他詞語中的一個確定為發布信息的核心詞。進一步的，當2個詞性為預設詞性的詞語包括第一預設詞和第二預設詞、且第一預設詞在發布信息中位于第二預設詞之前時，根據詞性為預設詞性的詞語的歷史統計信息從2個詞性為預設詞性的詞語中確定出發布信息的核心詞的步驟包括在詞性為預設詞性的詞語的歷史統計信息中獲取在存在2個詞性為預設詞性的預詞語的情況下位置在前的預設詞為核心詞的概率與位置在后的預設詞為核心詞的概率；若位置在前的預設詞為核心詞的概率大于位置在后的預設詞為核心詞的概率，則將第一預設詞確定為發布信息的核心詞；若位置在前的預設詞為核心詞的概率小于位置在后的預設詞為核心詞的概率，則將第二預設詞確定為發布信息的核心詞；若位置在前的預設詞為核心詞的概率等于位置在后的預設詞為核心詞的概率，則將第一預設詞和第二預設詞確定為發布信息的核心詞。進一步的，在根據詞性為預設詞性的詞語的歷史統計信息和/或詞性為預設詞性的詞語之間的相似度來從所獲取的詞性為預設詞性的詞語中提取發布信息的核心詞之后，數據搜索方法還包括判斷發布信息是否具有對應的類目標識和供應商標識，其中，類目標識用于指示發布信息位于的類目，供應商標識用于指示發布發布信息的供應商；在多維度特征下對發布信息中待處理的詞語進行相關性判斷，其中，待處理的詞語包括核心詞和詞性為修飾詞的詞語；多維度特征包括以下至少之一類目的點擊率、類目下的詞頻、供應商的主營行業以及供應商的主營產品；根據相關性判斷的結果將核心詞的詞性標識為修飾詞，和/或，將詞性為修飾詞的詞語確定為核心詞。進一步的，通過以下步驟來根據相關性判斷的結果將核心詞的詞性標識為修飾詞，和/或，將詞性為修飾詞的詞語確定為核心詞判斷待處理的詞語在類目下的點擊率是否大于第二預定閾值，若大于，則判斷出類目的點擊率相關，否則，判斷出類目的點擊率不相關；判斷待處理的詞語在類目下的詞頻是否大于第三預定閾值，若大于，則判斷出類目的詞頻相關，否則，判斷出類目的詞頻不相關；判斷待處理的詞語所在的行業是否屬于供應商的主營行業，若屬于，則判斷出供應商的主營行業相關，否則，判斷出供應商的主營行業不相關；判斷待處理的詞語所在的產品類別是否屬于供應商的主營產品，若屬于，則判斷出供應商的主營產品相關，否則，判斷出供應商的主營產品不相關；在類目的點擊率相關、類目的詞頻相關、供應商的主營行業相關以及供應商的主營產品相關時，將待處理的詞語中詞性為修飾詞的詞語確定為核心詞；在類目的點擊率不相關、類目的詞頻不相關、供應商的主營行業不相關以及供應商的主營產品不相關時，將待處理的詞語中的核心詞的詞性標識為修飾詞。進一步的，從分詞得到的所有詞語中獲取詞性為預設詞性的詞語的步驟包括從分詞得到的所有詞語中識別出并列標識符；將相鄰兩個并列標識符之間的詞語劃分成一段，同時在每一段中執行獲取詞性為預設詞性的詞語的步驟。進一步的，預設詞性包括產品詞。根據本申請的另一方面，提供了一種數據搜索裝置，其包括創建單元，用于在數據庫中存儲核心詞與核心詞所屬的發布信息接收單元，用于接收包含關鍵詞的查詢信息；搜索單元，用于在數據庫中搜索與關鍵詞相對應的核心詞；發送單元，用于將搜索到的核心詞所屬于的發布信息作為搜索結果進行返回；其中，創建單元包括分詞單元，用于接收用戶輸入的發布信息，并對發布信息進行分詞得到一個或多個詞語以及與該詞語對應的詞性；獲取單元，用于從分詞得到的所有詞語中獲取詞性為預設詞性的詞語；提取單元，用于根據詞性為預設詞性的詞語的歷史統計信息和/或詞性為預設詞性的詞語之間的相似度來從所獲取的詞性為預設詞性的詞語中提取發布信息的核心詞，并將該核心詞與該核心詞所屬的發布信息存儲在數據庫中。進一步的，提取單元包括判斷模塊，用于判斷所獲取的詞性為預設詞性的詞語的個數；提取模塊，用于在所獲取的詞性為預設詞性的詞語為I個時，將所獲取的詞性為預設詞性的詞語確定為發布信息的核心詞；在所獲取的詞性為預設詞性的詞語為2個時，根據詞性為預設詞性的詞語的歷史統計信息從2個詞性為預設詞性的詞語中確定出發布信息的核心詞；在所獲取的詞性為預設詞性的詞語多于2個時，將發布信息中最后一個詞性為預設詞性的詞語確定為發布信息的核心詞，并計算發布信息中詞性為預設詞性的其他詞語與最后一個詞性為預設詞性的詞語的相似度，在詞性為預設詞性的其他詞語中的一個與最后一個詞性為預設詞性的詞語的相似度大于第一預定閾值時，將詞性為預設詞性的其他詞語中的一個確定為發布信息的核心詞。進一步的，當2個詞性為預設詞性的詞語為第一預設詞和第二預設詞、且第一預設詞在發布信息中位于第二預設詞之前時，提取模塊用于通過以下步驟來根據預設詞性的歷史統計信息從2個預設詞性中確定出發布信息的核心詞在詞性為預設詞性的詞語的歷史統計信息中獲取在存在2個預設詞的情況下位置在前的預設詞為核心詞的概率與位置在后的預設詞為核心詞的概率；若位置在前的預設詞為核心詞的概率大于位置在后的預設詞為核心詞的概率，則將第一預設詞確定為發布信息的核心詞；若位置在前的預設詞為核心詞的概率小于位置在后的預設詞為核心詞的概率，則將第二預設詞確定為發布信息的核心詞；若位置在前的預設詞為核心詞的概率等于位置在后的預設詞為核心詞的概率，則將第一預設詞和第二預設詞確定為發布信息的核心詞。進一步的，數據搜索裝置還包括判斷單元，用于在根據詞性為預設詞性的詞語的歷史統計信息和/或詞性為預設詞性的詞語之間的相似度來從所獲取的詞性為預設詞性的詞語中提取發布信息的核心詞之后，判斷發布信息是否具有對應的類目標識和供應商標識，其中，類目標識用于指示發布信息位于的類目，供應商標識用于指示發布發布信息的供應商；相關性處理單元，用于在多維度特征下對發布信息中待處理的詞語進行相關性判斷，其中，待處理的詞語包括核心詞和詞性為修飾詞的詞語；多維度特征包括以下至少之一類目的點擊率、類目下的詞頻、供應商的主營行業以及供應商的主營產品；根據相關性判斷的結果將核心詞的詞性標識為修飾詞，和/或，將詞性為修飾詞的詞語確定為核心詞。進一步的，相關性處理單元用于通過以下步驟來根據相關性判斷的結果將核心詞的詞性標識為修飾詞，和/或，將詞性為修飾詞的詞語確定為核心詞判斷待處理的詞語在類目下的點擊率是否大于第二預定閾值，若大于，則判斷出類目的點擊率相關，否則，判斷出類目的點擊率不相關；判斷待處理的詞語在類目下的詞頻是否大于第三預定閾值，若大于，則判斷出類目的詞頻相關，否則，判斷出類目的詞頻不相關；判斷待處理的詞語所在的行業是否屬于供應商的主營行業，若屬于，則判斷出供應商的主營行業相關，否則，判斷出供應商的主營行業不相關；判斷待處理的詞語所在的產品類別是否屬于供應商的主營產品，若屬于，則判斷出供應商的主營產品相關，否則，判斷出供應商的主營產品不相關；在類目的點擊率相關、類目的詞頻相關、供應商的主營行業相關以及供應商的主營廣品相關時，將待處理的詞語中詞性為修飾詞的詞語確定為核心詞；在類目的點擊率不相關、類目的詞頻不相關、供應商的主營行業不相關以及供應商的主營產品不相關時，將待處理的詞語中的核心詞的詞性標識為修飾詞。進一步的，分詞單元包括識別模塊，用于從分詞得到的所有詞語中識別出并列標識符；獲取模塊，用于將相鄰兩個并列標識符之間的詞語劃分成一段，同時在每一段中獲取詞性為預設詞性的詞語。通過本申請的技術方案，能夠達到以下有益效果I)本申請通過詞性為預設詞性的詞語的歷史統計信息和/或詞性為預設詞性的詞語之間的相似度來提取發布信息中的核心詞，而不使用人為標記的模板，由于詞性為預設詞性的詞語的歷史統計信息和/或詞性為預設詞性的詞語之間的相似度并不是僅針對于某一類短語，而是適用于所有的短句的核心詞提取，因此，基于詞性為預設詞性的詞語的歷史統計信息和/或詞性為預設詞性的詞語之間的相似度，可以成功地從不同的短句中提取出核心詞，從而能夠提取所有發布信息中的核心詞，并將該核心詞及其所屬的發布信息存儲數據庫中。這樣，在搜索的過程中，通過在數據庫中搜索到與查詢信息中關鍵詞相對應的核心詞的方式，可以搜索到所有已發布的與查詢信息中關鍵詞相對應的發布信息，并將這些發布信息作為搜索到的結果返回，從而增加了返回的搜索結果的數量，提高了發布信息的召回率。進一步，詞性為預設詞性的詞語的歷史統計信息反映了每一類的短句中的詞性為預設詞性的詞語在歷史統計中作為核心詞的概率，從而可以利用該歷史統計信息準確地提取出核心詞，保證了利用核心詞進行搜索得到的搜索結果的準確度；2)本申請在多維度下對確定的核心詞進行了進一步修正，使得在不同場景下能夠提取出準確的核心詞；3)本申請對輸入的短句進行分段，并同時在每一段中獲取詞性為產品詞的詞語，這樣在用戶輸入的短句存在并列的若干段詞語的情況下，能夠減少提取核心詞的時間，提
高效率。當然，實施本申請的任一產品并不一定需要同時達到以上所述的所有優點。

此處所說明的附圖用來提供對本申請的進一步理解，構成本申請的一部分，本申請的示意性實施例及其說明用于解釋本申請，并不構成對本申請的不當限定。在附圖中圖1是根據本申請實施例的數據搜索系統的一種優選的結構圖；圖2是根據本申請實施例的數據搜索裝置的一種優選的結構圖；圖3是根據本申請實施例的數據搜索方法的一種優選的流程圖；圖4是根據本申請實施例的數據搜索方法的另一種優選的流程圖。
具體實施例方式下文中將參考附圖并結合實施例來詳細說明本申請。需要說明的是，在不沖突的情況下，本申請中的實施例及實施例中的特征可以相互組合。在描述本申請的各實施例的進一步細節之前，將參考圖1來描述可用于實現本申請的原理的一個合適的計算體系結構。在以下描述中，除非另外指明，否則將參考由一個或多個計算機執行的動作和操作的符號表示來描述本申請的各實施例。由此，可以理解，有時被稱為計算機執行的這類動作和操作包括計算機的處理單元對以結構化形式表示數據的電信號的操縱。這一操縱轉換了數據或在計算機的存儲器系統中的位置上維護它，這以本領域的技術人員都理解的方式重配置或改變了計算機的操作。維護數據的數據結構是具有數據的格式所定義的特定屬性的存儲器的物理位置。然而，盡管在上述上下文中描述本申請，但它并不意味著限制性的，如本領域的技術人員所理解的，后文所描述的動作和操作的各方面也可用硬件來實現。轉向附圖，其中相同的參考標號指代相同的元素，本申請的原理被示為在一個合適的計算環境中實現。以下描述基于所述的本申請的實施例，并且不應認為是關于此處未明確描述的替換實施例而限制本申請。圖1示出了可用于這些設備的一個示例計算機體系結構的示意圖。出于描述的目的，所繪的體系結構僅為合適環境的一個示例，并非對本申請的使用范圍或功能提出任何局限。也不應將該計算系統解釋為對圖1所示的任一組件或其組合具有任何依賴或需求。本申請的原理可以使用其它通用或專用計算或通信環境或配置來操作。適用于本申請的眾所周知的計算系統、環境和配置的示例包括但不限于，個人計算機、服務器，多處理器系統、基于微處理的系統、小型機、大型計算機、以及包括任一上述系統或設備的分布式計算環境。在其最基本的配置中，圖1中的數據搜索系統100至少包括一個網站的服務器102以及一個或多個客戶端104。服務器102可以包括但不限于微處理器MCU或可編程邏輯器件FPGA等的處理裝置、用于存儲數據的存儲裝置以及與客戶端通信的傳輸裝置；客戶端104可以包括微處理器MCU、與服務器通信的傳輸裝置、與用戶交互的顯示裝置。在本說明書和權利要求書中，“數據搜索系統”也可以被定義為能夠執行軟件、固件或微碼來實現功能的任何硬件組件或硬件組件的組合。數據搜索系統100甚至可以是分布式的，以實現分布式功能。如本申請所使用的，術語“模塊”、“組件”或“單元”可以指在數據搜索系統100上執行的軟件對象或例程。此處所描述的不同組件、模塊、單元、引擎和服務可被實現為在數據搜索系統100上執行(例如，作為單獨的線程)的對象或進程。盡管此處所描述的系統和方法較佳地以軟件來實現，但是硬件或軟件和硬件的組合的實現也是可能并被構想的。實施例1如圖1所示，數據搜索系統100包括網站的服務器102和客戶端104。在工作過程中，客戶端104向服務器102發送發布信息；在接收發布信息之后，服務器102對所述發布信息進行分詞得到一個或多個詞語以及與該詞語對應的詞性，從分詞得到的所有詞語中獲取詞性為預設詞性的詞語，并根據詞性為所述預設詞性的詞語的歷史統計信息和/或詞性為所述預設詞性的詞語之間的相似度來從所獲取的詞性為所述預設詞性的詞語中提取所述發布信息的核心詞，并將該核心詞與該核心詞所屬的發布信息存儲在所述數據庫中。當用戶通過客戶端104向服務器102發送查詢信息時，服務器102在所述數據庫中搜索與所述關鍵詞相對應的核心詞，并將搜索到的核心詞所屬于的發布信息作為搜索結果進行返回。在上述優選的實施例中，通過詞性為預設詞性的詞語的歷史統計信息和/或詞性為預設詞性的詞語之間的相似度來提取發布信息中的核心詞，而不使用人為標記的模板，由于詞性為預設詞性的詞語的歷史統計信息和/或詞性為預設詞性的詞語之間的相似度并不是僅針對于某一類短語，而是適用于所有的短句的核心詞提取，因此，基于詞性為預設詞性的詞語的歷史統計信息和/或詞性為預設詞性的詞語之間的相似度，可以成功地從不同的短句中提取出核心詞，從而能夠提取所有發布信息中的核心詞，并將該核心詞及其所屬的發布信息存儲數據庫中。這樣，在搜索的過程中，通過在數據庫中搜索到與查詢信息中關鍵詞相對應的核心詞的方式，可以搜索到所有已發布的與查詢信息中關鍵詞相對應的發布信息，并將這些發布信息作為搜索到的結果返回，從而增加了返回的搜索結果的數量，提高了發布信息的召回率。進一步，詞性為預設詞性的詞語的歷史統計信息反映了每一類的短句中的詞性為預設詞性的詞語在歷史統計中作為核心詞的概率，從而可以利用該歷史統計信息準確地提取出核心詞，保證了利用核心詞進行搜索得到的搜索結果的準確度。而且，由于本申請實施例不會像現有技術那樣在大量的模板中進行匹配，而只是將查詢信息中的關鍵詞與發布信息的核心詞進行匹配，因此提高了搜索的效率。在本發明中，預設詞性可以包括但不限于產品詞。以下以預設詞性為產品詞為例來描述各個優選的實施例，當然，可以理解的是以下各個實施例也可以適用于預設詞性為其他詞的場景。
本申請提出了一種優選的數據搜索裝置，其位于服務器102中，如圖2所示，根據本申請實施例的數據搜索裝置包括創建單元200，用于在數據庫中存儲核心詞與核心詞所屬的發布信息；接收單元208，用于接收包含關鍵詞的查詢信息；搜索單元，用于在所述數據庫中搜索與所述關鍵詞相對應的核心詞；發送單元210，用于將搜索到的核心詞所屬于的發布信息作為搜索結果進行返回。其中，創建單元200包括分詞單元202，用于接收用戶輸入的發布信息，并對所述發布信息進行分詞得到一個或多個詞語以及與該詞語對應的詞性；獲取單元204，用于從分詞得到的所有詞語中獲取詞性為產品詞的詞語；提取單元206，用于根據所述產品詞的歷史統計信息和/或所述產品詞之間的相似度來從所獲取的產品詞中提取所述發布信息的核心詞，并將該核心詞與該核心詞所屬的發布信息存儲在所述數據庫中。在上述優選的實施例中，通過產品詞的歷史統計信息和/或產品詞之間的相似度來提取發布信息中的核心詞，而不使用人為標記的模板，由于產品詞的歷史統計信息和/或產品詞之間的相似度并不是僅針對于某一類短語，而是適用于所有的短句的核心詞提取，因此，基于產品詞的歷史統計信息和/或產品詞之間的相似度，可以成功地從不同的短句中提取出核心詞，從而能夠提取所有發布信息中的核心詞，并將該核心詞及其所屬的發布信息存儲數據庫中。這樣，在搜索的過程中，通過在數據庫中搜索到與查詢信息中關鍵詞相對應的核心詞的方式，可以搜索到所有已發布的與查詢信息中關鍵詞相對應的發布信息，并將這些發布信息作為搜索到的結果返回，從而增加了返回的搜索結果的數量，提高了發布信息的召回率。進一步，產品詞的歷史統計信息反映了每一類的短句中的產品詞在歷史統計中作為核心詞的概率，從而可以利用該歷史統計信息準確地提取出核心詞，保證了利用核心詞進行搜索得到的搜索結果的準確度。為了適用于所有不同類別的發布信息，本申請還對提取單元進行了改進，其對于不同個數的產品詞，采用不同的提取方法，從而能夠在不同應用場景下實現對發布信息的核心詞的提取，避免了在不同的應用場景下開發不同的模板，提高了方案的移植性。具體而言，提取單元206包括判斷模塊2061，用于判斷所獲取的產品詞的個數；提取模塊2062，用于在所獲取的產品詞為I個時，將所獲取的產品詞確定為所述發布信息的核心詞；在所獲取的產品詞為2個時，根據產品詞的歷史統計信息從所述2個產品詞中確定出所述發布信息的核心詞；在所獲取的產品詞多于2個時,將所述發布信息中最后一個產品詞確定為所述發布信息的核心詞，并計算所述發布信息中其他產品詞與所述最后一個產品詞的相似度，在所述其他產品詞中的一個與所述最后一個產品詞的相似度大于第一預定閾值時，將所述其他產品詞中的所述一個確定為所述發布信息的核心詞。當然，上述實施例中提到的“在所獲取的產品詞為2個時，采用產品詞的歷史統計信息進行核心詞的提取；在所獲取的產品詞多于2個時，采用相似度來進行核心詞的提取”這只是一種示例，本申請不僅限于此，例如，可以在所獲取的產品詞為N個時，采用產品詞的歷史統計信息進行核心詞的提取；在所獲取的產品詞多于N個時，采用相似度來進行核心詞的提取，其中，N > 3。優選的，上述相似度的計算可以采用現有技術中的計算方式，本申請對此不作限定。優選的，上述歷史統計信息可以來自于服務器存儲的歷史上對核心詞提取的統計信息。
本申請還對提取模塊2062做出了進一步改進，其中，提取模塊2062利用了產品詞的歷史統計信息來計算每一類發布信息中的產品詞在歷史統計中作為核心詞的概率，從而可以利用該歷史統計信息準確地提取出核心詞，保證了利用核心詞進行搜索得到的搜索結果的準確度。具體而言，當所述2個產品詞為第一產品詞和第二產品詞、且所述第一產品詞在所述發布信息中位于第二產品詞之前時，提取模塊2062用于通過以下步驟來根據產品詞的歷史統計信息從所述2個產品詞中確定出所述發布信息的核心詞在產品詞的歷史統計信息中獲取在存在2個產品詞的情況下位置在前的產品詞為核心詞的概率與位置在后的產品詞為核心詞的概率；若所述位置在前的產品詞為核心詞的概率大于所述位置在后的產品詞為核心詞的概率，則將所述第一產品詞確定為所述發布信息的核心詞；若所述位置在前的產品詞為核心詞的概率小于所述位置在后的產品詞為核心詞的概率，則將所述第二產品詞確定為所述發布信息的核心詞；若所述位置在前的產品詞為核心詞的概率等于所述位置在后的產品詞為核心詞的概率，則將所述第一產品詞和所述第二產品詞確定為所述發布信息的核心詞。此外，本申請還在多維度下對核心詞進行了進一步修正，使得在不同場景下能夠提取出準確的核心詞。為了實現上述目的，本申請提供了一種優選的在發布信息中提取核心詞的裝置，其在上述各個實施例的基礎上，還包括判斷單元212，用于在根據產品詞的歷史統計信息和/或產品詞之間的相似度來從所獲取的產品詞中提取所述發布信息的核心詞之后，判斷所述發布信息是否具有對應的類目標識和供應商標識，其中，所述類目標識用于指示所述發布信息位于的類目，所述供應商標識用于指示發布所述發布信息的供應商；相關性處理單元214，用于在多維度特征下對所述發布信息中待處理的詞語進行相關性判斷，其中，所述待處理的詞語包括所述核心詞和詞性為修飾詞的詞語；所述多維度特征包括以下至少之一所述類目的點擊率、所述類目的產品詞頻、所述供應商的主營行業以及所述供應商的主營產品；根據相關性判斷的結果將所述核心詞的詞性標識為修飾詞，和/或，將所述詞性為修飾詞的詞語確定為核心詞。優選的，所述相關性處理單元214用于通過以下步驟來根據相關性判斷的結果將所述核心詞的詞性標識為修飾詞，和/或，將所述詞性為修飾詞的詞語確定為核心詞SI，判斷所述待處理的詞語在所述類目下的點擊率是否大于第二預定閾值，若大于，則判斷出所述類目的點擊率相關，否則，判斷出所述類目的點擊率不相關；S2，判斷所述待處理的詞語在所述類目下的產品詞頻次是否大于第三預定閾值，若大于，則判斷出所述類目的產品詞頻相關，否則，判斷出所述類目的產品詞頻不相關；S3，判斷所述待處理的詞語所在的行業是否屬于所述供應商的主營行業，若屬于，則判斷出所述供應商的主營行業相關，否則，判斷出所述供應商的主營行業不相關；S4，判斷所述待處理的詞語所在的產品類別是否屬于所述供應商的主營產品，若屬于，則判斷出所述供應商的主營產品相關，否則，判斷出所述供應商的主營產品不相關；S5，在所述類目的點擊率相關、所述類目的產品詞頻相關、所述供應商的主營行業相關以及所述供應商的主營產品相關時，將所述待處理的詞語中所述詞性為修飾詞的詞語確定為核心詞；S6，在所述類目的點擊率不相關、所述類目的產品詞頻不相關、所述供應商的主營行業不相關以及所述供應商的主營產品不相關時，將所述待處理的詞語中的所述核心詞的詞性標識為修飾詞。當然，本申請對S1-S4、S5-S6執行順序不做限定，例如，還可以按照S4-S1、S6-S5的順序來執行。為了進一步減少提取核心詞的時間，本申請對分詞單元進行了進一步改進。具體而言，分詞單元202可以包括識別模塊2021，用于從分詞得到的所有詞語中識別出并列標識符；獲取模塊2022，用于將相鄰兩個并列標識符之間的所述詞語劃分成一段，同時在每一段中獲取詞性為產品詞的詞語。在本優選的實施例中，在用戶輸入的發布信息存在并列的若干段詞語的情況下，通過同時在每一段中獲取詞性為產品詞的詞語，能夠減少提取核心詞的時間，提聞效率。優選的，本申請中的分詞方法可以采用現有技術中的分詞方法，本申請對此，不做限定。在本申請的各個實施例中，發布信息中的詞語的詞性主要包括但不限于CP (產品詞)、CP_C0RE (產品核心詞)、CP_XIUSHI (產品修飾詞)、XS ( —般性修飾詞)、PP (品牌詞)、XH(型號詞)、QH(區劃詞)、BL(并列詞)、以及PT (普通詞)。實施例2在圖1-圖2所示的數據搜索系統和裝置的基礎上，本申請還提供了一種數據搜索方法，如圖3所示，其包括如下步驟S302，接收包含關鍵詞的查詢信息；S304，在數據庫中搜索與關鍵詞相對應的核心詞；優選的，通過以下步驟預先在數據庫中存儲核心詞與核心詞所屬的發布信息接收輸入的發布信息，并對發布信息進行分詞得到一個或多個詞語以及與該詞語對應的詞性；從分詞得到的所有詞語中獲取詞性為預設詞性的詞語；根據詞性為所述預設詞性的詞語的歷史統計信息和/或詞性為所述預設詞性的詞語之間的相似度來從所獲取的詞性為所述預設詞性的詞語中提取發布信息的核心詞，并將該核心詞與該核心詞所屬的發布信息存儲在數據庫中；S306，將搜索到的核心詞所屬的發布信息作為搜索結果進行返回。在上述優選的實施例中，通過詞性為預設詞性的詞語的歷史統計信息和/或詞性為預設詞性的詞語之間的相似度來提取發布信息中的核心詞，而不使用人為標記的模板，由于詞性為預設詞性的詞語的歷史統計信息和/或詞性為預設詞性的詞語之間的相似度并不是僅針對于某一類短語，而是適用于所有的短句的核心詞提取，因此，基于詞性為預設詞性的詞語的歷史統計信息和/或詞性為預設詞性的詞語之間的相似度，可以成功地從不同的短句中提取出核心詞，從而能夠提取所有發布信息中的核心詞，并將該核心詞及其所屬的發布信息存儲數據庫中。這樣，在搜索的過程中，通過在數據庫中搜索到與查詢信息中關鍵詞相對應的核心詞的方式，可以搜索到所有已發布的與查詢信息中關鍵詞相對應的發布信息，并將這些發布信息作為搜索到的結果返回，從而增加了返回的搜索結果的數量，提高了發布信息的召回率。進一步，產品詞的歷史統計信息反映了每一類的短句中的詞性為預設詞性的詞語在歷史統計中作為核心詞的概率，從而可以利用該歷史統計信息準確地提取出核心詞，保證了利用核心詞進行搜索得到的搜索結果的準確度。而且，由于本申請實施例不會像現有技術那樣在大量的模板中進行匹配，而只是將查詢信息中的關鍵詞與發布信息的核心詞進行匹配，因此提高了搜索的效率。
在本發明中，預設詞性可以包括但不限于產品詞。以下以預設詞性為產品詞為例來描述各個優選的實施例，當然，可以理解的是以下各個實施例也可以適用于預設詞性為其他詞的場景。為了適用于所有不同類別的發布信息，本申請還對上述的提取步驟進行了改進，其對于不同個數的產品詞，采用不同的提取方法，從而能夠在不同應用場景下實現對發布信息的核心詞的提取，避免了在不同的應用場景下開發不同的模板，提高了方案的移植性。具體而言，根據產品詞的歷史統計信息和/或產品詞之間的相似度來從所獲取的產品詞中提取所述發布信息的核心詞的步驟包括如果所獲取的產品詞為I個，則將所獲取的產品詞確定為所述發布信息的核心詞；如果所獲取的產品詞為2個，則根據產品詞的歷史統計信息從所述2個產品詞中確定出所述發布信息的核心詞；如果所獲取的產品詞多于2個，則將所述發布信息中最后一個產品詞確定為所述發布信息的核心詞，并計算所述發布信息中其他產品詞與所述最后一個產品詞的相似度，在所述其他產品詞中的一個與所述最后一個產品詞的相似度大于第一預定閾值時，將所述其他產品詞中的所述一個確定為所述發布信息的核心詞。當然，上述實施例中提到的“在所獲取的產品詞為2個時，采用產品詞的歷史統計信息進行核心詞的提取；在所獲取的產品詞多于2個時，采用相似度來進行核心詞的提取”這只是一種示例，本申請不僅限于此，例如，可以在所獲取的產品詞為N個時，采用產品詞的歷史統計信息進行核心詞的提取；在所獲取的產品詞多于N個時，采用相似度來進行核心詞的提取，其中，N > 3。優選的，上述相似度的計算可以采用現有技術中的計算方式，本申請對此不作限定。優選的，上述歷史統計信息可以來自于服務器存儲的歷史上對核心詞提取的統計信息。本申請還對根據產品詞的歷史統計信息從所述2個產品詞中確定出所述發布信息的核心詞的步驟做出了進一步改進，其中，利用了產品詞的歷史統計信息來計算每一類發布信息中的產品詞在歷史統計中作為核心詞的概率，從而可以利用該歷史統計信息準確地提取出核心詞，保證了利用核心詞進行搜索得到的搜索結果的準確度。具體而言，當所述2個產品詞為第一產品詞和第二產品詞、且所述第一產品詞在所述發布信息中位于第二產品詞之前時，根據產品詞的歷史統計信息從所述2個產品詞中確定出所述發布信息的核心詞的步驟包括在產品詞的歷史統計信息中獲取在存在2個產品詞的情況下位置在前的產品詞為核心詞的概率與位置在后的產品詞為核心詞的概率；若所述位置在前的產品詞為核心詞的概率大于所述位置在后的產品詞為核心詞的概率，則將所述第一產品詞確定為所述發布信息的核心詞；若所述位置在前的產品詞為核心詞的概率小于所述位置在后的產品詞為核心詞的概率，則將所述第二產品詞確定為所述發布信息的核心詞；若所述位置在前的產品詞為核心詞的概率等于所述位置在后的產品詞為核心詞的概率，則將所述第一產品詞和所述第二產品詞確定為所述發布信息的核心詞。此外，本申請還在多維度下對核心詞進行了進一步修正，使得在不同場景下能夠提取出準確的核心詞。為了實現上述目的，在根據產品詞的歷史統計信息和/或產品詞之間的相似度來從所獲取的產品詞中提取所述發布信息的核心詞之后，還包括判斷所述發布信息是否具有對應的類目標識和供應商標識，其中，所述類目標識用于指示所述發布信息位于的類目，所述供應商標識用于指示發布所述發布信息的供應商；在多維度特征下對所述發布信息中待處理的詞語進行相關性判斷，其中，所述待處理的詞語包括所述核心詞和詞性為修飾詞的詞語；所述多維度特征包括以下至少之一所述類目的點擊率、所述類目的產品詞頻、所述供應商的主營行業以及所述供應商的主營產品；根據相關性判斷的結果將所述核心詞的詞性標識為修飾詞，和/或，將所述詞性為修飾詞的詞語確定為核心詞。優選的，通過以下步驟來根據相關性判斷的結果將所述核心詞的詞性標識為修飾詞，和/或，將所述詞性為修飾詞的詞語確定為核心詞SI，判斷所述待處理的詞語在所述類目下的點擊率是否大于第二預定閾值，若大于，則判斷出所述類目的點擊率相關，否則，判斷出所述類目的點擊率不相關；S2，判斷所述待處理的詞語在所述類目下的產品詞頻次是否大于第三預定閾值，若大于，則判斷出所述類目的產品詞頻相關，否則，判斷出所述類目的產品詞頻不相關；S3，判斷所述待處理的詞語所在的行業是否屬于所述供應商的主營行業，若屬于，則判斷出所述供應商的主營行業相關，否則，判斷出所述供應商的主營行業不相關；S4，判斷所述待處理的詞語所在的產品類別是否屬于所述供應商的主營產品，若屬于，則判斷出所述供應商的主營產品相關，否則，判斷出所述供應商的主營產品不相關；S5，在所述類目的點擊率相關、所述類目的產品詞頻相關、所述供應商的主營行業相關以及所述供應商的主營產品相關時，將所述待處理的詞語中所述詞性為修飾詞的詞語確定為核心詞；S6，在所述類目的點擊率不相關、所述類目的產品詞頻不相關、所述供應商的主營行業不相關以及所述供應商的主營產品不相關時，將所述待處理的詞語中的所述核心詞的詞性標識為修飾詞。當然，本申請對S1-S4、S5-S6執行順序不做限定，例如，還可以按照S4-S1、S6-S5的順序來執行。為了進一步減少提取核心詞的時間，本申請對分詞步驟進行了進一步改進。具體而言，從分詞得到的所有詞語中獲取詞性為產品詞的詞語的步驟包括從分詞得到的所有詞語中識別出并列標識符；將相鄰兩個并列標識符之間的所述詞語劃分成一段，同時在每一段中執行獲取詞性為產品詞的詞語的步驟。在本優選的實施例中，在用戶輸入的發布信息存在并列的若干段詞語的情況下，通過同時在每一段中獲取詞性為產品詞的詞語，能夠減少提取核心詞的時間，提聞效率。實施例3為了更好的理解本申請，下面結合附圖來描述數據搜索方法中的一種優選的核心詞提取方法，如圖4所示，根據本申請實施例的提取核心詞的方法包括如下步驟S402，接收用戶輸入的短句(其中，類目標識、供應商標識為可選)以作為發布信息。例如，輸入的短句為供應mp3\mp4車載發射器；S404，對短句進行分詞。優選的，本申請中的分詞方法可以采用現有技術中的分詞方法，本申請對此，不做限定。例如，對上述短句“供應mp3\mp4車載發射器”分詞之后得到多個詞語及每個詞語對應的詞性，如下表所示
權利要求
1.一種數據搜索方法，其特征在于，包括接收包含關鍵詞的查詢信息；在數據庫中搜索與所述關鍵詞相對應的核心詞；將搜索到的核心詞所屬的發布信息作為搜索結果進行返回；其中，通過以下步驟預先在所述數據庫中存儲核心詞與核心詞所屬的發布信息接收輸入的發布信息，并對所述發布信息進行分詞得到一個或多個詞語以及與該詞語對應的詞性；從分詞得到的所有詞語中獲取詞性為預設詞性的詞語；根據詞性為所述預設詞性的詞語的歷史統計信息和/或詞性為所述預設詞性的詞語之間的相似度來從所獲取的詞性為所述預設詞性的詞語中提取所述發布信息的核心詞，并將該核心詞與該核心詞所屬的發布信息存儲在所述數據庫中。
2.根據權利要求1所述的方法，其特征在于，根據詞性為所述預設詞性的詞語的歷史統計信息和/或詞性為所述預設詞性的詞語之間的相似度來從所獲取的詞性為所述預設詞性的詞語中提取所述短句的核心詞的步驟包括如果所獲取的詞性為所述預設詞性的詞語為I個，則將所獲取的詞性為所述預設詞性的詞語確定為所述發布信息的核心詞；如果所獲取的詞性為所述預設詞性的詞語為2個，則根據詞性為所述預設詞性的詞語的歷史統計信息從所述2個詞性為所述預設詞性的詞語中確定出所述發布信息的核心詞；如果所獲取的詞性為所述預設詞性的詞語多于2個，則將所述發布信息中最后一個詞性為所述預設詞性的詞語確定為所述發布信息的核心詞，并計算所述發布信息中詞性為所述預設詞性的其他詞語與所述最后一個詞性為所述預設詞性的詞語的相似度，在所述詞性為所述預設詞性的其他詞語中的一個與所述最后一個詞性為所述預設詞性的詞語的相似度大于第一預定閾值時，將所述詞性為所述預設詞性的其他詞語中的所述一個確定為所述發布信息的核心詞。
3.根據權利要求2所述的方法，其特征在于，當所述2個詞性為所述預設詞性的詞語包括第一預設詞和第二預設詞、且所述第一預設詞在所述發布信息中位于第二預設詞之前時，根據詞性為所述預設詞性的詞語的歷史統計信息從所述2個詞性為所述預設詞性的詞語中確定出所述發布信息的核心詞的步驟包括在所述詞性為所述預設詞性的詞語的歷史統計信息中獲取在存在2個詞性為所述預設詞性的預詞語的情況下位置在前的預設詞為核心詞的概率與位置在后的預設詞為核心詞的概率；若所述位置在前的預設詞為核心詞的概率大于所述位置在后的預設詞為核心詞的概率，則將所述第一預設詞確定為所述發布信息的核心詞；若所述位置在前的預設詞為核心詞的概率小于所述位置在后的預設詞為核心詞的概率，則將所述第二預設詞確定為所述發布信息的核心詞；若所述位置在前的預設詞為核心詞的概率等于所述位置在后的預設詞為核心詞的概率，則將所述第一預設詞和所述第二預設詞確定為所述發布信息的核心詞。
4.根據權利要求1所述的方法，其特征在于，在根據所述詞性為所述預設詞性的詞語的歷史統計信息和/或所述詞性為所述預設詞性的詞語之間的相似度來從所獲取的詞性為所述預設詞性的詞語中提取所述發布信息的核心詞之后，還包括判斷所述發布信息是否具有對應的類目標識和供應商標識，其中，所述類目標識用于指示所述發布信息位于的類目，所述供應商標識用于指示發布所述發布信息的供應商；在多維度特征下對所述發布信息中待處理的詞語進行相關性判斷，其中，所述待處理的詞語包括所述核心詞和詞性為修飾詞的詞語；所述多維度特征包括以下至少之一所述類目的點擊率、所述類目下的詞頻、所述供應商的主營行業以及所述供應商的主營產品;根據相關性判斷的結果將所述核心詞的詞性標識為修飾詞，和/或，將所述詞性為修飾詞的詞語確定為核心詞。
5.根據權利要求4所述的方法，其特征在于，通過以下步驟來根據相關性判斷的結果將所述核心詞的詞性標識為修飾詞，和/或，將所述詞性為修飾詞的詞語確定為核心詞判斷所述待處理的詞語在所述類目下的點擊率是否大于第二預定閾值，若大于，則判斷出所述類目的點擊率相關，否則，判斷出所述類目的點擊率不相關；判斷所述待處理的詞語在所述類目下的詞頻是否大于第三預定閾值，若大于，則判斷出所述類目的詞頻相關，否則，判斷出所述類目的詞頻不相關；判斷所述待處理的詞語所在的行業是否屬于所述供應商的主營行業，若屬于，則判斷出所述供應商的主營行業相關，否則，判斷出所述供應商的主營行業不相關；判斷所述待處理的詞語所在的產品類別是否屬于所述供應商的主營產品，若屬于，則判斷出所述供應商的主營產品相關，否則，判斷出所述供應商的主營產品不相關；在所述類目的點擊率相關、所述類目的詞頻相關、所述供應商的主營行業相關以及所述供應商的主營產品相關時，將所述待處理的詞語中所述詞性為修飾詞的詞語確定為核心詞在所述類目的點擊率不相關、所述類目的詞頻不相關、所述供應商的主營行業不相關以及所述供應商的主營產品不相關時，將所述待處理的詞語中的所述核心詞的詞性標識為修飾詞。
6.根據權利要求1所述的方法，其特征在于，從分詞得到的所有詞語中獲取詞性為預設詞性的詞語的步驟包括從分詞得到的所有詞語中識別出并列標識符；將相鄰兩個并列標識符之間的所述詞語劃分成一段，同時在每一段中執行獲取詞性為預設詞性的詞語的步驟。
7.根據權利要求1所述的方法，其特征在于，所述預設詞性包括產品詞。
8.一種數據搜索裝置，其特征在于，包括創建單元，用于在數據庫中存儲核心詞與核心詞所屬的發布信息接收單元，用于接收包含關鍵詞的查詢信息；搜索單元，用于在所述數據庫中搜索與所述關鍵詞相對應的核心詞；發送單元，用于將搜索到的核心詞所屬于的發布信息作為搜索結果進行返回；其中，所述創建單元包括分詞單元，用于接收用戶輸入的發布信息，并對所述發布信息進行分詞得到一個或多個詞語以及與該詞語對應的詞性；獲取單元，用于從分詞得到的所有詞語中獲取詞性為預設詞性的詞語；提取單元，用于根據詞性為所述預設詞性的詞語的歷史統計信息和/或詞性為所述預設詞性的詞語之間的相似度來從所獲取的詞性為所述預設詞性的詞語中提取所述發布信息的核心詞，并將該核心詞與該核心詞所屬的發布信息存儲在所述數據庫中。
9.根據權利要求8所述的裝置，其特征在于，所述提取單元包括判斷模塊，用于判斷所獲取的詞性為所述預設詞性的詞語的個數；提取模塊，用于在所獲取的詞性為所述預設詞性的詞語為I個時，將所獲取的詞性為所述預設詞性的詞語確定為所述發布信息的核心詞；在所獲取的詞性為所述預設詞性的詞語為2個時，根據詞性為所述預設詞性的詞語的歷史統計信息從所述2個詞性為所述預設詞性的詞語中確定出所述發布信息的核心詞；在所獲取的詞性為所述預設詞性的詞語多于2個時，將所述發布信息中最后一個詞性為所述預設詞性的詞語確定為所述發布信息的核心詞，并計算所述發布信息中詞性為所述預設詞性的其他詞語與所述最后一個詞性為所述預設詞性的詞語的相似度，在所述詞性為所述預設詞性的其他詞語中的一個與所述最后一個詞性為所述預設詞性的詞語的相似度大于第一預定閾值時，將所述詞性為所述預設詞性的其他詞語中的所述一個確定為所述發布信息的核心詞。
10.根據權利要求9所述的裝置，其特征在于，當所述2個詞性為所述預設詞性的詞語為第一預設詞和第二預設詞、且所述第一預設詞在所述發布信息中位于第二預設詞之前時，所述提取模塊用于通過以下步驟來根據預設詞性的歷史統計信息從所述2個預設詞性中確定出所述發布信息的核心詞在詞性為所述預設詞性的詞語的歷史統計信息中獲取在存在2個預設詞的情況下位置在前的預設詞為核心詞的概率與位置在后的預設詞為核心詞的概率；若所述位置在前的預設詞為核心詞的概率大于所述位置在后的預設詞為核心詞的概率，則將所述第一預設詞確定為所述發布信息的核心詞；若所述位置在前的預設詞為核心詞的概率小于所述位置在后的預設詞為核心詞的概率，則將所述第二預設詞確定為所述發布信息的核心詞；若所述位置在前的預設詞為核心詞的概率等于所述位置在后的預設詞為核心詞的概率，則將所述第一預設詞和所述第二預設詞確定為所述發布信息的核心詞。
11.根據權利要求8所述的裝置，其特征在于，還包括判斷單元，用于在根據詞性為所述預設詞性的詞語的歷史統計信息和/或詞性為所述預設詞性的詞語之間的相似度來從所獲取的詞性為所述預設詞性的詞語中提取所述發布信息的核心詞之后，判斷所述發布信息是否具有對應的類目標識和供應商標識，其中，所述類目標識用于指示所述發布信息位于的類目，所述供應商標識用于指示發布所述發布信息的供應商；相關性處理單元，用于在多維度特征下對所述發布信息中待處理的詞語進行相關性判斷，其中，所述待處理的詞語包括所述核心詞和詞性為修飾詞的詞語；所述多維度特征包括以下至少之一所述類目的點擊率、所述類目下的詞頻、所述供應商的主營行業以及所述供應商的主營產品；根據相關性判斷的結果將所述核心詞的詞性標識為修飾詞，和/或，將所述詞性為修飾詞的詞語確定為核心詞。
12.根據權利要求11所述的裝置，其特征在于，所述相關性處理單元用于通過以下步驟來根據相關性判斷的結果將所述核心詞的詞性標識為修飾詞，和/或，將所述詞性為修飾詞的詞語確定為核心詞判斷所述待處理的詞語在所述類目下的點擊率是否大于第二預定閾值，若大于，則判斷出所述類目的點擊率相關，否則，判斷出所述類目的點擊率不相關；判斷所述待處理的詞語在所述類目下的詞頻是否大于第三預定閾值，若大于，則判斷出所述類目的詞頻相關，否則，判斷出所述類目的詞頻不相關；判斷所述待處理的詞語所在的行業是否屬于所述供應商的主營行業，若屬于，則判斷出所述供應商的主營行業相關，否則，判斷出所述供應商的主營行業不相關；判斷所述待處理的詞語所在的產品類別是否屬于所述供應商的主營產品，若屬于，則判斷出所述供應商的主營產品相關，否則，判斷出所述供應商的主營產品不相關；在所述類目的點擊率相關、所述類目的詞頻相關、所述供應商的主營行業相關以及所述供應商的主營產品相關時，將所述待處理的詞語中所述詞性為修飾詞的詞語確定為核心詞；在所述類目的點擊率不相關、所述類目的詞頻不相關、所述供應商的主營行業不相關以及所述供應商的主營產品不相關時，將所述待處理的詞語中的所述核心詞的詞性標識為修飾詞。
13.根據權利要求8所述的裝置，其特征在于，所述分詞單元包括識別模塊，用于從分詞得到的所有詞語中識別出并列標識符；獲取模塊，用于將相鄰兩個并列標識符之間的所述詞語劃分成一段，同時在每一段中獲取詞性為預設詞性的詞語。
全文摘要
本申請公開了一種數據搜索方法和裝置，其中，該方法包括接收包含關鍵詞的查詢信息；在數據庫中搜索與關鍵詞相對應的核心詞；將搜索到的核心詞所屬的發布信息作為搜索結果進行返回；其中，通過以下步驟預先在數據庫中存儲核心詞與核心詞所屬的發布信息接收輸入的發布信息，并對發布信息進行分詞得到一個或多個詞語以及與該詞語對應的詞性；從分詞得到的所有詞語中獲取詞性為預設詞性的詞語；根據詞性為預設詞性的詞語的歷史統計信息和/或詞性為預設詞性的詞語之間的相似度來從所獲取的詞性為預設詞性的詞語中提取發布信息的核心詞，并將該核心詞與該核心詞所屬的發布信息存儲在數據庫中。本申請解決了搜索召回率較低的問題，提高了召回率。
文檔編號G06F17/27GK103064838SQ20111031923
公開日2013年4月24日申請日期2011年10月19日優先權日2011年10月19日
發明者韓小梅, 馮景華, 宋超, 陳超申請人:阿里巴巴集團控股有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：韓小梅;馮景華;宋超;陳超
技術所有人：阿里巴巴集團控股有限公司
我是此專利的發明人

上一篇：模具設計裝置、方法、系統及程序的制作方法
下一篇：學術領域內領軍人物檢索與可視化導航系統的制作方法

該領域下的技術專家

1、李老師：1.計算力學 2.無損檢測

2、畢老師：機構動力學與控制

3、袁老師：1.計算機視覺 2.無線網絡及物聯網

4、王老師：1.計算機網絡安全 2.計算機仿真技術

5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態勢感知、輿情分析和控制 3.區塊鏈及應用

網友詢問留言留言:0條

還沒有人留言評論。精彩留言會獲得點贊！

文明留言，給您點贊！

同類技術