本發明實施例涉及人工智能,特別涉及一種模型訓練、內容索引的構建、內容查詢方法以及裝置。
背景技術:
1、在社交媒體、電商及生活方式平臺中,圖文和視頻發布內容是吸引用戶的核心資產。提升內容分發效率與搜索體驗的關鍵,在于精準匹配多模態內容與用戶潛在需求。
2、當前向量檢索技術多依賴發布內容原始文本(如標題、標簽)生成向量,但面對日益精細化、長尾化的搜索行為(如“適合野餐的復古格子裙穿搭”),該方式難以捕捉具體場景、風格等深層語義。而大量優質發布內容因描述簡略無法被有效召回。
3、因此,亟需一種能夠準確召回用戶查詢意圖內容的方法。
技術實現思路
1、有鑒于此,本發明實施例提供了一種模型訓練方法。本發明一個或者多個實施例同時涉及一種內容索引的構建方法,一種內容查詢方法,一種模型訓練裝置,一種內容索引的構建裝置,一種內容查詢裝置,一種計算設備,一種計算機可讀存儲介質以及一種計算機程序產品,以解決現有技術中存在的技術缺陷。
2、根據本發明實施例的第一方面,提供了一種模型訓練方法,包括:
3、獲取樣本查詢信息和樣本查詢信息對應的樣本內容;
4、提取樣本內容中的樣本多模態信息;
5、基于樣本查詢信息和樣本多模態信息,生成樣本內容的標簽內容描述文本;
6、基于樣本多模態信息和標簽內容描述文本,訓練獲得目標文本生成模型,其中,目標文本生成模型用于基于內容的多模態信息、生成符合查詢信息的查詢意圖的內容描述文本。
7、根據本發明實施例的第二方面,提供了一種內容索引的構建方法,包括:
8、獲取候選內容;
9、提取候選內容中的多模態信息;
10、通過目標文本生成模型,基于多模態信息,生成候選內容對應的內容描述文本,其中,目標文本生成模型基于第一方面的模型訓練方法得到;
11、將描述文本確定為候選內容對應的查詢索引信息,獲得候選內容的索引庫。
12、根據本發明實施例的第三方面,提供了一種內容查詢方法,包括:
13、接收前端輸入的查詢信息;
14、基于查詢信息,檢索候選內容的索引庫,確定符合查詢信息的查詢意圖的目標索引,其中,候選內容的索引庫根據第二方面的內容索引的構建方法獲得;
15、召回目標索引對應的目標內容;
16、將目標內容反饋至前端。
17、根據本發明實施例的第四方面,提供了一種模型訓練裝置,包括:
18、第一獲取模塊,被配置為獲取樣本查詢信息和樣本查詢信息對應的樣本內容;
19、第一提取模塊,被配置為提取樣本內容中的樣本多模態信息;
20、第一生成模塊,被配置為基于樣本查詢信息和樣本多模態信息,生成樣本內容的標簽內容描述文本;
21、訓練模塊,被配置為基于樣本多模態信息和標簽內容描述文本,訓練獲得目標文本生成模型,其中,目標文本生成模型用于基于內容的多模態信息、生成符合查詢信息的查詢意圖的內容描述文本。
22、根據本發明實施例的第五方面,提供了一種內容索引的構建裝置,包括:
23、第二獲取模塊,被配置為獲取候選內容;
24、第二提取模塊,被配置為提取候選內容中的多模態信息;
25、第二生成模塊,被配置為通過目標文本生成模型,基于多模態信息,生成候選內容對應的內容描述文本,其中,目標文本生成模型基于第一方面的模型訓練方法得到;
26、確定模塊,被配置為將描述文本確定為候選內容對應的查詢索引信息,獲得候選內容的索引庫。
27、根據本發明實施例的第六方面,提供了一種內容查詢裝置,包括:
28、接收模塊,被配置為接收前端輸入的查詢信息;
29、檢索模塊,被配置為基于查詢信息,檢索候選內容的索引庫,確定符合查詢信息的查詢意圖的目標索引,其中,候選內容的索引庫根據第二方面的內容索引的構建方法獲得;
30、召回模塊,被配置為召回目標索引對應的目標內容;
31、反饋模塊,被配置為將目標內容反饋至前端。
32、根據本發明實施例的第七方面,提供了一種計算設備,包括:
33、存儲器和處理器;
34、所述存儲器用于存儲計算機程序/指令,所述處理器用于執行所述計算機程序/指令,該計算機程序/指令被處理器執行時實現上述第一方面的模型訓練方法或第二方面的內容索引的構建方法或第三方面的內容查詢方法的步驟。
35、根據本發明實施例的第八方面,提供了一種計算機可讀存儲介質,其存儲有計算機程序/指令,該計算機程序/指令被處理器執行時實現上述第一方面的模型訓練方法或第二方面的內容索引的構建方法或第三方面的內容查詢方法的步驟。
36、根據本發明實施例的第九方面,提供了一種計算機程序產品,包括計算機程序/指令,該計算機程序/指令被處理器執行時實現上述第一方面的模型訓練方法或第二方面的內容索引的構建方法或第三方面的內容查詢方法的步驟。
37、本發明一個實施例實現了獲取樣本查詢信息和樣本查詢信息對應的樣本內容;提取樣本內容中的樣本多模態信息;基于樣本查詢信息和樣本多模態信息,生成樣本內容的標簽內容描述文本;基于樣本多模態信息和標簽內容描述文本,訓練獲得目標文本生成模型,其中,目標文本生成模型用于基于內容的多模態信息、生成符合查詢信息的查詢意圖的內容描述文本。通過樣本查詢信息與多模態信息生成標簽內容描述文本,并以此監督目標文本生成模型僅基于多模態信息進行訓練,使模型在推理時能生成契合潛在查詢意圖的內容描述文本,從而提升后續檢索中內容與用戶查詢的匹配準確性。
1.一種模型訓練方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,在所述基于所述樣本查詢信息和所述樣本多模態信息,生成所述樣本內容的標簽內容描述文本之前,還包括:
3.根據權利要求2所述的方法,其特征在于,在所述基于所述樣本查詢意圖信息和所述樣本多模態信息,生成所述樣本內容的標簽內容描述文本之前,還包括:
4.根據權利要求1所述的方法,其特征在于,所述基于所述樣本多模態信息和所述標簽內容描述文本,訓練獲得目標文本生成模型,包括:
5.根據權利要求4所述的方法,其特征在于,在所述通過學生模型,基于所述樣本多模態信息,生成預測內容描述文本之前,還包括:
6.根據權利要求4所述的方法,其特征在于,所述基于所述預測內容描述文本和所述標簽內容描述文本,訓練所述學生模型,獲得目標文本生成模型,包括:
7.根據權利要求1-6任一項所述的方法,其特征在于,所述獲取樣本查詢信息和所述樣本查詢信息對應的樣本內容,包括:
8.根據權利要求7所述的方法,其特征在于,所述獲取歷史查詢信息、所述歷史查詢信息對應的歷史內容以及所述歷史內容的歷史交互行為,包括:
9.根據權利要求7所述的方法,其特征在于,所述基于所述歷史交互行為,對所述歷史查詢信息進行篩選,獲得樣本查詢信息和所述樣本查詢信息對應的樣本內容,包括:
10.一種內容索引的構建方法,其特征在于,包括:
11.根據權利要求10所述的方法,其特征在于,在所述通過目標文本生成模型,基于所述多模態信息,生成所述候選內容對應的內容描述文本之前,還包括:
12.根據權利要求10所述的方法,其特征在于,所述將所述描述文本確定為所述候選內容對應的查詢索引信息,獲得所述候選內容的索引庫,包括:
13.一種內容查詢方法,其特征在于,包括:
14.根據權利要求13所述的方法,其特征在于,所述基于所述查詢信息,檢索候選內容的索引庫,確定符合所述查詢信息的查詢意圖的目標索引,包括:
15.一種模型訓練裝置,其特征在于,包括:
16.一種內容索引的構建裝置,其特征在于,包括:
17.一種內容查詢裝置,其特征在于,包括:
18.一種計算設備,其特征在于,包括:
19.一種計算機可讀存儲介質,其特征在于,其存儲有計算機程序/指令,該計算機程序/指令被處理器執行時實現權利要求1-9任意一項所述模型訓練方法或權利要求10-12任意一項所述內容索引的構建方法或權利要求13-14任意一項所述內容查詢方法的步驟。
20.一種計算機程序產品,其特征在于,包括計算機程序/指令,該計算機程序/指令被處理器執行時實現權利要求1-9任意一項所述模型訓練方法或權利要求10-12任意一項所述內容索引的構建方法或權利要求13-14任意一項所述內容查詢方法的步驟。