本申請涉及音視頻處理,特別是涉及一種音視頻的核心內容處理方法及相關裝置。
背景技術:
1、目前處于信息爆炸時代,音視頻海量增長。在音視頻平臺中,用戶通?;谝粢曨l的核心內容例如標題內容等快速篩選出感興趣的音視頻,因此,針對音視頻展示好的核心內容能夠顯著提高音視頻的曝光度和點擊率。
2、相關技術中,音視頻的核心內容處理方法是:簡單融合音視頻中視覺特征和音頻特征得到融合特征,通過預訓練生成模型在核心內容生成提示詞的引導下生成音視頻的核心內容。
3、然而,簡單融合音視頻中視覺特征和音頻特征得到的融合特征,難以準確地表示音視頻中視覺信息與音頻信息之間的關聯,導致針對音視頻生成的核心內容難以準確地反映音視頻的核心,且預訓練生成模型的訓練成本較高。
技術實現思路
1、為了解決上述技術問題,本申請提供了一種音視頻的核心內容處理方法及相關裝置,通過跨模態投射層的特征投射,使得視覺特征的特征維度和音頻特征的特征維度均對齊至預設生成模型的文本嵌入維度,消除不同模態特征之間的特征維度差異,為多模態特征融合奠定結構兼容基礎;基于注意力層的特征融合實現深度融合視覺特征和音頻特征,以充分挖掘不同模態特征之間的深層關聯,引入低秩適配器為訓練模型時減少訓練參數量提供技術實現基礎;微調訓練跨模態投射層和低秩適配器,無需訓練注意力層和生成層,大大減少訓練參數量,以降低訓練成本,且使得核心內容生成模型針對音視頻能夠高效且精準地生成核心內容。
2、本申請實施例公開了如下技術方案:
3、一方面,本申請實施例提供一種音視頻的核心內容處理方法,所述方法包括:
4、通過預設生成模型中的跨模態投射層,對樣本音視頻中的關鍵幀序列的第一視覺特征序列、以及所述樣本音視頻的音頻分幀序列的第一音頻特征序列進行特征投射,獲得符合所述預設生成模型的文本嵌入維度的第二視覺特征序列和第二音頻特征序列;
5、通過所述預設生成模型中的注意力層和低秩適配器,對所述第二視覺特征序列、所述第二音頻特征序列、以及核心內容生成提示詞的提示詞特征進行特征融合,獲得第一融合特征序列;
6、通過所述預設生成模型中的生成層,對所述第一融合特征序列進行核心內容生成,獲得所述樣本音視頻的預測核心內容;
7、根據所述預測核心內容與所述樣本音視頻對應的樣本核心內容之間的差異,對所述跨模態投射層和所述低秩適配器進行微調訓練,獲得核心內容生成模型。
8、另一方面,本申請實施例提供一種音視頻的核心內容處理裝置,所述裝置包括:特征投射單元、特征融合單元、核心內容生成單元和微調訓練單元;
9、所述特征投射單元,用于通過預設生成模型中的跨模態投射層,對樣本音視頻中的關鍵幀序列的第一視覺特征序列、以及所述樣本音視頻的音頻分幀序列的第一音頻特征序列進行特征投射,獲得符合所述預設生成模型的文本嵌入維度的第二視覺特征序列和第二音頻特征序列;
10、所述特征融合單元,用于通過所述預設生成模型中的注意力層和低秩適配器,對所述第二視覺特征序列、所述第二音頻特征序列、以及核心內容生成提示詞的提示詞特征進行特征融合,獲得第一融合特征序列;
11、所述核心內容生成單元,用于通過所述預設生成模型中的生成層,對所述第一融合特征序列進行核心內容生成,獲得所述樣本音視頻的預測核心內容;
12、所述微調訓練單元,用于根據所述預測核心內容與所述樣本音視頻對應的樣本核心內容之間的差異,對所述跨模態投射層和所述低秩適配器進行微調訓練,獲得核心內容生成模型。
13、另一方面,本申請實施例提供一種計算機設備,所述計算機設備包括處理器以及存儲器:
14、所述存儲器用于存儲計算機程序,并將所述計算機程序傳輸給所述處理器;
15、所述處理器用于根據所述計算機程序中的指令執行前述任一方面所述的方法。
16、另一方面,本申請實施例提供一種計算機可讀存儲介質,所述計算機可讀存儲介質用于存儲計算機程序,當所述計算機程序在計算機設備上運行時,使得所述計算機設備執行前述任一方面所述的方法。
17、另一方面,本申請實施例提供一種計算機程序產品,包括計算機程序,當所述計算機程序在計算機設備上運行時,使得所述計算機設備執行前述任一方面所述的方法。
18、由上述技術方案可以看出,將樣本音視頻中的關鍵幀序列的第一視覺特征序列、以及樣本音視頻的音頻分幀序列的第一音頻特征序列,輸入預設生成模型中的跨模態投射層進行特征投射,輸出符合預設生成模型的文本嵌入維度的第二視覺特征序列和第二音頻特征序列;通過跨模態投射層的特征投射,使得視覺特征的特征維度和音頻特征的特征維度均對齊至預設生成模型的文本嵌入維度,消除不同模態特征之間的特征維度差異,為多模態特征融合奠定結構兼容基礎。
19、將第二視覺特征序列、第二音頻特征序列、以及核心內容生成提示詞的提示詞特征,輸入預設生成模型中的注意力層和低秩適配器進行特征融合,輸出第一融合特征序列;基于注意力層的特征融合實現深度融合視覺特征和音頻特征,以充分挖掘不同模態特征之間的深層關聯,引入低秩適配器為訓練模型時減少訓練參數量提供技術實現基礎。
20、將第一融合特征序列輸入預設生成模型中的生成層,基于預設生成模型的強大生成能力明確核心內容生成任務,輸出樣本音視頻的預測核心內容,使得預測核心內容準確地反映樣本音視頻的核心;基于預測核心內容與樣本音視頻對應的樣本核心內容之間的差異,微調訓練跨模態投射層和低秩適配器,使得預設生成模型學習針對樣本音視頻輸出樣本核心內容,以得到核心內容生成模型;無需訓練注意力層和生成層,大大減少訓練參數量,以降低訓練成本,且使得核心內容生成模型針對音視頻能夠高效且精準地生成核心內容。
1.一種音視頻的核心內容處理方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述通過所述預設生成模型中的注意力層和低秩適配器,對所述第二視覺特征序列、所述第二音頻特征序列、以及核心內容生成提示詞的提示詞特征進行特征融合,獲得第一融合特征序列,包括:
3.根據權利要求2所述的方法,其特征在于,所述通過所述注意力層,對所述第二視覺特征序列和所述第二音頻特征序列進行特征融合,獲得多模態特征序列,包括:
4.根據權利要求1所述的方法,其特征在于,所述通過所述預設生成模型中的注意力層和低秩適配器,對所述第二視覺特征序列、所述第二音頻特征序列、以及核心內容生成提示詞的提示詞特征進行特征融合,獲得第一融合特征序列,包括:
5.根據權利要求2或4所述的方法,其特征在于,所述降維矩陣的矩陣維度和所述升維矩陣的矩陣維度的確定步驟,包括:
6.根據權利要求1所述的方法,其特征在于,所述根據所述預測核心內容與所述樣本音視頻對應的樣本核心內容之間的差異,對所述跨模態投射層和所述低秩適配器進行微調訓練,獲得核心內容生成模型,包括:
7.根據權利要求1所述的方法,其特征在于,所述跨模態投射層包括第一變換矩陣和第二變換矩陣,所述第一變換矩陣用于將所述第一視覺特征序列投射為所述第二視覺特征序列,所述第二變換矩陣用于將所述第一音頻特征序列投射為所述第二音頻特征序列;所述第一變換矩陣的矩陣維度和第二變換矩陣的矩陣維度的確定步驟,包括:
8.根據權利要求1所述的方法,其特征在于,所述方法還包括:
9.根據權利要求1所述的方法,其特征在于,所述方法還包括:
10.根據權利要求9所述的方法,其特征在于,所述方法還包括:
11.根據權利要求10所述的方法,其特征在于,所述方法還包括:
12.一種音視頻的核心內容處理裝置,其特征在于,所述裝置包括:特征投射單元、特征融合單元、核心內容生成單元和微調訓練單元;
13.一種計算機設備,其特征在于,所述計算機設備包括處理器以及存儲器:
14.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質用于存儲計算機程序,當所述計算機程序在計算機設備上運行時,使得所述計算機設備執行權利要求1-11任一項所述的方法。
15.一種計算機程序產品,包括計算機程序,其特征在于,當所述計算機程序在計算機設備上運行時,使得所述計算機設備執行權利要求1-11任一項所述的方法。