1. <rt id="e600n"></rt>
      1. <pre id="e600n"><strong id="e600n"><pre id="e600n"></pre></strong></pre>
      2. 岛国免费AV,无码人妻精品一区二区三区夜夜嗨,又大又粗又硬又爽黄毛少妇,精品国产AV二区,91视频最新网址,久操无码,久久无码人妻一区二区三区午夜,国产精品视频中文字幕

        一種音視頻的核心內容處理方法及相關裝置與流程

        文檔序號:45734081發布日期:2026-06-06 00:28閱讀:3來源:國知局

        本申請涉及音視頻處理,特別是涉及一種音視頻的核心內容處理方法及相關裝置。


        背景技術:

        1、目前處于信息爆炸時代,音視頻海量增長。在音視頻平臺中,用戶通?;谝粢曨l的核心內容例如標題內容等快速篩選出感興趣的音視頻,因此,針對音視頻展示好的核心內容能夠顯著提高音視頻的曝光度和點擊率。

        2、相關技術中,音視頻的核心內容處理方法是:簡單融合音視頻中視覺特征和音頻特征得到融合特征,通過預訓練生成模型在核心內容生成提示詞的引導下生成音視頻的核心內容。

        3、然而,簡單融合音視頻中視覺特征和音頻特征得到的融合特征,難以準確地表示音視頻中視覺信息與音頻信息之間的關聯,導致針對音視頻生成的核心內容難以準確地反映音視頻的核心,且預訓練生成模型的訓練成本較高。


        技術實現思路

        1、為了解決上述技術問題,本申請提供了一種音視頻的核心內容處理方法及相關裝置,通過跨模態投射層的特征投射,使得視覺特征的特征維度和音頻特征的特征維度均對齊至預設生成模型的文本嵌入維度,消除不同模態特征之間的特征維度差異,為多模態特征融合奠定結構兼容基礎;基于注意力層的特征融合實現深度融合視覺特征和音頻特征,以充分挖掘不同模態特征之間的深層關聯,引入低秩適配器為訓練模型時減少訓練參數量提供技術實現基礎;微調訓練跨模態投射層和低秩適配器,無需訓練注意力層和生成層,大大減少訓練參數量,以降低訓練成本,且使得核心內容生成模型針對音視頻能夠高效且精準地生成核心內容。

        2、本申請實施例公開了如下技術方案:

        3、一方面,本申請實施例提供一種音視頻的核心內容處理方法,所述方法包括:

        4、通過預設生成模型中的跨模態投射層,對樣本音視頻中的關鍵幀序列的第一視覺特征序列、以及所述樣本音視頻的音頻分幀序列的第一音頻特征序列進行特征投射,獲得符合所述預設生成模型的文本嵌入維度的第二視覺特征序列和第二音頻特征序列;

        5、通過所述預設生成模型中的注意力層和低秩適配器,對所述第二視覺特征序列、所述第二音頻特征序列、以及核心內容生成提示詞的提示詞特征進行特征融合,獲得第一融合特征序列;

        6、通過所述預設生成模型中的生成層,對所述第一融合特征序列進行核心內容生成,獲得所述樣本音視頻的預測核心內容;

        7、根據所述預測核心內容與所述樣本音視頻對應的樣本核心內容之間的差異,對所述跨模態投射層和所述低秩適配器進行微調訓練,獲得核心內容生成模型。

        8、另一方面,本申請實施例提供一種音視頻的核心內容處理裝置,所述裝置包括:特征投射單元、特征融合單元、核心內容生成單元和微調訓練單元;

        9、所述特征投射單元,用于通過預設生成模型中的跨模態投射層,對樣本音視頻中的關鍵幀序列的第一視覺特征序列、以及所述樣本音視頻的音頻分幀序列的第一音頻特征序列進行特征投射,獲得符合所述預設生成模型的文本嵌入維度的第二視覺特征序列和第二音頻特征序列;

        10、所述特征融合單元,用于通過所述預設生成模型中的注意力層和低秩適配器,對所述第二視覺特征序列、所述第二音頻特征序列、以及核心內容生成提示詞的提示詞特征進行特征融合,獲得第一融合特征序列;

        11、所述核心內容生成單元,用于通過所述預設生成模型中的生成層,對所述第一融合特征序列進行核心內容生成,獲得所述樣本音視頻的預測核心內容;

        12、所述微調訓練單元,用于根據所述預測核心內容與所述樣本音視頻對應的樣本核心內容之間的差異,對所述跨模態投射層和所述低秩適配器進行微調訓練,獲得核心內容生成模型。

        13、另一方面,本申請實施例提供一種計算機設備,所述計算機設備包括處理器以及存儲器:

        14、所述存儲器用于存儲計算機程序,并將所述計算機程序傳輸給所述處理器;

        15、所述處理器用于根據所述計算機程序中的指令執行前述任一方面所述的方法。

        16、另一方面,本申請實施例提供一種計算機可讀存儲介質,所述計算機可讀存儲介質用于存儲計算機程序,當所述計算機程序在計算機設備上運行時,使得所述計算機設備執行前述任一方面所述的方法。

        17、另一方面,本申請實施例提供一種計算機程序產品,包括計算機程序,當所述計算機程序在計算機設備上運行時,使得所述計算機設備執行前述任一方面所述的方法。

        18、由上述技術方案可以看出,將樣本音視頻中的關鍵幀序列的第一視覺特征序列、以及樣本音視頻的音頻分幀序列的第一音頻特征序列,輸入預設生成模型中的跨模態投射層進行特征投射,輸出符合預設生成模型的文本嵌入維度的第二視覺特征序列和第二音頻特征序列;通過跨模態投射層的特征投射,使得視覺特征的特征維度和音頻特征的特征維度均對齊至預設生成模型的文本嵌入維度,消除不同模態特征之間的特征維度差異,為多模態特征融合奠定結構兼容基礎。

        19、將第二視覺特征序列、第二音頻特征序列、以及核心內容生成提示詞的提示詞特征,輸入預設生成模型中的注意力層和低秩適配器進行特征融合,輸出第一融合特征序列;基于注意力層的特征融合實現深度融合視覺特征和音頻特征,以充分挖掘不同模態特征之間的深層關聯,引入低秩適配器為訓練模型時減少訓練參數量提供技術實現基礎。

        20、將第一融合特征序列輸入預設生成模型中的生成層,基于預設生成模型的強大生成能力明確核心內容生成任務,輸出樣本音視頻的預測核心內容,使得預測核心內容準確地反映樣本音視頻的核心;基于預測核心內容與樣本音視頻對應的樣本核心內容之間的差異,微調訓練跨模態投射層和低秩適配器,使得預設生成模型學習針對樣本音視頻輸出樣本核心內容,以得到核心內容生成模型;無需訓練注意力層和生成層,大大減少訓練參數量,以降低訓練成本,且使得核心內容生成模型針對音視頻能夠高效且精準地生成核心內容。


        技術特征:

        1.一種音視頻的核心內容處理方法,其特征在于,所述方法包括:

        2.根據權利要求1所述的方法,其特征在于,所述通過所述預設生成模型中的注意力層和低秩適配器,對所述第二視覺特征序列、所述第二音頻特征序列、以及核心內容生成提示詞的提示詞特征進行特征融合,獲得第一融合特征序列,包括:

        3.根據權利要求2所述的方法,其特征在于,所述通過所述注意力層,對所述第二視覺特征序列和所述第二音頻特征序列進行特征融合,獲得多模態特征序列,包括:

        4.根據權利要求1所述的方法,其特征在于,所述通過所述預設生成模型中的注意力層和低秩適配器,對所述第二視覺特征序列、所述第二音頻特征序列、以及核心內容生成提示詞的提示詞特征進行特征融合,獲得第一融合特征序列,包括:

        5.根據權利要求2或4所述的方法,其特征在于,所述降維矩陣的矩陣維度和所述升維矩陣的矩陣維度的確定步驟,包括:

        6.根據權利要求1所述的方法,其特征在于,所述根據所述預測核心內容與所述樣本音視頻對應的樣本核心內容之間的差異,對所述跨模態投射層和所述低秩適配器進行微調訓練,獲得核心內容生成模型,包括:

        7.根據權利要求1所述的方法,其特征在于,所述跨模態投射層包括第一變換矩陣和第二變換矩陣,所述第一變換矩陣用于將所述第一視覺特征序列投射為所述第二視覺特征序列,所述第二變換矩陣用于將所述第一音頻特征序列投射為所述第二音頻特征序列;所述第一變換矩陣的矩陣維度和第二變換矩陣的矩陣維度的確定步驟,包括:

        8.根據權利要求1所述的方法,其特征在于,所述方法還包括:

        9.根據權利要求1所述的方法,其特征在于,所述方法還包括:

        10.根據權利要求9所述的方法,其特征在于,所述方法還包括:

        11.根據權利要求10所述的方法,其特征在于,所述方法還包括:

        12.一種音視頻的核心內容處理裝置,其特征在于,所述裝置包括:特征投射單元、特征融合單元、核心內容生成單元和微調訓練單元;

        13.一種計算機設備,其特征在于,所述計算機設備包括處理器以及存儲器:

        14.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質用于存儲計算機程序,當所述計算機程序在計算機設備上運行時,使得所述計算機設備執行權利要求1-11任一項所述的方法。

        15.一種計算機程序產品,包括計算機程序,其特征在于,當所述計算機程序在計算機設備上運行時,使得所述計算機設備執行權利要求1-11任一項所述的方法。


        技術總結
        本申請公開一種音視頻的核心內容處理方法及相關裝置。該方法:將樣本音視頻中的關鍵幀序列的第一視覺特征序列、樣本音視頻的音頻分幀序列的第一音頻特征序列,輸入預設生成模型中的跨模態投射層,輸出符合預設生成模型的文本嵌入維度的第二視覺特征序列和第二音頻特征序列;將第二視覺特征序列、第二音頻特征序列、核心內容生成提示詞的提示詞特征,輸入預設生成模型中的注意力層和低秩適配器,輸出第一融合特征序列;將第一融合特征序列輸入預設生成模型中的生成層,輸出樣本音視頻的預測核心內容;基于預測核心內容與樣本音視頻對應的樣本核心內容之間的差異,微調訓練跨模態投射層和低秩適配器,得到核心內容生成模型。

        技術研發人員:郝彥超
        受保護的技術使用者:騰訊科技(深圳)有限公司
        技術研發日:
        技術公布日:2026/6/5
        網友詢問留言 留言:0條
        • 還沒有人留言評論。精彩留言會獲得點贊!
        主站蜘蛛池模板: 国产91丝袜在线观看| AV无码免费不卡在线观看 | 亚洲国产成人字幕久久| 中文字幕日韩精品国产| 91人妻中文字幕无码专区| 亚洲高清视频免费的一区| 久青草视频在线免费观看| 少妇高潮喷水在线观看| 日韩欧美视频一区二区三区| 成人做受120秒试看试看视频| 九月婷婷人人澡人人添人人爽| 青青草成人免费自拍视频| 国产精品久久久久久亚洲伦理 | 国产精品国产精品偷麻豆| 久久av无码精品人妻糸列| 天天爱综合| 日本极品少妇videossexhd| 日韩精品有码中文字幕| 国产精品亚洲一区二区三区在线 | 亚洲www| 亚洲AV无码精品国产成人| 婷婷俺也去俺也去官网| 三级4级全黄60分钟| 中文字幕美人妻亅u乚一596| 女高中生自慰污污网站 | 久久精品国产一区二区三| 狼综合网| 久热爱精品视频在线观看久爱| 亚洲精品一区二区区别| 国内免费av在线播放| 国产成人精品亚洲精品| AV不卡在线| 久久天天躁狠狠躁夜夜躁| 亚洲日韩亚洲另类激情文学 | 丁香六月婷婷综合激情欧美| 亚洲国精产品| 肉动漫h黄动漫日本免费观看| 动漫av网站免费观看| 亚洲中文字| 欧美亚洲色综久久精品国产| 九九视频这里只有精品99|