本發明屬于視覺內容生成的,具體涉及一種基于并行多粒度transformer的三維人體動作生成方法及裝置。
背景技術:
1、隨著深度學習技術的飛速發展,計算機視覺(computer?vision,?cv)與自然語言處理(natural?language?processing,?nlp)的跨模態生成任務已成為人工智能領域的研究熱點。其中,文本驅動的三維人體動作生成(text-to-motion?generation)作為連接抽象自然語言描述與具象視覺動態表現的關鍵橋梁,具備廣闊的發展前景和應用價值。該技術的核心目標是構建一個智能生成模型,能夠根據用戶輸入的任意自然語言文本描述(例如,“一個人一邊向前走,一邊接住拋來的球,然后興奮地跳起來”),自動合成出符合人體生物力學規律、動作流暢自然、且在語義上與文本描述高度一致的三維骨骼序列。
2、在傳統的數字內容創作(digital?content?creation,?dcc)流程中,高質量的三維人體動作主要依賴于兩種方式:一是通過專業動畫師使用maya、3ds?max等軟件進行逐幀(frame-by-frame)或關鍵幀(key-framing)制作;二是通過昂貴的光學或慣性動作捕捉(motion?capture,?mocap)系統采集真人演員的動作數據。前者對制作人員的專業技能要求極高,且耗時費力,生產周期漫長,難以滿足元宇宙時代對海量3d內容生成的即時性需求;后者雖然精度較高,但設備昂貴、場地受限、演員成本高,且采集后的數據往往需要繁重的后期清理工作(data?cleaning)以去除噪聲和穿模現象。
3、專利文獻cn111311729a公開了一種基于雙向投影網絡的自然場景三維人體姿態重建方法,含有以下步驟:一、利用相機采集數據;二、將采集的視頻、圖像數據送入二維姿態檢測器獲取對應姿態的二維人體關節點坐標;三、根據訓練過程有無三維姿態數據標簽設計兩種結構的雙向投影網絡;四、利用深度對抗式學習策略對設計好的網絡進行訓練,最小化網絡損失函數,經過迭代最終得到訓練好的三維姿態生成器;五、將步驟二中二維姿態檢測器的輸出結果輸入步驟四中訓練好的三維姿態生成器。
4、專利文獻cn119992651a公開了一種基于單目視頻的動作捕捉優化方法和模型訓練方法,包括:將單目視頻輸入觸地檢測模型,得到用于指示人像腳部的觸地概率的觸地檢測結果;根據單目視頻,得到人像的三維動作第一數據,進而得到人像的腳部軌跡;根據觸地概率,對腳部軌跡進行觸地優化,并對觸地優化后的腳部軌跡進行抖動優化;根據抖動優化后的腳部軌跡,通過反向動力學算法重構三維動作第一數據,得到人像的三維動作第二數據。
技術實現思路
1、本發明的目的在于提供一種基于并行多粒度transformer的三維人體動作生成方法及裝置,該方法能生成高保真、語義連貫且細節豐富的三維人體動作序列。
2、為了實現本發明的第一個目的,提供了如下技術方案:包括以下步驟:
3、獲取三維人體動作數據集,其包括連續的三維動作序列和對應的自然語言文本描述;
4、構建初始模型,其包括并行多粒度動作生成模塊,多粒度動作融合模塊以及動作重構與輸出模塊;
5、所述并行多粒度動作生成模塊,包括l個并行且顆粒度不同的分支,每個分支內部包含生成階段一和生成階段二;
6、所述生成階段一通過對輸入的自然語言文本描述進行文本提取,以獲得對應的文本嵌入向量,并基于采用掩碼建模方法在所述文本嵌入向量的引導下,生成被隨機掩碼的初始token序列;
7、所述生成階段二用于對被隨機掩碼的token序列進行補充,以輸出對應的完整token序列;
8、所述多粒度動作融合模塊,用于將多個分支輸出的完整token序列映射回連續的潛在特征空間并進行時序對齊和融合,以輸出潛在特征表示;
9、所述動作重構與輸出模塊,根據輸入的潛在特征表示,生成對應的三維人體動作序列;
10、利用三維人體動作數據集對初始模型進行訓練,以獲得用于生成高保真三維人體動作序列的圖像生成模型。
11、本發明將文本到動作的生成任務重構為一個二維細化問題,即同時在時間軸和量化軸上進行協同生成與優化,并通過引入并行多粒度分層transformer,從而在不同的時間分辨率下并行處理動作序列,并利用分層殘差量化技術逐步細化動作細節,從而生成高保真、語義連貫且細節豐富的三維人體動作序列。
12、具體的,所述動作重構與輸出模塊基于訓練獲得的解碼器進行構建,所述解碼器的訓練過程如下:
13、將三維動作序列輸入至一維卷積編碼器以提取動作特征,并將所述動作特征映射為潛在空間的連續特征向量;
14、利用多層級聯的矢量量化器對連續特征向量進行離散化,以獲得所有層的量化特征向量;
15、將所有層的量化特征向量求和以得到最終的潛在特征表示,并將潛在特征表示輸入至解碼器以重構對應的三維動作序列;
16、利用三維人體動作數據集中的三維動作序列對一維卷積編碼器、解碼器以及配套的碼本進行訓練,以獲得用于構建動作重構與輸出模塊的解碼器。
17、具體的,所述動作特征包括根節點角速度、根節點線速度、根節點高度、所有關節相對于根節點的局部位置、關節局部速度以及采用6d旋轉表示法的關節旋轉對應的冗余特征向量。
18、具體的,所述解碼器的訓練損失函數包含重構損失、承諾損失和碼本更新部分。
19、具體的,在訓練過程中,采用代碼重置和指數移動平均的更新策略。
20、具體的,所述量化特征向量的求和公式如下:
21、;
22、其中,為潛在特征序列的位置索引,為第個級聯量化層索引(為量化層數),為第層在位置處輸出的量化特征向量,為對同一位置處各量化層輸出的量化特征向量按層求和得到的最終量化特征向量。
23、具體的,所述多粒度動作融合模塊的表達式如下:
24、;
25、其中,為多粒度分支/時間尺度索引,為分支數,為第分支生成的潛在特征序列,為該分支對應的時間尺度/下采樣因子,表示按將進行時間上采樣并對齊到統一長度的算子,為第尺度的融合權重,為各尺度特征對齊后按權重加權求和得到的最終融合潛在特征表示。
26、為了實現本發明的第二個目的,提供了如下技術方案:一種三維人體動作生成裝置,用于執行上述的基于并行多粒度transformer的三維人體動作生成方法的步驟。
27、與現有技術相比,本發明的有益效果:
28、通過并行多粒度架構,實現了對動作序列的長期和短期建模。粗粒度模塊消除了長序列生成中的“滑步”和“漂移”現象,保證了全局軌跡的準確性;細粒度模塊則極大地豐富了生成動作的細節表現力。
29、結合residual?vq-vae的高效離散化和pmh-transformer的hrr機制,實現了高保真的動作重構與細節修復。
30、將動作生成任務從單一的“序列預測”解耦為“時間多尺度”與“量化多層級”的二維細化過程,使模型生成更具表現力、更符合物理規律的三維動作序列。