一種基于狀態空間遞推模型的視頻三維人體姿態估計方法

文檔序號：45765381發布日期：2026-06-10 01:03閱讀：1來源：國知局

本發明涉及計算機視覺與人工智能領域，具體涉及一種基于狀態空間遞推模型的視頻三維人體姿態估計方法。

背景技術：

1、本部分提供的僅僅是與本公開相關的背景信息，其并不必然是現有技術。

2、單目視頻三維人體姿態估計是計算機視覺領域的核心任務之一，旨在從二維視頻序列中恢復人體關鍵骨骼關節的三維空間坐標，為動作識別、人機交互、虛擬現實等應用提供數據支撐。當前主流技術通常采用兩階段實現方案：首先從單幀圖像中檢測二維人體關節點，隨后通過時序上下文建模，將二維關節序列映射至三維空間。盡管基于深度學習的方法已取得顯著進展，但由于單目視覺中固有的深度信息缺失、人體自遮擋以及復雜場景干擾，從二維序列重建三維姿態本質上是屬于不適定問題，仍面臨嚴峻挑戰。

3、為應對上述挑戰，現有研究主要圍繞兩條技術路線展開：一是基于圖卷積網絡的結構建模方法，該類方法利用人體骨骼的天然拓撲結構建模關節間的局部空間關系，但其感受野有限，難以有效捕捉高階動態依賴；二是基于transformer架構的時空建模方法，該類方法借助自注意力機制捕獲全局時空依賴，在長序列建模中表現出色。然而，transformer中自注意力模塊的計算復雜度隨序列長度呈二次方增長，導致處理長視頻時計算開銷巨大，嚴重限制其在資源受限環境中的部署。

4、在計算資源受限的場景下，實現高效的三維人體姿態估計尤為重要。現有的研究主要圍繞高效架構設計與數據冗余削減兩個方向展開。盡管已有工作嘗試通過令牌剪枝或幀采樣來降低transformer的計算負擔，但這些策略本質上仍依賴于注意力機制，屬于模型內部的局部優化，未能突破transformer固有的二次計算復雜度瓶頸。

5、近年來，狀態空間遞推模型（ssm）憑借線性計算復雜度和強時序建模能力，成為替代transformer的新型架構。部分研究嘗試在ssm中引入可學習的動態鄰接矩陣或運動自適應時間尺度，以增強模型對人體結構與運動模式的表征能力。盡管此類方法在精度上取得一定提升，但其仍需處理完整長度的視頻序列，計算復雜度隨幀數線性增長。當應用于超長視頻或邊緣計算場景時，由于大量冗余幀的存在，仍會造成顯著的計算與內存開銷。因此，如何在狀態空間模型的高效線性建模能力基礎上，引入智能的序列稀疏化與關鍵幀選擇機制，在保持三維姿態估計精度的同時顯著降低計算量和存儲占用，是本領域亟待解決的技術問題。

技術實現思路

1、本發明的目的在于克服現有技術中基于transformer架構的三維人體姿態估計方法在計算復雜度高、特征冗余嚴重以及難以在邊緣設備上實時運行的缺陷，提供一種基于狀態空間遞推模型的視頻三維人體姿態估計方法。該方法通過非注意力的狀態遞推機制，結合動態令牌聚類與狀態插值恢復機制，在保持估計精度的同時顯著降低計算量與存儲開銷，實現低功耗、高實時性的視頻姿態估計，尤其適用于移動端與邊緣計算設備。

2、一種基于狀態空間遞推模型的視頻三維人體姿態估計方法，包括以下步驟：

3、步驟1：對輸入視頻序列進行二維人體關鍵點檢測，獲取二維姿態序列，通過圖卷積編碼和全局特征聚合將所述二維姿態序列編碼為時空特征令牌；

4、步驟2：為了增強后續令牌聚類與剪枝聚類階段的特征判別能力，將步驟1得到的時空特征令牌輸入一個前置輕量級狀態空間遞推網絡，以較小參數規模與淺層結構實現初步時序建模，提取狀態響應特征；

5、步驟3：基于所述狀態響應特征計算幀級綜合評分，對輸入時空特征令牌進行聚類與剪枝操作，獲得代表性時空特征令牌集合；

6、步驟4：將所述代表性時空特征令牌輸入由多個狀態更新單元堆疊而成的主狀態空間建模網絡，基于狀態遞推機制完成長時序依賴建模，提取高層時序特征表示；

7、步驟5：基于自適應狀態插值與遞推恢復機制，根據代表性令牌的高層特征恢復完整時序長度的特征序列；

8、步驟6：將恢復后的完整令牌序列進行三維坐標回歸，輸出每幀人體關鍵點的三維坐標序列。

9、在部分實施例中，步驟1包括以下步驟：

10、步驟1-1：對輸入視頻序列中的每一幀，通過二維姿態估計器（如openpose、hrnet、vitpose等）提取人體關節點的二維坐標與檢測置信度，形成二維姿態序列：

11、，

12、其中為幀數，為關節點數量，為第t幀第j個關節點二維坐標，為檢測置信度；

13、所述姿態序列經以下步驟進行編碼，將二維姿態信息轉化為具有空間拓撲與時序上下文的高維特征表示；

14、步驟1-2：局部結構建模，對所述二維姿態序列中的每一幀姿態數據，基于預定義的人體骨架鄰接矩陣，采用圖卷積網絡提取每幀的關節坐標特征進行空間結構建模；所述人體骨架鄰接矩陣基于人體解剖學結構的二值矩陣。矩陣元素當且僅當關節點i與關節點j在物理上直接相連，否則；得到關節特征：

15、

16、其中為第t幀關節點坐標矩陣，為可學習權重參數，為非線性激活函數；

17、步驟1-3：全局幀級聚合，對經圖卷積提取的各關節特征按空間權重進行聚合，生成幀級特征向量：

18、

19、其中為第j個關節的可學習權重系數；

20、步驟1-4：時序融合與投影，對所述幀級特征向量序列施加輕量卷積或線性投影，以增強時間連續性：

21、

22、得到幀級嵌入序列，作為初始時空特征令牌輸入至后續狀態空間遞推網絡，為時序建模與令牌剪枝聚類提供基礎。

23、在部分實施例中，步驟2包括以下步驟：

24、步驟2-1：將步驟1得到的時空特征令牌序列輸入所述前置輕量級狀態空間遞推網絡，通過與主狀態空間建模網絡一致的狀態遞推方程計算并更新隱狀態；所述空間模型采用與主干狀態空間網絡模塊一致的狀態遞推機制：

25、，

26、其中a、b、c為可學習參數。

27、步驟2-2：基于步驟2-1更新后的隱狀態通過線性映射得到當前時間步的狀態響應特征，為后續令牌剪枝與聚類提供基礎表征。

28、在部分實施例中，步驟3包括以下步驟：

29、步驟3-1：狀態響應特征作為輸入，對每幀的多關節特征執行空間維度聚合操作（如平均池化或加權池化），去除空間冗余后得到幀級特征向量，其中f為總幀數，c為特征維度，若輸入序列已具備幀級特征表征，則可省略此步驟；

30、步驟3-2：基于所述幀級特征向量序列，采用k近鄰的密度峰值聚類算法，計算每幀狀態的局部密度與相對分離度，并據此計算每幀的聚類評分；

31、步驟3-3：為增強對動態動作的響應能力，計算每幀的基于幀間特征差異的運動強度評分，并將該運動強度評分與步驟3-2所得的聚類評分進行加權融合，得到綜合評分；

32、步驟3-4：根據綜合評分降序排序，選取評分最高的前f幀（f＜f，f為視頻總幀數）作為代表幀。在保留其對應的時空特征令牌的同時，記錄這些代表幀在原始輸入序列中的時序位置索引（其中0≤＜f）。其余幀對應的令牌則被剪枝，顯著降低后續網絡的計算開銷。

33、在部分實施例中，步驟3-2具體包括以下子步驟：

34、步驟3-2-1：狀態距離與運動強度計算，通過下式計算任意兩幀間的狀態距離：

35、

36、其中和分別為步驟3-1所獲得的第i幀和第j幀的幀級特征向量，表示歐氏距離范數；所述狀態距離衡量任意兩幀在姿態特征空間中的靜態相似性；

37、步驟3-2-2：分別通過下式計算各幀的局部密度和相對分離度：

38、

39、其中，表示第幀對應的k近鄰幀集合；為核函數的帶寬參數，可通過幀級特征向量的標準差或交叉驗證方式確定；

40、相對分離度表示第幀與其特征空間中更高密狀態之間的最小距離：

41、

42、步驟3-2-3：通過下式計算聚類評分：

43、

44、在部分實施例中，步驟3-3具體包括以下子步驟：

45、步驟3-3-1：為捕捉動作變化信息，計算每幀的運動強度評分，其值由下式定義：

46、

47、其中為第i幀第j個關節的狀態響應特征，j為關節總數。對于序列起始幀，其運動強度評分設定為0或預設值。該評分通過衡量相鄰幀特征向量的差異，來量化姿態的瞬時變化強度，與上述靜態聚類評分相輔相成；

48、步驟3-3-2：將所述運動強度評分進行歸一化處理為，并與步驟3-2-3所得的聚類評分進行加權融合，得到綜合評分：

49、

50、其中γ為正的融合權重超參數，用于調節運動信息的重要性。

51、在部分實施例中，步驟4具體包括以下步驟：

52、步驟4-1：狀態更新，將步驟3得到的代表性時空特征令牌輸入主狀態空間建模網絡，該模型由多個狀態更新單元堆疊組成，每個單元基于狀態遞推方程進行建模：

53、

54、其中為第t幀的隱狀態，為輸入令牌特征，a和b為可學習參數矩陣。

55、步驟4-2：狀態響應映射，以步驟4-1中各層的隱狀態為輸入，對各層輸出進行線性映射得到瞬時狀態響應：

56、

57、其中為可學習的投影矩陣，該狀態響應攜帶時序上下文信息并輸入門控單元；

58、步驟4-3：門控傳播機制，基于步驟4-2得到的瞬時狀態響應，引入門控線性單元（glu）對狀態進行選擇性傳播，以抑制冗余特征信息，得到篩選后的有效狀態輸出：

59、

60、其中為線性變換權重，為非線性激活函數，表示逐元素相乘；

61、步驟4-4：殘差連接與歸一化，結合步驟4-1的初始隱狀態與步驟4-3篩選后的輸出，通過殘差連接與歸一化完成當前單元的狀態更新：

62、

63、步驟4-5：時序聚合，重復步驟4-1至4-4，使多個狀態更新單元以堆疊方式完成全序列建模；并在模型末端的時序聚合層對多幀狀態進行特征匯總，輸出高層時序特征表示，并將其傳遞至令牌重建步驟，以實現全幀特征的恢復與三維姿態回歸。

64、在部分實施例中，步驟5具體包括以下步驟：

65、步驟5-1：索引映射，針對步驟4輸出的代表性令牌高層時序特征，根據步驟3記錄的時序位置索引，確定代表幀與待恢復缺失幀之間的時間對應關系；

66、步驟5-2：狀態插值，依據步驟5-1確定的時序對應關系，基于缺失幀相鄰的代表性幀隱狀態，通過線性加權插值或指數加權插值計算缺失幀的初始特征估值；插值權重系數根據缺失幀的相對時序位置計算如下：

67、

68、其中和分別為相鄰代表幀的時序索引，為待恢復缺失幀的索引，且＜＜。由此，。

69、為使重建過程更符合人體運動學規律，插值過程引入運動感知的自適應調節機制。首先計算相鄰代表幀的狀態變化率：

70、

71、并通過一個輕量的可學習函數（如線性層或輕量卷積網絡）將其映射為縮放因子；

72、插值計算可采用以下任一方式：

73、1）線性插值：

74、

75、2）指數加權插值

76、

77、其中??為衰減系數，為正的可調超參數。

78、該設計使得當局部運動劇烈（>1）時，插值更偏向于后幀或使用更快的指數衰減，以更快響應姿態變化；當運動平緩（<1）時，則更傾向于保持前幀的狀態連續性。根據相鄰代表幀間的運動特征，動態調整插值權重或衰減系數。

79、步驟5-3：以步驟5-2得到的缺失幀初始估值為輸入，通過狀態空間遞推方程進行時間遞推優化，以恢復被剪枝幀的連續狀態軌跡：

80、

81、其中為前一個時刻的狀態，為當前時刻的輸入特征，a和b為令牌重建模塊內獨立學習的可學習參數矩陣，與步驟2所述前置輕量級狀態空間遞推網絡及步驟4所述主狀態空間建模網絡中的參數相互獨立；

82、步驟5-4：通過線性投影將步驟5-3優化后的連續狀態轉換為幀級特征；

83、

84、其中c為本模塊獨立學習的可投影矩陣。

85、隨后引入輕量一維卷積或線性平滑層對特征序列進行融合處理，最終輸出完整長度的特征令牌序列。

86、在部分實施例中，步驟6具體包括以下步驟：

87、步驟6-1：時序回歸，將步驟5輸出的完整令牌序列進行三維姿態回歸步驟，采用一維卷積或多層感知機提取跨幀一致的動態時序特征；

88、

89、其中，k表示卷積的時間窗口半徑。

90、步驟6-2：空間坐標解碼，對步驟6-1得到的動態時序特征，通過輸出映射矩陣與偏置向量的線性變換，將其轉換為第t幀人體關節點的三維坐標集合；

91、

92、其中，為輸出映射矩陣，為偏置向量，表示第幀人體j個關節點的三維坐標集合。

93、步驟6-3：聯合損失函數優化，利用聯合損失函數優化回歸結果，得到優化后的三維關節坐標，以提升輸出姿態的物理合理性與時序穩定性。

94、在部分實施例中，步驟6-3具體包括以下步驟：

95、步驟6-3-1：分別計算坐標誤差損失、骨架約束損失以及時序平滑損失：

96、

97、其中f為輸入視頻序列的總幀數，j為每幀人體姿態的關鍵點總數，為模型預測出的第t幀第j個關節點的三維空間坐標，為對應的真實三維坐標，表示歐幾里得范數平方；該損失用于約束預測坐標與真實坐標的偏差，得到平均每關節位置誤差mpjpe；

98、

99、其中為人體骨架的邊集合，每條邊表示相連關節點的索引對，該集合基于人體解剖學先驗確定，在整個訓練過程中是固定量；為骨架邊數量；該損失約束預測姿態的骨骼長度和方向與真實姿態一致，以保證人體結構在物理合理性；

100、

101、其中為模型預測出的第t幀的完整三維姿態坐標集合，該損失用于約束相鄰幀姿態的平滑性，減少時序抖動并提升動作連貫性；

102、步驟6-3-2：基于上述三項損失建立聯合優化目標函數：

103、

104、其中和為正的可調超參數，根據驗證集性能自適應設定；

105、步驟6-3-3：基于聯合總損失函數對網絡參數進行迭代優化，直至模型收斂。

106、一種基于狀態空間遞推結構的高效視頻三維人體姿態估計系統，包括以下依次連接的模塊：

107、二維姿態檢測模塊，用于從輸入視頻中提取人體關鍵點坐標；

108、姿態嵌入模塊，用于將二維姿態序列編碼為幀級時空特征令牌；

109、前置輕量級狀態空間遞推網絡模塊，用于對時空特征令牌進行初步時序建模，生成狀態響應特征；

110、令牌剪枝聚類模塊，用于基于狀態響應特征的狀態密度與運動強度分析動態選擇代表性令牌，實現輸入序列的稀疏化；

111、主狀態空間建模網絡模塊，用于對所述代表性令牌進行深層次時序依賴建模，提取高層時序特征表示；

112、令牌重建模塊，用于基于插值與遞推機制從代表性令牌恢復完整長度的特征令牌序列；

113、三維姿態回歸模塊，用于將恢復后的完整特征令牌序列映射為每幀人體關節點的三維坐標集合，輸出最終的三維人體姿態序列。

114、有益效果

115、與現有技術相比，本發明具有以下顯著優點和有益效果：

116、1、高效時序建模能力：本發明采用基于狀態空間的線性遞推機制，避免了transformer?自注意力結構的二次計算復雜度，實現長序列的線性時間建模，大幅提升計算效率。

117、2、動態關鍵幀選擇與輸入稀疏化：通過引入基于狀態密度峰值與運動強度的雙重驅動令牌剪枝聚類策略，能夠自適應地篩選關鍵幀，有效壓縮輸入時序，減少冗余計算。

118、3、連續時序特征恢復：采用運動感知的自適應狀態插值與遞推機制，可從關鍵幀重建完整連續的狀態特征序列，兼顧時序連貫性與信息完整性。

119、4、端到端可優化結構：本發明設計的聯合損失函數融合姿態精度、骨骼一致性與時序平滑約束，實現端到端優化，提升模型的三維結構一致性與時間穩定性。

120、5、低功耗與高實時性：本發明的整體架構計算復雜度低、內存占用小，特別適用于移動端和邊緣計算設備的實時視頻三維姿態估計任務。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：王丹蓓,王文秀,程任翔,汪敬然,蘇航,張軒,張煊皓,吳紫晨
技術所有人：金陵科技學院
我是此專利的發明人

該領域下的技術專家

1、李老師：1.計算力學 2.無損檢測

2、畢老師：機構動力學與控制

3、袁老師：1.計算機視覺 2.無線網絡及物聯網

4、王老師：1.計算機網絡安全 2.計算機仿真技術

5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態勢感知、輿情分析和控制 3.區塊鏈及應用

網友詢問留言留言:0條

還沒有人留言評論。精彩留言會獲得點贊！

文明留言，給您點贊！

同類技術