本發(fā)明屬于計(jì)算機(jī)視覺(jué)中的行為識(shí)別,涉及一種基于骨骼點(diǎn)的遮擋場(chǎng)景行為識(shí)別方法及系統(tǒng)。
背景技術(shù):
1、近年來(lái),隨著人工智能與深度學(xué)習(xí)技術(shù)的快速發(fā)展,基于計(jì)算機(jī)視覺(jué)的行為識(shí)別(action?recognition)在智能監(jiān)控、人機(jī)交互、運(yùn)動(dòng)分析、康復(fù)醫(yī)療、虛擬現(xiàn)實(shí)等領(lǐng)域得到了廣泛應(yīng)用。傳統(tǒng)的行為識(shí)別方法多依賴于rgb視頻信息,通過(guò)對(duì)圖像序列進(jìn)行時(shí)空特征提取來(lái)識(shí)別人物的動(dòng)作。然而,rgb視頻數(shù)據(jù)在光照變化、背景復(fù)雜度和遮擋干擾等情況下極易導(dǎo)致識(shí)別性能下降,限制了其在復(fù)雜環(huán)境中的應(yīng)用。為解決上述問(wèn)題,研究者逐漸轉(zhuǎn)向基于人體骨骼點(diǎn)(skeleton-based)的行為識(shí)別方法。骨骼點(diǎn)數(shù)據(jù)以關(guān)節(jié)點(diǎn)坐標(biāo)形式表示人體結(jié)構(gòu),能夠有效去除背景和光照的影響,具有較強(qiáng)的魯棒性和泛化能力?;诠趋赖纳疃葘W(xué)習(xí)模型(如gcn、agcn等)在公開數(shù)據(jù)集上已取得優(yōu)異表現(xiàn)。然而,在實(shí)際應(yīng)用場(chǎng)景中,人體骨骼數(shù)據(jù)常常存在部分關(guān)鍵點(diǎn)缺失或被遮擋的情況,如視頻中人物被物體遮擋、部分身體部位超出攝像頭視野或深度傳感器檢測(cè)失敗。這類遮擋問(wèn)題會(huì)導(dǎo)致骨骼信息不完整,使模型難以準(zhǔn)確捕捉人體的全局動(dòng)態(tài)特征,從而顯著降低行為識(shí)別的準(zhǔn)確率與穩(wěn)定性。
2、因此,如何在帶遮擋場(chǎng)景下實(shí)現(xiàn)對(duì)不完整骨骼序列的魯棒行為識(shí)別,成為當(dāng)前行為識(shí)別領(lǐng)域的重要研究方向和技術(shù)瓶頸。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本發(fā)明的目的在于提供一種基于骨骼點(diǎn)的遮擋場(chǎng)景行為識(shí)別方法及系統(tǒng),該方法和系統(tǒng)能夠在關(guān)節(jié)點(diǎn)信息部分缺失的情況下仍保持較高的識(shí)別精度,為復(fù)雜環(huán)境下的行為分析提供可靠的技術(shù)支撐。
2、為達(dá)到上述目的,本發(fā)明提供如下技術(shù)方案:
3、一種基于骨骼點(diǎn)的遮擋場(chǎng)景行為識(shí)別方法,該方法具體包括以下步驟:
4、s1、通過(guò)人體檢測(cè)器定位人體區(qū)域,采用openpose姿態(tài)估計(jì)算法提取關(guān)鍵點(diǎn),并基于?pafs(part?affinity?fields,?pafs)重建人體骨架結(jié)構(gòu),形成時(shí)序骨骼數(shù)據(jù);
5、s2、對(duì)骨骼序列進(jìn)行歸一化與張量格式轉(zhuǎn)換,利用定義好的掩碼矩陣分別屏蔽包括左手臂、右手臂、腿部、軀干在內(nèi)的人體區(qū)域,生成五組遮擋后的時(shí)序骨骼數(shù)據(jù);
6、s3、將步驟s2中生成的時(shí)序骨骼數(shù)據(jù)輸送到五條結(jié)構(gòu)相同的gcn流分別學(xué)習(xí)對(duì)應(yīng)身體部位的局部時(shí)空特征,每條流輸出256維特征向量;
7、s4、使用步驟s3的輸出,自適應(yīng)動(dòng)態(tài)權(quán)重矩陣模塊根據(jù)輸入特征和類別信息動(dòng)態(tài)生成融合權(quán)重,送進(jìn)分類器得到最終的分類結(jié)果;
8、s5、在訓(xùn)練階段,通過(guò)多樣性、稀疏性、一致性三類正則化項(xiàng),使動(dòng)態(tài)權(quán)重分布在類別間可區(qū)分、在分支上更精簡(jiǎn)、在同類樣本間更穩(wěn)定;在推理階段,直接使用訓(xùn)練好的模型預(yù)測(cè)結(jié)果,完成行為識(shí)別。
9、進(jìn)一步,在步驟s1中,人體檢測(cè)器使用faster-rcnn檢測(cè)視頻幀中人體邊界框,所述openpose的姿態(tài)估計(jì)方法采用多階段卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,生成兩個(gè)主要輸出:1)部位置信圖(part?confidence?maps):表示每個(gè)關(guān)節(jié)點(diǎn)在圖像中的概率分布;2)肢體親和場(chǎng)(part?affinity?fields,?pafs):描述不同關(guān)節(jié)點(diǎn)之間的空間連接關(guān)系;
10、所述的重建人體骨架結(jié)構(gòu)方法主要有兩種輸出:1)對(duì)于單人場(chǎng)景,根據(jù)所選模型(如?coco?模型?18?個(gè)關(guān)鍵點(diǎn)或?ntu-rgb?模型?25?個(gè)關(guān)鍵點(diǎn)),可得到包含相應(yīng)數(shù)量關(guān)鍵點(diǎn)的二維坐標(biāo)集合及其置信度;2)對(duì)于多人場(chǎng)景,通過(guò)?pafs?提供的連接信息和貪心匹配算法,將檢測(cè)到的關(guān)節(jié)點(diǎn)分組并組裝成不同個(gè)體的完整骨架。
11、進(jìn)一步,在步驟s2中,具體包括以下步驟:
12、s21、坐標(biāo)歸一化:將關(guān)節(jié)點(diǎn)坐標(biāo)標(biāo)準(zhǔn)化到統(tǒng)一尺度,消除攝像距離和分辨率差異的影響,歸一化公式為:
13、?,
14、;
15、s22、數(shù)據(jù)格式轉(zhuǎn)換:將骨骼序列轉(zhuǎn)換為符合本發(fā)明模型輸入要求的張量格式:(c,?t,?v,?m)?結(jié)構(gòu),其中?c?為坐標(biāo)維度(通常為?2?或?3,分別表示?x、y?坐標(biāo)或包含置信度?c),t?為幀數(shù),v?為關(guān)節(jié)點(diǎn)數(shù),m?為人體數(shù)量;
16、s23、使用掩碼矩陣進(jìn)行右乘運(yùn)算得到屏蔽掉相應(yīng)部分關(guān)節(jié)點(diǎn)的骨骼序列數(shù)據(jù),例如屏蔽左手臂、右手臂、腿部等。掩碼矩陣的定義為:
17、
18、給定需要屏蔽的關(guān)節(jié)點(diǎn)集合:
19、
20、構(gòu)造對(duì)角矩陣:
21、
22、新的骨骼點(diǎn)序列為:
23、
24、具體到每個(gè)關(guān)節(jié)點(diǎn)的坐標(biāo):
25、?,?。
26、進(jìn)一步,在步驟s3中,多流圖卷積神經(jīng)網(wǎng)絡(luò)(gcn,?graph?convolutionalnetwork)由五條并行的特征提取流組成,分別為左手臂流、右手臂流、腿部流、軀干流和全局流;各流通過(guò)輸入骨骼序列的不同屏蔽部分加以區(qū)分,即在輸入階段利用掩碼矩陣對(duì)原始骨骼數(shù)據(jù)中對(duì)應(yīng)的關(guān)節(jié)點(diǎn)進(jìn)行屏蔽處理,從而實(shí)現(xiàn)不同身體區(qū)域特征的獨(dú)立建模。
27、進(jìn)一步,所述每條流均采用相同的網(wǎng)絡(luò)結(jié)構(gòu),由十層基礎(chǔ)?gcn?模塊(gcn?block)、正則化層(bn?layer)、全局平均池化層(global?average?pooling?layer)以及激活函數(shù)層(relu?layer)依次構(gòu)成;在第一層?gcn?模塊之前設(shè)置一層正則化層以對(duì)輸入骨骼特征進(jìn)行標(biāo)準(zhǔn)化處理;在最后一層?gcn?模塊之后依次連接全局平均池化層與?relu?激活層,以完成特征聚合與非線性變換;各層的輸入輸出通道數(shù)依次為:64、64、64、64、128、128、128、256、256、256;?基礎(chǔ)?gcn?模塊由空間卷積層(spatial?convolution?layer)、時(shí)序卷積層(temporal?convolution?layer)、兩層正則化層、一層?dropout?層以及兩層?relu?激活層組成,其中?dropout?比例(drop?rate)設(shè)置為?0.5;
28、為了增強(qiáng)網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性并防止梯度消失,在每個(gè)基礎(chǔ)?gcn?模塊中均采用殘差連接(residual?connection)結(jié)構(gòu),以實(shí)現(xiàn)特征跨層傳遞與模型收斂穩(wěn)定。
29、進(jìn)一步,在步驟s4中,所述動(dòng)態(tài)權(quán)重矩陣的定義如下:
30、設(shè)共有個(gè)身體區(qū)域分支(如上肢、下肢、軀干等),則在任意時(shí)刻?,adwm?生成的動(dòng)態(tài)權(quán)重矩陣表示為:
31、
32、其中,
33、表示各分支特征向量的集合;
34、()?為動(dòng)態(tài)權(quán)重生成函數(shù);
35、?表示當(dāng)前樣本的類別標(biāo)簽或預(yù)測(cè)結(jié)果;
36、為可學(xué)習(xí)的參數(shù)集合;
37、權(quán)重的動(dòng)態(tài)性體現(xiàn)在訓(xùn)練或推理過(guò)程中,每個(gè)樣本?輸入模型后,adwm?會(huì)根據(jù)當(dāng)前樣本的特征分布與類別信息,生成不同的權(quán)重分布:
38、
39、該權(quán)重向量?體現(xiàn)了模型對(duì)不同身體區(qū)域特征的重要性評(píng)估;當(dāng)輸入樣本存在局部遮擋或關(guān)鍵點(diǎn)缺失時(shí),模型會(huì)自動(dòng)降低無(wú)關(guān)區(qū)域分支的權(quán)重,提高與當(dāng)前預(yù)測(cè)類別強(qiáng)相關(guān)強(qiáng)區(qū)域的影響力。
40、進(jìn)一步,在步驟s5中,動(dòng)態(tài)權(quán)重矩陣的自適應(yīng)性通過(guò)多項(xiàng)正則化項(xiàng)進(jìn)行約束,整體優(yōu)化目標(biāo)為:
41、,
42、各個(gè)損失項(xiàng)的計(jì)算公式如下:
43、,
44、
45、
46、其中,
47、:?當(dāng)前batch中類別?的樣本索引集合
48、:?分類損失,用于監(jiān)督模型預(yù)測(cè);
49、?:多樣性約束,確保不同分支權(quán)重分布具有差異性;
50、:稀疏性約束,抑制無(wú)效分支的干擾;
51、:一致性約束,使權(quán)重在時(shí)間或類別維度上保持穩(wěn)定。
52、對(duì)于動(dòng)作類別k,其動(dòng)態(tài)權(quán)重矩陣參數(shù)為:
53、,
54、其自適應(yīng)權(quán)重為:
55、,
56、總梯度為:
57、,
58、???,?
59、令學(xué)習(xí)率為,則對(duì)?的一次標(biāo)準(zhǔn)梯度下降更新為
60、。
61、本發(fā)明還提供了一種基于骨骼點(diǎn)的遮擋場(chǎng)景行為識(shí)別系統(tǒng)。
62、本發(fā)明的有益效果在于:
63、本發(fā)明提出的基于骨骼點(diǎn)的遮擋場(chǎng)景行為識(shí)別方法和系統(tǒng),在融合過(guò)程中,模型能夠自適應(yīng)地強(qiáng)化與當(dāng)前動(dòng)作高度相關(guān)或未被遮擋區(qū)域的特征貢獻(xiàn),同時(shí)有效抑制弱相關(guān)區(qū)域及缺失部位帶來(lái)的干擾。同時(shí),設(shè)計(jì)多樣性、稀疏性、一致性三類正則化項(xiàng),使權(quán)重在類別間保持差異、在分支上保持壓縮、在類別內(nèi)部保持穩(wěn)定。實(shí)驗(yàn)表明,本發(fā)明在隨機(jī)遮擋、手臂遮擋、腿部遮擋等復(fù)雜場(chǎng)景下均顯著優(yōu)于現(xiàn)有方法,具備高魯棒性與強(qiáng)泛化能力,適用于智能監(jiān)控、人機(jī)交互及邊緣計(jì)算行為分析等領(lǐng)域。
64、本發(fā)明的其他優(yōu)點(diǎn)、目標(biāo)和特征在某種程度上將在隨后的說(shuō)明書中進(jìn)行闡述,并且在某種程度上,基于對(duì)下文的考察研究對(duì)本領(lǐng)域技術(shù)人員而言將是顯而易見的,或者可以從本發(fā)明的實(shí)踐中得到教導(dǎo)。本發(fā)明的目標(biāo)和其他優(yōu)點(diǎn)可以通過(guò)下面的說(shuō)明書來(lái)實(shí)現(xiàn)和獲得。