本發明屬于計算機視覺與智能監控,尤其涉及一種基于多尺度對齊融合的多模態人群計數方法,適用于公共安全監控、城市交通管理、大型活動安保等全天候、復雜場景下的人群密度統計與人數估算任務。
背景技術:
1、人群計數作為智能監控與公共安全管理的核心技術之一,其核心目標是精準統計特定場景下的人數或生成人群密度分布圖,為資源調度、風險預警提供數據支撐。隨著深度學習技術的發展,基于卷積神經網絡的人群計數方法已取得顯著進展,但現有技術仍存在諸多瓶頸,限制了其在復雜實際場景中的應用。
2、傳統人群計數方法主要依賴單模態?rgb?數據,通過手工特征或深度學習模型提取圖像特征并完成計數。然而,rgb?傳感器易受光照條件影響,在低光、逆光、夜間等場景下會出現紋理退化、信息丟失等問題,導致前景目標與背景難以區分;同時,在人群密度劇烈波動(如稀疏與超高密度區域共存)、嚴重遮擋等復雜場景中,固定感受野的卷積操作難以兼顧細粒度局部細節與全局上下文信息,計數精度大幅下降。
3、為解決單模態?rgb?的局限性,融合多模態數據(如深度、熱成像)的方案成為研究熱點。其中,多模態(可見光?-?熱成像?/?深度)融合憑借熱成像?/?深度數據不受光照變化影響、能捕捉行人深度?/?熱特征的優勢,成為全天候人群計數的理想選擇。但多模態人群計數仍面臨兩大核心挑戰:一是跨模態異質性,rgb?圖像紋理豐富但光照敏感,熱成像?/深度數據輪廓清晰但分辨率低、缺乏細節,且傳感器位移易導致空間錯位,直接融合會產生偽影與計數偏差;二是密度波動適配性差,單幀內人群尺度差異大,現有方法難以有效捕捉多尺度特征,在超高密度人群的長距離依賴建模上存在不足。現有多模態人群計數方法多采用隱式特征融合策略,缺乏顯式的跨模態對齊機制,導致空間錯位與語義不一致;部分方法雖引入注意力機制或多分支結構,但存在計算復雜度高、全局上下文捕捉不充分、多尺度特征融合低效等問題,無法同時滿足計數精度與實時性要求。因此,設計一種能實現跨模態精準對齊、高效融合多尺度特征、兼顧全局與局部信息的多模態人群計數方法,成為本領域亟待解決的技術問題。
技術實現思路
1、為實現上述發明目的,本發明采用的技術方案為:一種基于多尺度對齊融合的多模態人群計數方法,包括如下步驟:
2、步驟1)數據集獲取與預處理:獲取多模態人群場景數據集,按比例劃分為訓練集、驗證集和測試集,對數據進行增強預處理,得到標準化的輸入數據。骨干網絡特征提取:將預處理后的?rgb?圖像和多模態輔助圖像(熱成像?/?深度圖)分別輸入至共享權重的?vgg骨干網絡,通過卷積、池化操作提取不同階段的高層特征圖。
3、步驟2)跨模態細粒度對齊:將骨干網絡輸出的特征圖輸入至密度共享局部對比學習模塊,通過分塊對比學習與密度引導的掩碼重建,實現跨模態特征的空間對齊與語義互補,抑制模態間噪聲。
4、步驟3)多尺度局部特征融合:將對齊后的特征圖輸入至局部特征融合模塊,通過跨模態特征注入與多分支空洞卷積,提取多尺度局部紋理特征,適配人群密度波動。
5、步驟4)全局上下文建模:將局部融合特征輸入至自適應曼巴上下文感知融合模塊,利用曼巴架構的線性復雜度優勢,捕捉長距離上下文依賴,實現全局局部特征協同。
6、步驟5)動態多尺度解碼:將全局融合特征輸入至動態上采樣多尺度特征解碼器,通過鄰層調制與跨尺度聚合策略,生成高分辨率人群密度圖。
7、步驟5)注意力計算結果輸入至上采樣模塊恢復空間分辨率,恢復過程中同時與淺層特征圖保持跳越長連接增強特征表達能力,最后恢復至初始化圖像的分辨率得到分割結果;
8、模型訓練與測試:采用復合損失函數對模型進行監督訓練,通過驗證集篩選最優模型,利用測試集評估模型性能,輸出最終的人群計數結果與密度圖。
9、進一步的,步驟?1?中所述多模態人群場景數據集包括?rgbt-cc、dronergbt、shanghaitechrgbd?開源數據集,輸入圖像標準化分辨率為?256×256(多模態熱成像數據集)或?1024×1024(多模態深度數據集)。
10、進一步的,步驟?3?中所述密度共享局部對比學習模塊的具體操作包括:
11、特征分塊:對?rgb?分支特征圖和多模態輔助分支特征圖執行非重疊分塊操作,得到局部特征塊集合,數學表示為:
12、
13、密度引導對比對齊:構建共享密度模板,通過對比學習拉近距離空間對應特征塊(正樣本對)、推開非對應特征塊(負樣本對),實現細粒度空間對齊,數學表示為:
14、進一步的,所述深度空間模塊具體為:首先進行1×1卷積擴展通道,分別通過空間可分離提取塊和3×3卷積塊,將結果逐像素求和,繼續通過深度可分離提取塊,與初始輸入進行殘差連接。具體數學表示如下:
15、
16、掩碼重建與密度調制:采用互補二進制掩碼(m_v?m_a?=?0)模擬單模態信息丟失,通過跨模態通道注意力重建缺失信息,利用共享密度先驗(低光場景下多模態輔助數據權重調整為?0.6)調制重建殘差,數學表示依次為:
17、
18、
19、
20、其中,σ?為?sigmoid?激活函數,a?為跨模態通道注意力操作。
21、特征融合輸出:將重建后的?rgb?與多模態輔助特征塊經?1×1?卷積調整通道數后融合,得到對齊后的特征圖。
22、跨模態特征注入:將骨干網絡特征與密度共享局部對比學習模塊對齊特征融合,豐富單模態特征表達,數學表示依次為:
23、
24、
25、其中,為多模態輔助骨干特征,為?rgb?骨干特征。
26、乘加融合操作:通過元素乘法與加法結合的方式融合注入后的特征,得到模塊輸入,數學表示為:
27、
28、其中,?為元素乘法,+?為元素加法。
29、多尺度特征提取:采用多分支深度可分離卷積與空洞卷積結合的結構,卷積核尺寸為?1、3、5、7,空洞率為?1、3、5、7,提取多尺度局部特征并拼接,數學表示依次為:
30、
31、
32、通道-空間注意力過濾:通過通道注意力校準特征重要性,結合空間注意力抑制背景噪聲,得到最終局部融合特征。
33、進一步的,步驟?5?中所述自適應曼巴上下文感知融合模塊的具體操作包括:
34、特征強化:將骨干網絡特征與密度共享局部對比學習模塊對齊特征、局部融合模塊輸出特征融合,增強跨模態對齊特性,數學表示依次為:
35、
36、
37、多尺度上下文注入:通過雙分支池化(步長?2?和?4)聚合上下文信息并上采樣恢復分辨率,避免曼巴序列化導致的局部信息丟失,數學表示為:
38、
39、動態掩碼與曼巴建模:融合歸一化后的?rgb?與多模態輔助特征,生成動態掩碼抑制背景,通過?es2d(efficient?spatial?2d?scanning)模塊捕捉長距離依賴,數學表示依次為:
40、
41、
42、殘差融合輸出:將輸入特征、掩碼特征與通道注意力特征殘差融合,得到全局融合特征,數學表示為:
43、
44、進一步的,步驟?6?中所述動態上采樣多尺度特征解碼器的具體操作包括:
45、鄰層調制:從最深層特征開始,通過上采樣將深層語義特征作為掩碼調制淺層特征,抑制背景噪聲,數學表示為:
46、
47、其中,?表示尺度因子為?s?的上采樣操作。
48、跨尺度聚合:融合相鄰層調制特征與深層跳連特征,保留多尺度信息,數學表示為:
49、
50、進一步的,步驟?7?中所述復合損失函數包括貝葉斯密度回歸損失、跨模態局部對比損失和掩碼重建損失,總損失為三者加權和,數學表示為:
51、
52、其中,λ1+λ2=1?為平衡權重;為貝葉斯密度回歸損失,建模密度概率分布以解決標注模糊問題;為跨模態局部對比損失,最大化對應特征塊互信息;為掩碼重建損失,確保跨模態互補性學習。
53、其中,λ1+λ2=1?為平衡權重;為貝葉斯密度回歸損失,建模密度概率分布以解決標注模糊問題;為跨模態局部對比損失,最大化對應特征塊互信息;為掩碼重建損失,確保跨模態互補性學習。
54、與現有技術相比,本發明具有以下有益效果:
55、本發明提出?“先對齊后融合”?的核心架構,通過密度共享局部對比學習模塊實現跨模態細粒度空間對齊與語義互補,有效解決了多模態數據的空間錯位與模態異質性問題,抑制了融合偽影與計數偏差,提升了復雜光照場景下的魯棒性。
56、本發明設計的局部特征融合模塊采用跨模態注入與多分支空洞卷積結構,能精準捕捉多尺度局部紋理特征,適配人群密度劇烈波動的場景,同時通過通道?-?空間注意力過濾背景噪聲,強化前景目標特征表達。
57、本發明引入自適應曼巴上下文感知融合模塊,利用曼巴架構的線性復雜度優勢,在避免?transformer?高計算成本的同時,高效捕捉超高密度人群的長距離上下文依賴,實現全局?-?局部特征協同,解決了傳統?cnn?全局建模不足的問題。
58、本發明的動態上采樣多尺度特征解碼器采用鄰層調制與跨尺度聚合策略,通過深層語義特征引導淺層細節恢復,有效彌補了深淺層特征的語義鴻溝,生成的高分辨率密度圖兼具精準性與細節一致性。
59、本發明采用貝葉斯密度回歸損失、跨模態局部對比損失與掩碼重建損失構成的復合損失函數,從密度建模、跨模態對齊、語義互補三個維度監督模型訓練,提升了模型的泛化能力與計數精度。
60、本發明模型在?rgbt-cc、dronergbt、shanghaitechrgbd?三大多模態基準數據集上均取得最優性能,在低光、超高密度、無人機俯視等復雜場景下表現穩定,且參數量與計算復雜度適中,具備實際工程應用價值。