本發明涉及一般的圖像數據處理或產生技術中的用于計算機圖形學的三維重建,尤其涉及一種融合先驗因子與多層交互的車輛3d形狀與姿態聯合分析方法。
背景技術:
1、車輛3d形狀重建是指在給定圖片的情況下,對車輛的6dof位姿進行回歸同時重建3d形狀。這項技術在自動駕駛等強人機交互領域具有廣泛應用。但是實際場景中的復雜情境給該任務帶來了很大挑戰。首先,單目3d車輛姿態估計是一個典型的“不適定問題”,其主要挑戰來自于缺乏深度信息和視角限制;其次場景中復雜的交互關系對最終結果具有重要影響;最后3d形狀的重建精度與計算效率之間仍存在明顯權衡空間。因此亟需一種融合先驗因子與多層交互的車輛3d形狀與姿態聯合分析方法用于解決上述問題。
2、早期方法大多通過幾何分析,具有較大局限性,它們被基于數據驅動的深度學習方法取代。現有方法已經解決了一些挑戰,在車輛的6dof(6degrees?of?freedom?poseestimation)位姿回歸的任務中,基于卷積網絡的方法利用3d框標注信息獲取密集地平面表示,緩解2d到3d映射的病態性問題,但忽略了全局上下文及物體間交互關系對最終回歸結果的影響;在車輛的3d形狀重建中,受人類形狀重建技術啟發,部分研究嘗試為車輛形狀重建設計主成分分析(principal?component?analysis,pca)基,但由于受限于線性假設且對噪聲敏感,導致其在細節捕捉方面存在局限。
3、因此,如何在復雜開放場景中兼顧深度信息缺失、目標間復雜交互關系和高效建模需求,以實現高效且高魯棒的車輛3d形狀與姿態聯合重建分析,成為了需要研究解決的問題。
技術實現思路
1、本發明的實施例提供一種融合先驗因子與多層交互的車輛3d形狀與姿態聯合分析方法,能夠實現高效且高魯棒的車輛3d形狀與姿態聯合重建分析。
2、為達到上述目的,本發明的實施例采用如下技術方案:
3、一種融合先驗因子與多層交互的車輛3d形狀與姿態聯合分析方法,包括:
4、步驟一、提取目標圖像的特征圖并轉換至相機空間;
5、步驟二、從特征圖中提取2d基元特征,并生成目標融合特征;
6、步驟三、利用先驗因子和目標融合特征,構建聯合分析模型中用于車輛3d形狀重建的第一注意力模塊;
7、步驟四、利用目標融合特征和場景特征,構建聯合分析模型中用于車輛6dof姿態估計的第二注意力模塊;
8、步驟五、建立多層次多角度損失函數對聯合分析模型進行監督訓練,再通過訓練后的聯合分析模型對車輛進行3d形狀與姿態聯合分析。
9、在計算機視覺相關的分析建模技術中,通常設置有四大坐標系,包括:世界坐標系,相機坐標系,圖像物理坐標系,像素坐標系。本實施例中將像素坐標系到相機坐標系的轉換。具體的,步驟一包括:通過res2net網絡擴展的mask?r-cnn獲取目標圖像的特征圖;將所獲取的特征圖在像素空間下的信息轉化到相機空間,包括:將從像素空間轉換到相機空間上的方式為:,,?,,其中:特征圖的邊界框在像素空間中表示為物體中心坐標,、為物體中心坐標的x、y軸上的值;對應邊界框的寬度為,高度為;攝像機內參為,、為單位像素焦距對應的x、y軸上的值,(,?)為圖像中心主點;z表示用于匹配圖像形狀的固定比例因子。
10、具體的,步驟二包括:從特征圖中提取2d基元特征;利用所提取的2d基元特征建立關鍵點熱圖,之后基于關鍵點熱圖生成目標融合特征。其中,通過嵌入網絡對2d基元特征進行處理,其中,將關鍵點熱圖疊加到對應的關鍵點上,2d基元特征包括:邊界框、邊界框特征、2d關鍵點和關鍵點熱圖;將經過處理的2d基元特征與邊界框及對應的邊界框特征進行堆疊,得到目標融合特征,,,是對邊界框進行特征增強的嵌入網絡,是對邊界框特征進行特征增強的嵌入網絡,是對2d關鍵點進行特征增強的嵌入網絡,是對關鍵點熱圖進行特征增強的嵌入網絡,n表示檢測到的車輛數量;c表示融合后的特征維度,表示實數域,表示全連接層。
11、具體的,步驟三包括:構建先驗集合并獲取先驗因子,先驗集合包括:先驗特征、先驗平均量和先驗偏移量,其中,共采用=79個先驗形狀,每個形狀由v=1352個頂點組成,通過特征聚合模塊進行處理先驗特征得到先驗因子;n表示檢測到的車輛數量;c表示融合后的特征維度,v表示每個先驗形狀的頂點數;通過所獲取的先驗因子驅動的注意力模塊進行車輛的3d形狀重建。其中,通過線性變換將目標融合特征映射為查詢向量,將先驗特征分別映射為鍵向量和值向量;計算注意力得分?,其中,和都是注意力得分計算過程的中間表示,和;重建的車輛的3d形狀表示為:。
12、具體的,步驟四包括:構建場景特征并進行預處理,其中,d為場景特征的維度;預處理的結果表示為和,,,tanh()表示動態tanh函數,是可學習的縮放系數,用于根據輸入的范圍動態調整縮放比例;和分別為可學習的縮放和平移參數,用于擬合真實輸入輸出關系。將目標與場景的交互關系解耦為兩類,包括:對象級的交互感知注意力,對象級的交互感知注意力得分表示為;和,場景級的上下文感知注意力,場景級的上下文感知注意力得分表示為;在第二注意力模塊中,通過平移回歸器預測車輛的位移pt,通過旋轉回歸器預測車輛的旋轉pr;其中,,,和為對應和的可學習因子。
13、具體的,步驟五中的多層次多角度損失函數包括:回歸損失子函數、3d重建損失子函數、目標檢測損失子函數和世界框架引導的形狀-姿態聯合損失子函數;其中,回歸損失子函數中的平移損失為:,表示平移向量地面真值,t表示預測的平移向量;旋轉損失為:,表示旋轉向量地面真值,r表示預測的旋轉向量;3d重建損失子函數為:,代表網格地面真值,i表示物體網格的頂點編號,v表示每個先驗形狀的頂點數,m表示目標的網絡重建結果,表示物體網格第i個頂點的三維坐標索引;目標檢測損失子函數為:,?代表maskr-cnn中區域提議網絡損失,表示2d邊界框損失,表示2d關鍵點損失。
14、世界框架引導的形狀-姿態聯合損失子函數為:,其中,世界坐標系的3d網格損失,旋轉空間損失,平移空間損失,為估計的物體旋轉對應的旋轉矩陣,表示平移向量,表示物體對應的真實旋轉矩陣,表示物體對應的真實平移向量;多層次多角度損失函數表示為:,其中,為各損失函數的權重系數。
15、本發明實施例提供的融合先驗因子與多層交互的車輛3d形狀與姿態聯合分析方法,通過融合先驗因子驅動注意力模塊并全面考慮目標與場景地交互關系,高效魯棒地實現車輛3d形狀與姿態聯合重建。本發明包括:針對輸入的圖片,提取并定位目標邊界框,轉換至相機空間;提取2d基元特征并進一步構建目標融合特征;設計基于先驗因子驅動的注意力模塊用于車輛3d形狀重建,通過先驗信息的有效聚合顯著提升形狀重建精度并降低計算成本;設計分層交互的注意力模塊用于車輛6dof姿態估計,精確建模目標間與目標與場景間的交互關系,提高位姿估計精度;設計多層次多角度損失函數對聯合分析模型進行監督訓練,最終輸出精確的形狀與位姿聯合估計結果,從而實現高效且高魯棒的車輛3d形狀與姿態聯合重建分析。