本發明涉及圖像處理,具體涉及一種基于六面投影的全景圖像偽標簽生成方法與裝置。
背景技術:
1、隨著自動駕駛以及智能安防等技術的飛速發展,360度全景相機因其能夠一次性捕獲完整的環境信息的獨特優勢,成為環境感知系統中的重要組成部分,應用日益廣泛。在此類應用中,全景圖像通常采用等距柱狀投影(equirectangular?projection,erp)格式進行存儲和表示,然而erp格式在全景圖像中引入了顯著的幾何畸變,尤其在圖像的頂部和底部區域,物體會發生嚴重的拉伸和形變,為目標檢測等視覺任務帶來了巨大的技術挑戰。
2、近年來,開放詞匯目標檢測(open-vocabulary?object?detection,ovd)作為目標檢測領域的研究熱點,突破了傳統檢測方法依賴預定義類別集的局限性。該技術旨在根據任意文本描述識別并定位圖像中的物體,具有較強的靈活性和擴展性。相關ovd方法多基于視覺-語言預訓練模型構建,例如基于對比語言-圖像預訓練(contrastive?language-image?pre-training,clip)的檢測框架,通過計算圖像區域特征與文本嵌入之間的相似度實現開放類別的預測。
3、目前,主流的ovd模型主要基于平面圖像數據集進行訓練,并在平面圖像上展現出優異的檢測性能。然而,當直接將這些模型應用于畸變嚴重的erp全景圖像時,其檢測能力出現顯著下降。究其原因,主要在于平面圖像與全景圖像之間存在嚴重的域差異,包括幾何結構、物體外觀分布等方面的差異,導致模型難以有效泛化。
4、綜上所述,相關技術缺乏一種高效且可靠的手段,為標注樣本稀缺的全景圖像域生成高質量的偽標簽,進而制約了開放詞匯檢測技術在全景場景中的實際部署與應用。
技術實現思路
1、有鑒于此,本技術提出了一種基于六面投影的全景圖像偽標簽生成方法與裝置,本發明在降低數據標注成本、提升偽標簽質量、增強模型泛化能力以及促進全景開放詞匯目標檢測技術實際落地等方面均具有顯著優勢。
2、具體地,本技術是通過如下技術方案實現的:
3、根據本說明書實施例的第一方面,提供一種基于六面投影的全景圖像偽標簽生成方法,包括下述步驟:
4、步驟s1,對等距柱狀投影erp格式的全景圖像進行幾何變換,得到不同視角下的透射子圖;
5、步驟s2,利用預訓練的開放詞匯檢測模型,分別對每個透射子圖以及所述全景圖像進行目標檢測,得到各透射子圖的檢測結果與所述全景圖像的檢測結果,所述檢測結果包括目標檢測框及檢測置信度;
6、步驟s3,對各個目標檢測框進行語義理解,得到各個目標檢測框對應的目標類別與類別置信度;
7、步驟s4,將每個透射子圖的目標檢測框反投影至所述全景圖像的坐標系中并進行篩選,得到第一偽標簽集合;以及基于所述全景圖像的檢測結果與語義理解結果,得到第二偽標簽集合;
8、步驟s5,對所述第一偽標簽集合與所述第二偽標簽集合進行融合處理,基于融合結果得到所述全景圖像的偽標簽數據。
9、根據本說明書實施例的第二方面,提供一種基于六面投影的全景圖像偽標簽生成裝置,包括:
10、投影變換單元,用于對等距柱狀投影erp格式的全景圖像進行幾何變換,得到不同視角下的透視子圖;
11、目標檢測單元,用于利用預訓練的開放詞匯檢測模型,分別對每個透視子圖以及所述全景圖像進行目標檢測,得到各透視子圖的檢測結果與所述全景圖像的檢測結果,所述檢測結果包括目標檢測框及檢測置信度;
12、類別檢測單元,用于對各個目標檢測框進行語義理解,得到各個目標檢測框對應的目標類別與類別置信度;
13、標簽整合單元,將每個透視子圖的目標檢測框反投影至所述全景圖像的坐標系中并進行篩選,得到第一偽標簽集合;以及基于所述全景圖像的檢測結果與語義理解結果,得到第二偽標簽集合;
14、偽標簽生成單元,用于對所述第一偽標簽集合與所述第二偽標簽集合進行融合處理,基于融合結果得到所述全景圖像的偽標簽數據。
15、根據本說明書實施例的第三方面,提供一種電子設備,包括處理器;以及計算機可讀存儲介質,在所述計算機可讀存儲介質中存儲有計算機程序指令,所述計算機程序指令在被所述處理器運行時使所述處理器執行第一方面所述方法。
16、本技術實施例至少具有下述技術效果:
17、(1)本技術實施例巧妙地解決了全景圖像標注數據匱乏這一核心瓶頸問題,利用在大規模平面數據集上預訓練的、性能強大的開放詞匯檢測模型,本技術實施例能夠自動為未標注的全景圖像生成大量高質量的偽標簽,極大地降低了對人工標注的依賴,節省了成本,使得快速構建大規模、高質量的全景檢測數據集成為可能,有力推動了全景檢測技術的實際應用和迭代發展;
18、(2)本技術實施例通過將全景圖像從畸變嚴重的erp格式轉換為六個獨立的立方體投影面,有效地緩解了幾何畸變對檢測模型造成的負面影響,每個立方體面更接近于標準的平面透視圖像,其幾何特性與開放詞匯檢測模型訓練圖像分布更為匹配,使得平面模型能夠發揮出最佳性能,為每個投影面生成更準確、更可靠的初始檢測結果,為后續步驟奠定堅實基礎;
19、(3)本技術實施例在完成六面投影偽標簽反投影的基礎上,引入跨路徑偽標簽融合機制,將立方體投影路徑生成的檢測結果與erp圖像直接檢測得到的候選結果進行統一建模與融合處理,由于兩類檢測路徑在誤差分布上具有顯著的結構性差異,其中立方體投影路徑在局部區域具備更優的幾何一致性,能夠提升小尺度目標與細節區域的檢測能力,而erp直接檢測路徑在目標完整性方面具有優勢,因此通過引入基于交并比匹配與置信度加權的融合策略,實現不同路徑檢測結果的優勢互補,該機制能夠有效緩解跨投影面目標截斷問題,同時降低極區畸變對檢測結果的影響,從而顯著提升偽標簽在目標完整性、定位精度以及小目標檢測能力方面的整體質量與魯棒性;
20、(4)本技術實施例提出的偽標簽映射與融合機制具有高度的魯棒性和精確性,通過立方體投影與erp坐標之間嚴格的幾何映射關系,以及融合過程中引入的路徑感知權重調節策略,可以有效處理不同來源檢測框之間可能存在的重復、不一致或局部偏差問題,最終生成統一、完整且空間位置準確的全景級偽標簽,這一過程避免了簡單拼接或單一路徑檢測可能帶來的邊界偽影、目標缺失或定位偏移問題,從而顯著提高偽標簽質量;
21、(5)本技術實施例的全景圖像偽標簽可用于訓練全景開放詞匯檢測模型,使其具備較強的泛化能力和實用性,不僅能夠繼承開放詞匯檢測模型的開放詞匯識別能力,響應任意的文本查詢,還通過在融合后的全景偽標簽數據上的訓練或蒸餾,能夠充分學習全景圖像中的幾何結構特性與跨視角語義一致性,從而在真實全景場景中實現更加穩定與準確的目標檢測性能,此外本實施例的全景圖像偽標簽不依賴于特定的平面開放詞匯檢測模型架構,可以靈活地與當前及未來不斷發展的各種視覺語言模型及檢測框架相結合,具有良好的可擴展性與前瞻性。