本發(fā)明涉及交通信息管理,特別是一種基于多視角時空建模的交通流預(yù)測方法及系統(tǒng)。
背景技術(shù):
1、交通流預(yù)測是智能交通系統(tǒng)(its)的核心任務(wù)之一,其目標(biāo)是通過分析歷史交通監(jiān)控視頻數(shù)據(jù),建模車輛、行人等交通參與者的運動規(guī)律,從而預(yù)測未來短時或長期的交通狀態(tài)。準(zhǔn)確的預(yù)測對于交通疏導(dǎo)、擁堵預(yù)警、路徑規(guī)劃等應(yīng)用具有重要意義。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于視頻序列的時空建模方法已成為該領(lǐng)域的主流。
2、目前,主流的交通流預(yù)測方法主要圍繞如何有效捕獲視頻幀間的時空依賴關(guān)系展開,大致可分為以下幾類:
3、1.?基于循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn)及其變體的方法:早期方法多采用lstm、gru等循環(huán)神經(jīng)網(wǎng)絡(luò)單元來建模時序動態(tài)。這類方法將每一幀的特征依次輸入rnn,隱式地傳遞歷史信息。然而,rnn固有的序列處理方式導(dǎo)致訓(xùn)練效率較低,且存在梯度消失/爆炸問題,難以捕獲長距離的時空依賴。盡管后續(xù)提出了convlstm等模型,將卷積操作引入以捕捉空間特征,但其核心時序建模機制仍受限于rnn的串行瓶頸,難以充分建模復(fù)雜的全局時空交互。
4、2.?基于三維卷積神經(jīng)網(wǎng)絡(luò)(3d-cnn)的方法:這類方法將時序維度視為與空間維度并列的第三維,使用3d卷積核同時提取時空特征。雖然3d-cnn能夠直接處理視頻塊,但其計算開銷巨大,且固定的卷積核感受野限制了其對長程、動態(tài)變化的時空關(guān)系的建模能力。模型往往更側(cè)重于局部短時模式的捕捉,對于交通流中常見的、由全局交通狀況(如遠(yuǎn)端擁堵傳導(dǎo))引發(fā)的長程依賴關(guān)系,其建模效果有限。
5、3.?基于transformer架構(gòu)的方法:近年來,vision?transformer及其時空變體通過自注意力機制顯式地建模所有時空位置(令牌)之間的關(guān)系,在長程依賴捕獲上展現(xiàn)出潛力。然而,將其直接應(yīng)用于高分辨率、長序列的視頻數(shù)據(jù)時,自注意力機制的計算復(fù)雜性與時空令牌數(shù)量的平方成正比,導(dǎo)致顯存消耗和計算成本急劇上升,嚴(yán)重限制了其在實時或大規(guī)模交通預(yù)測場景下的應(yīng)用可行性。此外,單一的全局注意力機制可能平等地看待所有時空關(guān)系,缺乏對交通場景中多層次(如局部車輛跟馳與全局路網(wǎng)流量)時空交互的差異化建模能力。
6、綜上所述,現(xiàn)有技術(shù)面臨的主要挑戰(zhàn)可歸結(jié)為:
7、(1)建模視角單一:現(xiàn)有方法多依賴于單一的時序建模范式,未能從多個互補的視角系統(tǒng)性地解構(gòu)和融合時空依賴關(guān)系,導(dǎo)致對復(fù)雜交通動態(tài)的表征不夠全面。
8、(2)長程依賴與計算效率難以兼顧:rnn和3d-cnn難以高效捕獲長程依賴,而transformer雖具潛力卻受制于高昂的計算復(fù)雜度。
9、(3)特征利用不充分:在建模過程中,往往未對原始時空特征進(jìn)行有針對性的篩選和增強,非關(guān)鍵信息可能干擾核心時空關(guān)系的提取,影響模型精度。
10、因此,亟需一種基于多視角時空建模的交通流預(yù)測方法及系統(tǒng),來解決當(dāng)前方法將時間維度(t)與通道維度(c)簡單合并進(jìn)行統(tǒng)一處理,或依賴transformer架構(gòu)中單一的全局注意力機制來建模時序依賴,沒有捕捉時空過程中多角度的時空特征關(guān)系的技術(shù)問題。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點,提供一種基于多視角時空建模的交通流預(yù)測方法及系統(tǒng),旨在融合多視角的時序理解,高效且精準(zhǔn)地捕獲交通流數(shù)據(jù)中局部與全局、顯式與隱式的復(fù)雜時空依賴關(guān)系,從而在可控的計算成本下,顯著提升交通流預(yù)測的準(zhǔn)確性與魯棒性。
2、為實現(xiàn)上述目的,本技術(shù)提出一種基于多視角時空建模的交通流預(yù)測方法,包括以下步驟:
3、步驟s1:通過編碼器對輸入的連續(xù)交通視頻幀進(jìn)行逐幀編碼,得到每幀的語義特征;
4、步驟s2:將所述語義特征輸入時序模塊進(jìn)行時空關(guān)系建模;
5、步驟s3:在所述時序模塊中,對輸入的語義特征使用通道空間注意力模塊進(jìn)行特征篩選,以過濾非重要的時序信息;
6、步驟s4:將篩選后的語義特征進(jìn)行維度變換,分別對連續(xù)幀的語義特征進(jìn)行維度變換得到第一時序角度對應(yīng)的第一時序維度形狀,以及第二時序角度對應(yīng)的第二時序維度形狀;
7、步驟s5:對所述第一時序角度和第二時序角度分別進(jìn)行二維交叉掃描和三維交叉掃描,得到每個時序角度下不同方向一維序列的語義特征;
8、步驟s6:將每個時序角度下不同方向一維序列的語義特征分別輸入到不同的時空關(guān)系提取基模型中;其中,所述時空關(guān)系提取基模型基于選擇性狀態(tài)空間模塊和線性門控結(jié)構(gòu)構(gòu)建,用于提取時序關(guān)系;
9、步驟s7:對每個時序角度下經(jīng)時空關(guān)系提取基模型處理后的不同方向一維序列的語義特征分別進(jìn)行融合,并映射到圖像特征維度形狀;再基于第一時序角度和第二時序角度進(jìn)行不同角度時序融合,使每個語義特征得到不同方向和不同時序角度建模方式的時空信息,得到時序語義特征;
10、步驟s8:將融合后的時序語義特征輸入下一層時序模塊重復(fù)執(zhí)行步驟s3至步驟s7;其中,重復(fù)次數(shù)與模型層數(shù)一致;
11、步驟s9:時序處理完成后,通過解碼器將得到時序語義特征解碼到像素空間中,解碼為預(yù)測的交通流視頻幀。
12、作為更進(jìn)一步的解決方案,所述編碼器由多個相同的層結(jié)構(gòu)組成,且每層包括兩個子層;其中,
13、第一子層由2d卷積、groupnorm歸一化和silu激活函數(shù)構(gòu)成,用于卷積操作進(jìn)行特征提取;
14、第二子層由2d卷積、groupnorm歸一化和silu激活函數(shù)構(gòu)成,用于調(diào)整卷積步長以實現(xiàn)下采樣操作;
15、所述編碼器輸出跳連特征至解碼器。
16、作為更進(jìn)一步的解決方案,所述編碼器的層結(jié)構(gòu)數(shù)量根據(jù)輸入數(shù)據(jù)分辨率確定,且在最后需要返回編碼器中第一層結(jié)構(gòu)處理后特征,用于實現(xiàn)跳鍵結(jié)構(gòu)。
17、作為更進(jìn)一步的解決方案,所述通道空間注意力模塊用于同時支持隱式時空關(guān)系和全局顯式時空關(guān)系的建模,并引入通道空間注意力來進(jìn)行篩選重要時空關(guān)系特征;其中,所述第一時序角度從通道級別中提取隱式時空關(guān)系,所述第二時序角度從空間位置屬性提取全局顯式時空關(guān)系。
18、作為更進(jìn)一步的解決方案,在步驟s4中,所述維度變換為:
19、第一時序角度=[b,t*c1,h,w]
20、第二時序角度=[b,c2,t,h,w]
21、其中,其中b為批次大小,t為幀數(shù),c1和c2分別為兩個視角的通道數(shù),h和w為特征圖的高度和寬度。
22、作為更進(jìn)一步的解決方案,在步驟s5中,所述二維交叉掃描和三維交叉掃描分別包括橫向掃描、縱向掃描、反橫向掃描和反縱向掃描四個方向,具體的維度變換表示如下:
23、第一時序角度的維度變換:
24、橫向掃描=[b,?t*c1,?h*w]
25、縱向掃描=b,?t*c1,?w*h]
26、反橫向掃描=[b,?t*c1,?-?h*w]
27、反縱向掃描=?[b,?t*c1,?-?w*h]
28、第二時序角度的維度變換:
29、橫向掃描=?[b,?c2,?t*h*w]
30、縱向掃描=[b,?c2,?h*t*w]
31、反橫向掃描=[b,?c2,?-?t*h*w]
32、反縱向掃描=?[b,?c2,?-?t*w*h]
33、其中,b表示訓(xùn)練模型的批次大小,t表示輸入連續(xù)的幀數(shù),c1表示第一時序角度所使用的通道維度,c2表示第二時序角度所使用的通道維度,-表示逆向的順序方向。
34、作為更進(jìn)一步的解決方案,所述時空關(guān)系提取基模型的結(jié)構(gòu)為:
35、z?=?ssm(σ(linear(x))
36、s?=?σ(linear(x))
37、o?=?linear(z?⊙?s)
38、其中,z為經(jīng)過選擇性狀態(tài)空間模型ssm處理后的潛在時序特征,s為由輸入通過線性層和激活函數(shù)生成的門控信號,o為時空關(guān)系提取基模型的最終輸出特征,x表示輸入特征,ssm表示mamba選擇性狀態(tài)空間模型,linear表示線性層,σ表示激活函數(shù)silu,⊙表示哈達(dá)瑪積。
39、作為更進(jìn)一步的解決方案,在步驟s7中,所述不同角度時序融合用于將步驟s6中經(jīng)過時空關(guān)系提取基模型處理的后不同方向和不同角度的一維度時序的時空關(guān)系進(jìn)行相融,具體執(zhí)行方式如下:
40、所述第一時序角度對應(yīng)的橫向掃描、縱向掃描、反橫向掃描、反縱向掃描的一維度序列轉(zhuǎn)為形狀[b,?t*c1,?h*w],然后直接相加,并通過時空關(guān)系提取基模型中線性門控結(jié)構(gòu)中的線性層映射為[b,?t*c,?h*w];其中,c為通道維度;
41、所述第二時序角度對應(yīng)的橫向掃描、縱向掃描、反橫向掃描、反縱向掃描的一維度序列轉(zhuǎn)為形狀[b,?c2,?t*h*w],然后直接把四個方向按照指定維度相加,并通過時空關(guān)系提取基模型中線性門控結(jié)構(gòu)中的線性層映射為[b,?c,?t*h*w]。
42、作為更進(jìn)一步的解決方案,所述解碼器的結(jié)構(gòu)與編碼器對稱,每層包括兩個子層:第一子層由2d卷積、groupnorm歸一化和silu激活函數(shù)構(gòu)成,用于上采樣;第二子層由2d卷積、pixelshuffle上采樣、groupnorm歸一化和silu激活函數(shù)構(gòu)成,用于特征解碼;所述解碼器接收來自編碼器的跳連特征。
43、另一方面,本發(fā)明還提供了一種基于多視角時空建模的交通流預(yù)測系統(tǒng),用于實現(xiàn)如上任一項所述的一種基于多視角時空建模的交通流預(yù)測方法,包括:
44、數(shù)據(jù)處理模塊,用于對交通流視頻數(shù)據(jù)進(jìn)行歸一化處理;
45、編碼器,用于對連續(xù)視頻幀進(jìn)行編碼,提取語義特征;
46、時序模塊,用于對語義特征進(jìn)行多視角時空關(guān)系建模與融合;
47、解碼器,用于將時序特征解碼為預(yù)測視頻幀;
48、其中,所述時序模塊包括通道空間注意力子模塊、維度變換子模塊、交叉掃描子模塊、時空關(guān)系提取基模型子模塊和特征融合子模塊。
49、與相關(guān)技術(shù)相比較,本發(fā)明能提供的一種基于多視角時空建模的交通流預(yù)測方法及系統(tǒng)具備如下優(yōu)勢:
50、1、本發(fā)明通過將時空關(guān)系解耦為“通道維度隱式時序關(guān)系”與“空間維度顯式時序關(guān)系”兩個互補視角,并分別設(shè)計針對性的建模路徑(二維與三維交叉掃描),克服了現(xiàn)有單一建模范式(如僅用卷積、rnn或注意力)的局限性。該方法能夠協(xié)同捕獲交通流數(shù)據(jù)中局部細(xì)粒度演化與全局結(jié)構(gòu)變化,實現(xiàn)對復(fù)雜時空動態(tài)更全面、更深層的表征,從而顯著提升了預(yù)測精度。如表1所示,在相同數(shù)據(jù)集(taxibj)上,本發(fā)明模型(ours)在均方誤差(mse)、絕對誤差(mae)和結(jié)構(gòu)相似指數(shù)(ssim)等關(guān)鍵指標(biāo)上均優(yōu)于所列主流模型;
51、2、本發(fā)明核心的時空關(guān)系提取基模型基于先進(jìn)的選擇性狀態(tài)空間模型(如mamba的s6算法)構(gòu)建。該結(jié)構(gòu)通過輸入依賴的選擇性機制,能夠動態(tài)地保留重要信息、過濾冗余,在理論上具備線性計算復(fù)雜度的同時,展現(xiàn)出優(yōu)異的長序列建模能力。這避免了僅使用transformer、卷積、遞歸類模型采用單一角度時序建模方式來捕獲時空依賴,使得模型在處理長時交通流序列時,既能保證預(yù)測性能,又能維持較低的參數(shù)量和計算成本(如表1中參數(shù)量僅為2.88m),更有利于實際部署;
52、3、本發(fā)明在時序建模前創(chuàng)新性地引入了通道空間注意力模塊(cbam),對編碼后的空間特征進(jìn)行自適應(yīng)重標(biāo)定。該模塊能自動聚焦于對時空演化預(yù)測至關(guān)重要的通道與空間區(qū)域,有效濾除背景噪聲等非重要信息的干擾,為后續(xù)的雙視角時序建模提供了更純凈、更具判別力的輸入特征,從源頭優(yōu)化了信息流,進(jìn)一步增強了模型的魯棒性和準(zhǔn)確性。
53、4、本發(fā)明所提出的多視角時空建模框架具有普適性,其核心思想——通過解耦視角、選擇性狀態(tài)空間建模與交叉掃描策略來融合不同維度的時序信息——并不僅限于交通流預(yù)測;該框架可遷移至其他具有時空依賴特性的序列預(yù)測任務(wù)中,如氣象預(yù)報、視頻幀預(yù)測、人體動作識別等,為解決廣泛的時空數(shù)據(jù)建模問題提供了新穎且有效的技術(shù)思路,具有良好的應(yīng)用前景和推廣價值。