本發明屬于視頻編碼,具體涉及一種基于時間相關性的360度視頻快速編碼單元劃分方法。
背景技術:
1、在現有的視頻編碼標準中,編碼單元(coding?unit,?cu)的劃分決策通常依賴于基于率失真(rate?distortion,?rd)優化的窮舉搜索機制。編碼器對每一種可選的劃分結構進行編碼、估計與比較,從而選擇具有最優率失真性能的劃分方式。盡管這種方式能夠獲得較為理想的壓縮效率,但需要在每個cu上反復執行編碼與誤差估計,計算負擔極其沉重,尤其在4k/8k超高清視頻、120fps高頻場景甚至360°視頻編碼中,復雜度急劇增加,難以滿足實時應用的要求。
2、為了降低復雜度,研究人員逐漸引入傳統機器學習模型,如決策樹、支持向量機以及lightgbm等,通過亮度梯度、紋理復雜度或運動信息等手工特征判斷cu是否繼續劃分。這類方法在部分場景能夠減少一定的計算量,但由于對人工特征依賴嚴重,難以泛化到具有復雜紋理、快速運動或跨場景的視頻中。此外,這些方法大多只使用當前幀的信息,未有效利用前后幀編碼結構在視覺內容上的高度一致性。
3、隨著深度學習技術的發展,卷積神經網絡被用于直接預測cu的劃分類別,通過學習圖像區域的亮度結構、紋理特性和局部統計信息實現快速決策。一些方法利用多階段退出結構、不同尺寸cu的多網絡設計、基于分割圖的結構預測或空間特征與簡單時序建模的結合方式,以提升劃分預測性能。然而,這些方法依舊存在顯著限制:首先,它們大多僅依賴單幀特征,缺乏針對視頻序列幀間連續性所設計的結構復用機制,因此在前后幀紋理變化較小的區域仍然需要重復推理,計算成本較高;其次,深度學習模型通常結構固定,無法根據cu與前一幀之間的變化程度動態選擇更合適的模型,導致在簡單區域中計算量浪費,在復雜區域中表達能力不足;再次,已有方法通常將前后幀特征直接拼接輸入網絡,缺乏能夠根據運動強度或亮度變化自動調整特征貢獻的自適應融合模塊,限制了模型對不同場景條件下的適應能力。
4、特別是在360°視頻編碼任務中,由于等矩圓柱投影(equirectangularprojection,?erp)投影會在高緯度區域產生顯著的水平拉伸,使得同樣大小的cu?在不同緯度具有完全不同的紋理方向性與分布特征,傳統深度學習模型難以在整個球面范圍獲得穩定的性能。現有方法很少專門針對不同緯度區域的差異設計卷積結構或損失調節機制,因此在360°視頻場景下常出現預測不穩、泛化能力不足的問題。
5、因此,現有技術主要存在以下幾類突出問題:一是未能充分利用前一幀的劃分結構信息,不具備對當前cu是否可以直接復用前一幀結果的判斷能力,導致大量冗余推理;二是缺乏依據相似度自動選擇輕量級、中量級或重量級模型的能力,使得計算量無法根據cu的實際難度進行合理分配;三是缺乏對跨幀信息的可學習融合方式,難以在不同運動場景中保持穩定預測;四是缺乏對360°視頻跨緯度差異的專門處理,使得模型在不同緯度區表現不均衡。上述問題均制約了現有技術在復雜場景中的推廣與應用。
6、綜上所述,亟需一種結合跨幀相似度判斷、多級自適應融合網絡和跨緯度建模機制的編碼單元劃分預測方法,以在保證預測準確性的同時,顯著降低整體編碼復雜度并提升跨場景穩定性。
技術實現思路
1、針對現有技術存在的不足,本發明提出了一種基于時間相關性的360度視頻快速編碼單元劃分方法,該方法包括:獲取跨幀關聯數據并對其進行預處理,將預處理好的跨幀關聯數據輸入到訓練好的編碼單元劃分模型中進行處理,得到編碼單元劃分結果;
2、編碼單元劃分模型的訓練過程包括:
3、s1:獲取跨幀關聯數據并對其進行預處理,得到預處理好的跨幀關聯數據;跨幀關聯數據包括當前幀cu、前一幀cu、當前幀與前一幀的亮度差分圖、前一幀劃分結果以及劃分結果標簽;
4、s2:采用相似度網絡對亮度差分圖進行處理,得到當前幀與前一幀的相似度;
5、s3:當前幀根據相似度選擇直接根據前一幀劃分結果得到編碼單元劃分結果或選擇采用多級自適應分化預測網絡對跨幀關聯數據進行處理,得到編碼單元劃分預測概率;根據編碼單元劃分預測概率進行劃分模式確定;
6、s4:根據編碼單元劃分預測概率和劃分結果標簽計算模型總損失并根據總損失調整模型參數,得到訓練好的編碼單元劃分模型。
7、優選的,對跨幀關聯數據進行預處理的過程包括:將跨幀關聯數據劃分為四個緯度類別;將同一cu尺寸的橫豎塊通過旋轉對齊至統一格式,對每種緯度類別的跨幀關聯數據根據cu尺寸劃分到不同的數據集,得到預處理好的跨幀關聯數據。
8、優選的,相似度網絡包括特征提取模塊和預測模塊;特征提取模塊包括并行的第一卷積分支和第二卷積分支;兩卷積分支輸出拼接后與特征提取模塊的輸入特征殘差連接;預測模塊包括多層卷積層、批歸一化層和全連接層。
9、進一步的,第一卷積分支使用標準卷積核,第二卷積分支使用非對稱矩形卷積核;非對稱矩形卷積核根據輸入特征所屬緯度類別選取。
10、優選的,當前幀根據相似度選擇直接根據前一幀劃分結果得到編碼單元劃分結果或選擇采用多級自適應分化預測網絡對跨幀關聯數據進行處理的過程包括:
11、多級自適應分化預測網絡包括輕量級子網絡、中量級子網絡和重量級子網絡;
12、當相似度大于等于0.95時,當前幀直接根據前一幀劃分得到編碼單元劃分結果;
13、當相似度大于等于0.8且小于0.95時,選擇輕量級子網絡對跨幀關聯數據進行處理,得到編碼單元劃分預測概率;
14、當相似度大于等于0.3且小于0.8時,選擇經中量級子網絡對跨幀關聯數據進行處理,得到編碼單元劃分預測概率;
15、當相似度小于0.3時,選擇經重量級子網絡對跨幀關聯數據進行處理,得到編碼單元劃分預測概率。
16、進一步的,輕量級子網絡、中量級子網絡和重量級子網絡均包括特征提取模塊、權重模塊、融合模塊和預測模塊;三個子網絡的區別在于特征提取模塊的輸出通道數不同,輕量級網絡采用16個通道,中量級網絡使用32個通道,重量級網絡使用64個通道。
17、進一步的,輕量級子網絡對跨幀關聯數據進行處理的過程包括:
18、采用特征提取模塊對當前幀cu進行處理,得到當前幀復合特征;
19、采用特征提取模塊對前一幀cu和前一幀劃分結果進行處理,得到前一幀復合特征;
20、根據亮度差分圖,采用權重模塊生成融合權重;
21、根據融合權重,采用融合模塊對當前幀復合特征和前一幀復合特征進行加權融合處理,得到高維融合特征;
22、將高維融合特征輸入到預測模塊中進行處理,得到編碼單元劃分預測概率。
23、優選的,模型總損失表示為:
24、
25、
26、
27、其中,表示模型總損失,表示第一部分損失,表示第二部分損失,表示損失權重,表示緯度自適應調節因子,表示樣本數量,表示cu的劃分類別數,表示第i個樣本屬于j類的真實概率,為第i個樣本預測為第j類的概率,表示cu在j類劃分的數量占比,表示第i個樣本在相似度網絡輸出的相似度,表示當前第i個樣本預測為第j類的概率,表示第i個樣本的前一幀cu預測的第j類概率。
28、優選的,根據編碼單元劃分預測概率進行劃分模式確定的過程包括:
29、將編碼單元劃分預測概率按概率值大小降序排序,將最大概率值與預設第一級預設閾值進行比較,若,則判斷該概率值對應的劃分模式為編碼單元劃分結果;
30、若,則依次計算排名前n個模式的概率累加和,每次累加后將概率累加和與對應的第n級預設閾值進行比較,若,停止累加,并將這n個模式確定為最終候選集合;
31、計算n個候選模式的率失真代價,取最小率失真代價對應的模式作為編碼單元劃分結果。
32、本發明的有益效果為:
33、大幅降低計算復雜度:通過前端相似度網絡實現高相似區域的直接復用,并結合多級子網絡按需分配計算資源,顯著削減了編碼端的計算開銷;
34、提升預測精度與穩定性:引入自適應融合機制和幀間一致性損失,有效利用時域信息,減少了由于劃分不一致導致的視覺閃爍,增強了視頻質量;
35、適應360度視頻畸變:采用緯度感知的矩形卷積核及緯度加權損失函數,精準補償了erp投影帶來的拉伸形變,確保了全景視頻各區域的預測準確性;
36、靈活的決策機制:雙級閾值決策在加速編碼的同時,保留了高潛力候選模式,實現了編碼效率與率失真性能的極佳平衡。