一種結合語義與超分辨的低碼率屏幕圖像編碼方法

文檔序號：45272411發布日期：2026-04-17 20:13閱讀：4來源：國知局

本發明屬于圖像處理與壓縮，涉及一種結合語義與超分辨的低碼率屏幕圖像編碼方法。

背景技術：

1、屏幕內容圖像screen?content?image?sci是指由計算機直接生成并通過截屏或視頻流獲取的圖像，其內容通常包含文本、圖形、用戶界面元素及嵌入的自然圖像。與源自真實世界的自然圖像相比，sci在統計特性上存在本質差異。文本和圖標區域具有極高的空間頻率和銳利邊緣，背景部分則可能呈現大面積平坦色塊或復雜紋理，形成高對比度的前后景關系。這種特性使得傳統圖像編碼方法在處理sci時面臨嚴峻挑戰。

2、現有主流圖像視頻編碼標準如vvc屏幕內容編碼(versatile?video?codingscreen?content?coding,vvc-scc)基于自然圖像信號統計特性設計，采用塊劃分、變換、量化和熵編碼的混合框架。然而，該框架在處理sci時暴露出固有缺陷。在低碼率約束下，為降低碼率，編碼器不得不采用粗粒度量化，導致文本邊緣高頻信息大量丟失，引發嚴重模糊效應和振鈴效應，損害文本可讀性。同時，塊量化破壞文本區域純凈色彩特性，導致顏色失真和塊效應。此外，以像素為單位編碼文本形狀效率低下，無法充分利用文本的語義信息。

3、為改進sci編碼性能，現有技術提出分層編碼和塊分類方法。分層編碼將sci分解為前景、背景和掩碼層，但性能極度依賴分割準確性，不精確分割會導致邊緣偽影。塊分類方法在編碼框架內自適應啟用專用工具，但分類準確性有限，且仍受像素級編碼范式限制，難以突破極低碼率性能瓶頸。

4、隨著人工智能發展，語義感知編碼方法如文本語義感知屏幕內容編碼(textsemantic-aware?screen?content?coding?tsa-scc)通過光學字符識別(opticalcharacter?recognition,ocr)技術分離文本與背景，展現潛力但存在明顯不足。背景修復算法缺乏全局一致性，在復雜背景下易產生紋理不連續；解碼端缺乏有效質量增強機制，無法恢復下采樣和壓縮造成的質量損失。超分辨率技術雖能提升圖像視覺質量，但現有模型針對自然圖像設計，對sci特有的銳利邊緣和幾何圖案重建能力不足，難以同時消除雙重失真。

5、因此，本領域亟需一種創新編碼框架，深度融合語義理解、高質量修復和屏幕內容適配重建技術，從根本上解決低碼率下sci的文本保真度與整體視覺質量矛盾，實現壓縮效率與重建質量的跨越式提升。

技術實現思路

1、有鑒于此，本發明的目的在于提供一種結合語義與超分辨的低碼率屏幕圖像編碼方法。

2、為達到上述目的，本發明提供如下技術方案：

3、一種結合語義與超分辨的低碼率屏幕圖像編碼方法，包括以下步驟：

4、s1：文本語義提取與分割步驟：從輸入的屏幕內容圖像中提取文本的語義信息，所述語義信息包括文字內容、位置坐標、字體類型、字號大小及顏色值，并利用光學字符識別技術ocr實現自動識別與提取；進一步引入segment?anything?model(sam)實現文本區域的像素級精細分割；

5、s2：文本去除與背景修復步驟：基于所述二值掩碼從原圖中去除文本內容，生成具有不規則缺失區域的中間圖像；采用lama模型對所述缺失區域進行結構感知修復，生成高質量的無文本背景圖像；其中，lama模型集成快速傅里葉卷積殘差塊作為核心結構，并聯合高感受野感知損失與對抗性損失進行端到端訓練，其整體損失函數定義為：

6、

7、其中，為高感受野感知損失，用于約束圖像全局結構的一致性；為對抗損失，用于提升修復區域的視覺自然度；為梯度懲罰項，用于增強判別器的訓練穩定性；為權重系數；

8、s3：背景圖像壓縮與傳輸步驟：對修復所得的無文本背景圖像進行下采樣處理，采用雙線性插值算法將圖像分辨率降至原圖的1/2或1/4；隨后使用vvc屏幕內容編碼(vvcscreen?content?coding,?vvc-scc)標準對下采樣后的圖像進行高效壓縮；同時，將所提取的文本語義信息以結構化格式組織為utf-8編碼的文本文件，并采用zip算法進行無損壓縮；最終，將壓縮后的圖像碼流與文本碼流按照預設協議復合成單一碼流，以用于傳輸或存儲；s4：圖像重建與文本回填步驟：在解碼端，對接收到的復合碼流進行解析，分別解碼獲得文本語義信息與低分辨率背景圖像；對所述低分辨率背景圖像進行超分辨率重建；重建網絡包括特征提取網絡與像素級特征放大重建模塊；所述特征提取網絡由卷積層與殘差密集塊組成，用于從低分辨率輸入中提取多尺度局部特征；所述像素級特征放大重建模塊通過隱式特征映射機制將特征上采樣至目標分辨率；重建過程中采用的損失函數定義為：

9、

10、其中，表示經3×3卷積處理后的解碼低分辨率圖像，表示原始低分辨率圖像，表示重建后的高分辨率圖像，表示原始高分辨率圖像；為權重系數；最后，根據解碼得到的文本語義信息，在重建圖像的指定位置，使用對應的字體、大小與顏色參數重新渲染文本內容，完成屏幕內容圖像的高保真重建。

11、進一步，s1中，所述像素級分割過程采用基于掩碼自編碼器(maskedautoencoder,?mae)預訓練的vision?transformer(vit)作為圖像編碼器；具體實現中，輸入圖像經縮放與填充處理至1024×1024分辨率后，通過核尺寸為16、步長為16的卷積層將其劃分為圖像塊，形成64×64×768維的嵌入序列；該序列輸入至多層transformer編碼塊中進行深層語義特征提取，每一transformer塊均包含多頭自注意力模塊與前饋神經網絡模塊，并嵌入殘差連接與層歸一化操作以保障訓練穩定性；圖像編碼器的輸出進一步通過1×1卷積層進行通道降維，最終生成256維的圖像語義嵌入。

12、進一步，s2中，所述lama模型所采用的快速傅里葉卷積塊將輸入張量沿通道維度均勻分割為兩個并行支路，其中：局部支路采用傳統卷積運算，專注于提取圖像在空間域中的局部細節與結構特征；全局支路應用實部傅里葉變換將特征映射轉換至頻域，其正向變換過程表示為：

13、

14、在頻域中通過1×1卷積層實現對全局特征的建模，再經逆傅里葉變換恢復空間結構：

15、

16、最終，將局部支路與全局支路的輸出特征在通道維度上進行拼接與融合。

17、進一步，s3中，所述下采樣操作采用雙線性插值算法，將無文本背景圖像的分辨率系統性地降低至原圖的1/2或1/4；所述文本語義信息以鍵值對形式組織為utf-8編碼的純文本文檔，其中包含文字內容、位置坐標、字體名稱、字體大小及rgb顏色值；該文檔經由zip算法進行無損壓縮，生成文本碼流；圖像碼流與文本碼流通過包頭標識與長度字段按預定協議進行復用，形成自描述的復合碼流。

18、進一步，s4中，所述超分辨率重建網絡的特征提取部分由兩個級聯的殘差密集塊構成；每一殘差密集塊包括：多個密集連接的卷積層，實現層間特征的充分復用與梯度流通；塊內引入局部跳躍連接，將輸入直接與末層卷積輸出相加，以緩解網絡深度帶來的梯度衰減問題；每一卷積層后均接入激活函數，以引入非線性變換能力。

19、進一步，所述損失函數為加權復合形式，其表達式為：

20、

21、其中，，為壓縮偽影消除損失，通過比較經卷積凈化后的解碼圖像與原始低分辨率圖像，約束編碼失真；

22、為重建保真度損失，用于衡量重建圖像與原始高分辨率圖像之間的像素級一致性；權重系數與均取值為0.5。

23、進一步，s4中，所述文本回填過程為基于語義參數的精確圖形渲染過程；解碼端依據恢復的文本屬性，包括字符串內容、絕對位置坐標、字體族名稱、字號大小及顏色值，在系統字體庫或預裝自定義字體資源中匹配并加載對應字體；隨后，借助圖形渲染引擎在超分辨率重建后的背景圖像的指定空間位置，采用抗鋸齒渲染技術繪制文本。

24、進一步，s1中，所述sam模型通過圖像編碼器將輸入圖像編碼為256維的特征嵌入向量；利用craft文本檢測器生成的邊界框作為空間提示信息輸入至提示編碼器；采用輕量級掩碼解碼器，通過交叉注意力機制深度融合圖像特征與提示信息，輸出高精度的文本區域二值掩碼。

25、進一步，s2中，所述結構感知修復過程采用高感受野感知損失 lhrfpl約束修復區域與原始背景在深層特征上的一致性，采用對抗損失 ladv提升視覺自然度，并聯合梯度懲罰項 r1確保訓練穩定性。

26、進一步，s4中，所述隱式特征映射機制通過像素卷積實現特征上采樣，以恢復屏幕內容特有的銳利邊緣和規則圖形。

27、本發明的有益效果在于：

28、（1）傳統像素級編碼方法因變換與量化操作不可避免地導致文本邊緣模糊和振鈴效應。本發明通過語義級別的文本提取與分離編碼機制，將文本信息以結構化文檔形式進行傳輸，從根本上規避了傳統編碼流程對文本高頻信息的破壞。該方法能夠確保在任何碼率條件下，文本內容均保持絕對的清晰度與可讀性，特別適用于遠程桌面、在線文檔協作等對文字保真度要求極高的應用場景。

29、（2）針對文本去除后產生的復雜不規則缺失區域，本發明引入先進的生成式修復模型，其核心組件具備全局感受野與局部細節捕捉能力。該模型能夠深度理解圖像的整體結構與紋理特征，在進行修復時確保生成區域與周圍背景在視覺上自然連貫，有效避免了傳統方法常見的模糊偽影與結構錯位問題，為后續壓縮環節提供了高質量的無文本背景圖像。

30、（3）本發明采用分而治之的策略，對背景圖像與文本信息分別進行差異化處理。背景部分通過下采樣大幅降低數據量，并結合高效的專用編碼標準進行壓縮；文本部分則利用其語義信息可被高度壓縮的特性進行無損編碼。這種協同處理機制使得整體碼率得到極大優化，在不犧牲視覺質量的前提下，為低帶寬網絡環境下的實時傳輸提供了可行的技術解決方案。

31、（4）解碼端設計的專用超分辨率重建網絡，針對屏幕內容特有的銳利邊緣與規則圖形進行了深度優化。該網絡通過多層次特征提取與融合機制，能夠有效恢復因下采樣和壓縮損失的高頻細節，同時抑制壓縮偽影。結合基于語義參數的精確文本回填技術，最終實現了屏幕內容圖像從整體結構到局部細節的高保真重建。

32、（5）本發明構建了一個完整且自描述的閉環編碼框架。復合碼流結構清晰規范，具有良好的兼容性與可擴展性，能夠無縫集成至現有的流媒體傳輸系統中。該框架不僅解決了低碼率下的核心技術難題，更在工程可實現性方面表現出色，為云計算、遠程協作等實際應用提供了穩定可靠的技術支撐。

33、本發明的其他優點、目標和特征在某種程度上將在隨后的說明書中進行闡述，并且在某種程度上，基于對下文的考察研究對本領域技術人員而言將是顯而易見的，或者可以從本發明的實踐中得到教導。本發明的目標和其他優點可以通過下面的說明書來實現和獲得。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：祝志遠,李敏,闕怡佳,楊錦鵬,李昊然,吳佳瑞,陳思宇,蒙榮滿,吳大鵬,王汝言
技術所有人：重慶郵電大學
我是此專利的發明人

該領域下的技術專家

1、王老師：1.數字信號處理 2.傳感器技術及應用 3.機電一體化產品開發 4.機械工程測試技術 5.逆向工程技術研究

2、王老師：1.機器人 2.嵌入式控制系統開發

3、孫老師：1.振動信號時頻分析理論與測試系統設計 2.汽車檢測系統設計 3.汽車電子控制系統設計

4、畢老師：機構動力學與控制

5、袁老師：1.計算機視覺 2.無線網絡及物聯網

網友詢問留言留言:0條

還沒有人留言評論。精彩留言會獲得點贊！

文明留言，給您點贊！

同類技術