本申請涉及圖像,為一種全息圖像處理方法,具體涉及一種全息投影圖像生成方法及系統。
背景技術:
1、全息影像技術的應用為舞臺呈現帶來了翻天覆地的變化,影響著觀眾的感官體驗和審美享受。在全息影像技術的支持下,舞臺演區發生了許多重大變化。首先是虛擬場景得以實現,通過全息影像技術,舞臺上可以呈現出生動逼真的虛擬場景。傳統舞臺布景受限于空間和材料,而全息投影可以將各種場景直接投射到舞臺上,包括歷史場景、未來世界或者奇幻環境等。這種虛擬場景的實現為舞臺演區增添了無限可能性,使得觀眾仿佛置身于一個全新的世界之中。
2、在現有技術中的,對于全息影像首先需要構建能夠被投影的圖像,然后基于三維投影模型以及光學裝置在空間內實現低于圖像的全息投影。其中,對于圖像的數字化生成通常是基于設計者或者藝術家通過數字技術進行繪制生成。但隨著人工智能的發展,也具有越來越多的利用人工智能方式生成圖像的方法。
技術實現思路
1、針對上述技術問題,本發明申請提供一種全息投影圖像生成方法及系統,基于自然語言-圖像生成作為基礎架構生成對應的圖像信息,并在生成過程中考慮到文本信息中的運動含義在生成的圖像信息中配置運動邏輯,從而使生成的圖像能夠表達運動關系使生成的圖像運動失真度較低,并且在圖像生成中將自然語言中的風格化信息與圖像進行結合,使最終的投影影像具有對應的風格。為了達到上述目的,本發明申請采用的技術方案如下:
2、第一方面,提供一種全息投影圖像生成方法,所述方法包括:提取輸入的文本信息中多個實體,并基于識別標簽確定對應的運動實體以及修飾實體,并對所述修飾實體進行分類,得到風格修飾實體和運動修飾實體;基于所述運動實體和所述運動修飾實體生成與視頻分辨率匹配的像素分布圖序列和原始編碼圖像序列,并對每一個所述像素分布圖中融合所述運動實體和所述運動修飾實體并進行擴散加噪處理得到目標噪聲分布圖,并將所述目標噪聲分布圖與原始編碼圖像進行融合得到融合編碼圖像;所述像素分布圖序列基于原始圖像序列中的像素分布情況進行構建;將所述融合編碼圖像進行編碼解碼處理得到目標圖像,并將所述目標圖像基于投影重構模型構建得到所述全息投影圖像。
3、在一些具體實現方式中,對每一個所述像素分布圖融合所述運動實體和所述運動修飾實體進行擴散加噪處理得到目標噪聲分布圖,包括:基于所述運動實體和所述風格修飾實體獲取所述原始圖像序列中每一個所述原始圖像所對應的運動權重,并基于所述運動權重對所述像素分布圖進行更新擴散加噪處理得到所述目標噪聲分布圖。
4、在一些具體實現方式中,所述原始圖像所對應的運動權重的確定,包括:基于所述運動實體和所述運動修飾實體確定原始圖像中的目標區域,并獲取所述目標區域內的相鄰的所述原始圖像之間的像素變化程度,基于所述像素變化程度確定所述熱力區域,并基于熱力區域對所述原始圖像進行標注得到所述動態熱力圖,并基于所述動態熱力圖確定所述運動權重。
5、在一些具體實現方式中,基于所述動態熱力圖確定所述運動權重,包括:將像素變化程度最高的像素區域作為熱力中心,將像素變化程度處于第二區間的像素區域作為次熱力中心,將像素變化程度處于第三區間的像素區域作為邊緣熱力中心;將所述熱力中心、所述次熱力中心和所述邊緣熱力中心所圍成的區域作為所述熱力區域;并獲取每個熱力中心的顏色梯度并通過線性映射得到對應的方差系數,所述方差系數為該熱力中心所對應的運動權重。
6、在一些具體實現方式中,基于所述運動權重對所述像素分布圖進行更新擴散加噪處理得到所述目標噪聲分布圖,包括:基于所述運動權重對初始潛在編碼進行噪聲分布更新,并基于運動注意力權重對更新后的初始潛在編碼進行二次更新,后通過二次擴散加噪處理得到中間噪聲分布圖,然后將所述中間噪聲分布圖進行三次擴散處理得到目標噪聲分布圖。
7、在一些具體實現方式中,基于所述運動權重對初始潛在編碼進行噪聲分布更新,并基于運動注意力權重對更新后的初始潛在編碼進行二次更新,包括:對所述初始潛在編碼進行逆向推導獲得噪聲重構特征,基于不同熱力中心所對應的運動權重對所述噪聲重構特征進行更新,得到噪聲重構更新特征,將所述噪聲重構更新特征進行標準化處理后與標準高斯噪聲基于運動注意力進行空間融合,形成混合噪聲場即為中間噪聲分布圖。
8、在一些具體實現方式中,將所述目標噪聲分布圖與原始編碼圖像進行融合得到融合編碼圖像,包括:將中間噪聲分布圖與標準高斯噪聲再次進行空間融合,得到最終的目標噪聲分布圖,將所述目標噪聲分布圖與原始編碼圖像進行融合,得到融合編碼圖像。
9、在一些具體實現方式中,將所述融合編碼圖像進行編碼解碼處理得到目標圖像,包括:基于編碼器提取所述融合編碼圖像中的初始圖像特征,并基于跳躍連接將所述圖像特征基于風格注意力和運動注意力對圖像特征進行更新并與解碼器中對應特征基于通過上采樣得到目標圖像;所述運動注意力包括首幀注意力和相鄰幀注意力。
10、在一些具體實現方式中,編碼器包括第一編碼層、第二編碼層、第三編碼層和第四編碼層,編碼器多層級之間通過下采樣方式進行連接;與之對應的解碼器同樣包括第一解碼層、第二解碼層、第三解碼層和第四解碼層,其中解碼器多層級之間通過上采樣方式進行連接;所述風格注意力設置在所述第三編碼層與對應的解碼層之間的跳躍連接中。
11、第二方面,提供一種全息投影圖像生成系統,所述系統包括:實體提取模塊,用于提取輸入的文本信息中多個實體,并基于識別標簽確定對應的運動實體以及修飾實體,并對所述修飾實體進行分類,得到風格修飾實體和運動修飾實體;圖像處理模塊,用于基于所述運動實體和所述運動修飾實體生成與視頻分辨率匹配的像素分布圖序列和原始編碼圖像序列,并對每一個所述像素分布圖融合所述運動實體和所述運動修飾實體進行擴散加噪處理得到目標噪聲分布圖,并將所述目標噪聲分布圖與原始編碼圖像進行融合得到融合編碼圖像;生成模塊,用于將所述融合編碼圖像進行編碼解碼處理得到目標圖像,并將所述目標圖像基于投影重構模型構建得到所述全息投影圖像。
12、本申請實施例提供的技術方案中,能夠對獲取到的文本信息中的運動實體以及風格實體進行識別,并在擴散過程中通過構建動態熱力圖實現對于運動關系在圖像中的特征表達,并基于此特征表達對像素分布進行更新從而使擴散過程能夠基于運動關系進行重構,得到表達運動狀態的像素分布結果。并基于此像素分布結果進行編解碼,并在編解碼過程中引入跨幀注意力以及風格注意力對編碼過程進行更新,從而得到融合了運動關系以及風格表達的圖像特征,并對此圖像特征進行解碼得到最終的目標圖像。本申請實施例提供的方法,能夠基于自然語言處理技術和圖像處理技術實現對于投影結果的重構,相較于現有技術能夠從運動關系表達以及風格表達兩個方面對結果進行投影圖像的生成,相較于現有技術更加具有細膩的運動表達和風格化的表達。
1.一種全息投影圖像生成方法,其特征在于,所述方法包括:
2.根據權利要求1所述的全息投影圖像生成方法,其特征在于,對每一個所述像素分布圖融合所述運動實體和所述運動修飾實體進行擴散加噪處理得到目標噪聲分布圖,包括:基于所述運動實體和所述風格修飾實體獲取所述原始圖像序列中每一個所述原始圖像所對應的運動權重,并基于所述運動權重對所述像素分布圖進行更新擴散加噪處理得到所述目標噪聲分布圖。
3.根據權利要求2所述的全息投影圖像生成方法,其特征在于,所述原始圖像所對應的運動權重的確定,包括:基于所述運動實體和所述運動修飾實體確定原始圖像中的目標區域,并獲取所述目標區域內的相鄰的所述原始圖像之間的像素變化程度,基于所述像素變化程度確定所述熱力區域,并基于熱力區域對所述原始圖像進行標注得到所述動態熱力圖,并基于所述動態熱力圖確定所述運動權重。
4.根據權利要求3所述的全息投影圖像生成方法,其特征在于,基于所述動態熱力圖確定所述運動權重,包括:將像素變化程度最高的像素區域作為熱力中心,將像素變化程度處于第二區間的像素區域作為次熱力中心,將像素變化程度處于第三區間的像素區域作為邊緣熱力中心;將所述熱力中心、所述次熱力中心和所述邊緣熱力中心所圍成的區域作為所述熱力區域;并獲取每個熱力中心的顏色梯度并通過線性映射得到對應的方差系數,所述方差系數為該熱力中心所對應的運動權重。
5.根據權利要求4所述的全息投影圖像生成方法,其特征在于,基于所述運動權重對所述像素分布圖進行更新擴散加噪處理得到所述目標噪聲分布圖,包括:基于所述運動權重對初始潛在編碼進行噪聲分布更新,并基于運動注意力權重對更新后的初始潛在編碼進行二次更新,后通過二次擴散加噪處理得到中間噪聲分布圖,然后將所述中間噪聲分布圖進行三次擴散處理得到目標噪聲分布圖。
6.根據權利要求5所述的全息投影圖像生成方法,其特征在于,基于所述運動權重對初始潛在編碼進行噪聲分布更新,并基于運動注意力權重對更新后的初始潛在編碼進行二次更新,包括:對所述初始潛在編碼進行逆向推導獲得噪聲重構特征,基于不同熱力中心所對應的運動權重對所述噪聲重構特征進行更新,得到噪聲重構更新特征,將所述噪聲重構更新特征進行標準化處理后與標準高斯噪聲基于運動注意力進行空間融合,形成混合噪聲場即為中間噪聲分布圖。
7.根據權利要求6所述的全息投影圖像生成方法,其特征在于,將所述目標噪聲分布圖與原始編碼圖像進行融合得到融合編碼圖像,包括:將中間噪聲分布圖與標準高斯噪聲進行空間融合,得到目標噪聲分布圖,將所述目標噪聲分布圖與原始編碼圖像進行融合,得到融合編碼圖像。
8.根據權利要求7所述的全息投影圖像生成方法,其特征在于,將所述融合編碼圖像進行編碼解碼處理得到目標圖像,包括:基于編碼器提取所述融合編碼圖像中的圖像特征,并基于跳躍連接將所述圖像特征基于風格注意力和運動注意力對圖像特征進行更新并與解碼器中對應特征通過上采樣得到目標圖像;所述運動注意力包括首幀注意力和相鄰幀注意力。
9.根據權利要求8所述的全息投影圖像生成方法,其特征在于,所述編碼器包括第一編碼層、第二編碼層、第三編碼層和第四編碼層,編碼器多層級之間通過下采樣方式進行連接;與之對應的解碼器同樣包括第一解碼層、第二解碼層、第三解碼層和第四解碼層,其中解碼器多層級之間通過上采樣方式進行連接;所述風格注意力設置在所述第三編碼層與對應的解碼層之間的跳躍連接中。
10.一種全息投影圖像生成系統,其特征在于,所述系統包括: