本發(fā)明涉及數(shù)據(jù)處理與信息安全,具體為一種基于多模態(tài)內(nèi)容融合的文檔相似性檢測方法。
背景技術(shù):
1、在互聯(lián)網(wǎng)內(nèi)容安全治理的應(yīng)用場景中,合規(guī)平臺依靠精準(zhǔn)的內(nèi)容識別機(jī)制來保障生態(tài)健康與版權(quán)保護(hù),監(jiān)管系統(tǒng)通常需要結(jié)合文本、圖像及視頻等多模態(tài)數(shù)據(jù)流來實時感知并攔截違規(guī)或侵權(quán)文檔;
2、針對文檔相似性的檢測,現(xiàn)有方案普遍采用全量深度語義分析架構(gòu),即通過預(yù)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)模型對所有上傳數(shù)據(jù)的各個模態(tài)進(jìn)行特征編碼,直接利用高維語義向量的距離計算結(jié)果作為判定依據(jù)來識別變種內(nèi)容;雖然此方案在低流量或非對抗環(huán)境下具備較高的識別精度,但由于其過度依賴高算力消耗的深度推理計算且缺乏對系統(tǒng)資源負(fù)載的動態(tài)感知能力,在遭遇高并發(fā)突發(fā)流量或生成式對抗清洗攻擊時,剛性的全量計算邏輯極易導(dǎo)致服務(wù)器計算資源耗盡與響應(yīng)延遲激增;此外,現(xiàn)有技術(shù)難以量化文檔表面特征與深層語義之間的邏輯沖突,導(dǎo)致在面對經(jīng)過精心偽裝的洗稿攻擊時,無法在計算成本與檢測防御之間建立有效的博弈平衡,難以支撐平臺在極端負(fù)載壓力下進(jìn)行高吞吐、高可用的風(fēng)險阻斷;因此,如何建立具備計算成本感知能力的動態(tài)博弈機(jī)制,在有效識別對抗性攻擊風(fēng)險的同時,根據(jù)系統(tǒng)負(fù)載自適應(yīng)調(diào)整多模態(tài)特征的融合權(quán)重與計算策略,從而在資源受限場景下兼顧查全率與服務(wù)可用性,成為亟需解決的技術(shù)問題。
技術(shù)實現(xiàn)思路
1、為解決上述技術(shù)問題,本發(fā)明提供一種基于多模態(tài)內(nèi)容融合的文檔相似性檢測方法,具體而言,本發(fā)明的技術(shù)方案包括:
2、獲取待檢測的目標(biāo)文檔,將目標(biāo)文檔解析為文本、圖像和視頻多個模態(tài)數(shù)據(jù),分別提取每個模態(tài)數(shù)據(jù)的確定性哈希指紋,并映射至高維語義空間,構(gòu)建每個模態(tài)數(shù)據(jù)的語義特征向量;
3、訪問預(yù)設(shè)的合規(guī)特征數(shù)據(jù)庫,計算確定性哈希指紋與數(shù)據(jù)庫中樣本的哈希相似度;
4、當(dāng)哈希相似度低于預(yù)設(shè)的過濾閾值時,啟動深度分析,計算語義特征向量與數(shù)據(jù)庫中樣本的語義相似度,并計算哈希相似度與語義相似度之間的數(shù)值差異,將該數(shù)值差異映射為表征模態(tài)間判定沖突程度的模態(tài)決策置信熵;采集當(dāng)前的系統(tǒng)計算資源負(fù)載數(shù)據(jù),包括處理請求頻率和單任務(wù)處理延遲;
5、結(jié)合模態(tài)決策的置信熵,利用包含資源負(fù)載與計算成本映射關(guān)系的動態(tài)博弈策略模型,解算獲得針對當(dāng)前目標(biāo)文檔的計算成本感知因子;
6、基于計算成本感知因子,對每個模態(tài)數(shù)據(jù)的語義相似度和哈希相似度分配非對稱融合權(quán)重,執(zhí)行加權(quán)融合計算,生成目標(biāo)文檔的最終相似性檢測結(jié)果;
7、當(dāng)系統(tǒng)計算資源負(fù)載數(shù)據(jù)超過預(yù)設(shè)的熔斷閾值且置信熵指示高風(fēng)險時,通過調(diào)整非對稱融合權(quán)重觸發(fā)降級生存機(jī)制,輸出最終相似性檢測結(jié)果及對應(yīng)的處置指令。
8、優(yōu)選的,步驟一中,接收用戶上傳的非結(jié)構(gòu)化數(shù)據(jù)流,利用多模態(tài)解析器進(jìn)行分軌處理,分離出文本流、圖像幀序列和視頻關(guān)鍵幀序列;對分離出的文本流采用安全哈希算法生成文本指紋,對圖像幀序列采用感知哈希算法生成圖像指紋,對視頻關(guān)鍵幀序列生成序列指紋,統(tǒng)稱為確定性哈希指紋;利用預(yù)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)模型,分別對文本流、圖像幀序列和視頻關(guān)鍵幀序列進(jìn)行特征編碼,生成文本語義向量、圖像語義向量和視頻語義向量。
9、優(yōu)選的,步驟二中,將確定性哈希指紋與合規(guī)特征數(shù)據(jù)庫中的黑名單指紋進(jìn)行漢明距離比對,并將漢明距離轉(zhuǎn)換為歸一化區(qū)間的哈希相似度;若哈希相似度表明未直接匹配,則計算文本語義向量、圖像語義向量和視頻語義向量與合規(guī)特征數(shù)據(jù)庫中對應(yīng)向量的余弦相似度,獲取語義相似度;計算語義相似度與哈希相似度的差值絕對值,并進(jìn)行歸一化處理得到歸一化差值;將歸一化差值作為不確定性度量,生成模態(tài)決策的置信熵;其中,配置為當(dāng)語義相似度數(shù)值大于哈希相似度數(shù)值且差值超過預(yù)設(shè)范圍時,置信熵呈現(xiàn)高值,表征存在對抗性清洗攻擊風(fēng)險。
10、優(yōu)選的,步驟三中,實時監(jiān)測系統(tǒng)的每秒查詢率和平均響應(yīng)時間,計算資源占用率;將資源占用率與模態(tài)決策的置信熵輸入至動態(tài)博弈策略模型;若資源占用率處于低負(fù)載區(qū)間,將計算成本感知因子設(shè)定為以查全率為導(dǎo)向的基礎(chǔ)值,使得高計算成本的模態(tài)權(quán)重保持正常;若資源占用率處于高負(fù)載區(qū)間,根據(jù)置信熵的數(shù)值動態(tài)調(diào)整計算成本感知因子;置信熵越高,計算成本感知因子對高算力消耗模態(tài)的懲罰力度越大。
11、優(yōu)選的,步驟四中,定義每個模態(tài)的計算代價系數(shù),其中視頻模態(tài)的計算代價系數(shù)高于文本模態(tài)的計算代價系數(shù);結(jié)合計算成本感知因子與計算代價系數(shù),修正多模態(tài)融合公式中的權(quán)重參數(shù),生成非對稱融合權(quán)重;在正常模式下,非對稱融合權(quán)重側(cè)重于語義豐富度高的模態(tài);在降級生存模式下,強(qiáng)制提升計算代價系數(shù)低的模態(tài)的哈希相似度權(quán)重,并壓低計算代價系數(shù)高的模態(tài)的語義相似度權(quán)重。
12、優(yōu)選的,步驟四還包括:監(jiān)測系統(tǒng)計算資源負(fù)載數(shù)據(jù);當(dāng)資源占用率超過預(yù)設(shè)的熔斷閾值,且模態(tài)決策的置信熵超過預(yù)設(shè)的攻擊判定閾值時,判定系統(tǒng)進(jìn)入失效邊界狀態(tài);響應(yīng)于失效邊界狀態(tài),激活動態(tài)熔斷機(jī)制,直接將視頻模態(tài)的語義計算權(quán)重置為零,僅依據(jù)文本模態(tài)和圖像模態(tài)的哈希相似度生成最終相似性檢測結(jié)果。
13、優(yōu)選的,動態(tài)博弈策略模型中設(shè)定有第一閾值和第二閾值,且第一閾值小于第二閾值,模型執(zhí)行以下邏輯:當(dāng)資源占用率小于或等于第一閾值時,輸出第一策略,維持所有模態(tài)的全量深度語義計算;當(dāng)資源占用率大于第一閾值且小于第二閾值時,輸出第二策略,根據(jù)計算成本感知因子線性降低視頻模態(tài)的權(quán)重;當(dāng)資源占用率大于或等于第二閾值且模態(tài)決策的置信熵大于預(yù)設(shè)的攻擊判定閾值時,輸出第三策略,執(zhí)行動態(tài)熔斷機(jī)制,以降低單次檢測精度為代價換取系統(tǒng)吞吐量的恢復(fù)。
14、優(yōu)選的,步驟四還包括:將生成的最終相似性檢測結(jié)果與預(yù)設(shè)的合規(guī)判定閾值進(jìn)行比較;若最終相似性檢測結(jié)果高于合規(guī)判定閾值,生成攔截指令,并將目標(biāo)文檔標(biāo)記為違規(guī);若最終相似性檢測結(jié)果低于合規(guī)判定閾值,生成放行指令,但在第三策略下被放行的目標(biāo)文檔被標(biāo)記為待二次校驗,并在系統(tǒng)負(fù)載降低后進(jìn)入異步復(fù)查隊列。
15、優(yōu)選的,計算成本感知因子是一個動態(tài)調(diào)節(jié)變量,其數(shù)值通過計算函數(shù)確定,計算函數(shù)配置為:使得該變量數(shù)值隨系統(tǒng)當(dāng)前的每秒查詢率的增加而增大,隨系統(tǒng)的剩余可用內(nèi)存的增加而減小;非對稱融合權(quán)重在計算時,利用計算成本感知因子作為指數(shù)運(yùn)算的冪參數(shù),對高維語義空間的距離計算結(jié)果進(jìn)行非線性縮放,從而在資源受限時加速計算過程。
16、優(yōu)選的,模態(tài)決策的置信熵用于量化系統(tǒng)對當(dāng)前檢測結(jié)果的不確定度;當(dāng)系統(tǒng)處于高負(fù)載且置信熵超過預(yù)設(shè)的不確定度閾值導(dǎo)致無法在預(yù)設(shè)延遲要求內(nèi)做出明確判定時,系統(tǒng)執(zhí)行保守策略,優(yōu)先保障服務(wù)可用性,通過提升確定性哈希指紋的決策權(quán)重來終結(jié)比對流程。
17、與現(xiàn)有技術(shù)相比,本發(fā)明具備以下有益效果:
18、1、本發(fā)明引入了基于計算成本感知的動態(tài)博弈策略模型,有效解決了高并發(fā)場景下深度語義計算的剛性算力需求與系統(tǒng)有限資源之間的矛盾;不同于傳統(tǒng)方案全量依賴昂貴的深度神經(jīng)網(wǎng)絡(luò)推理,本方案通過實時采集系統(tǒng)負(fù)載數(shù)據(jù)并結(jié)合模態(tài)決策置信熵,解算出計算成本感知因子,進(jìn)而動態(tài)調(diào)整多模態(tài)數(shù)據(jù)的融合權(quán)重;這種機(jī)制能夠在系統(tǒng)資源極度受限的極端場景下,自動在追求查全率和保證吞吐量之間找到最優(yōu)解,防止因單點算力耗盡引發(fā)的系統(tǒng)雪崩;
19、2、本發(fā)明構(gòu)建了基于哈希與語義差異的置信熵度量機(jī)制,首次實現(xiàn)了對生成式對抗清洗攻擊的量化感知與精準(zhǔn)識別;通過計算確定性哈希指紋與高維語義特征向量在相似度上的數(shù)值差異,并將該差異映射為表征邏輯悖論程度的熵值,系統(tǒng)能夠敏銳捕捉到修改了表面特征但保留核心內(nèi)容的洗稿文檔;該方法不僅解決了傳統(tǒng)技術(shù)難以量化文檔表面與深層邏輯沖突的問題,還為后續(xù)的資源調(diào)度提供了精確的風(fēng)險量化依據(jù),有效識別形異神似的變種侵權(quán)內(nèi)容;
20、3、本發(fā)明實施了多級降級生存機(jī)制與非對稱權(quán)重融合策略,顯著提升了合規(guī)平臺在遭受大規(guī)模攻擊時的服務(wù)可用性與韌性;系統(tǒng)依據(jù)模態(tài)的計算代價系數(shù),在檢測到資源占用率超過熔斷閾值且存在高風(fēng)險時,自動觸發(fā)分級響應(yīng),通過線性降低甚至強(qiáng)制截斷高耗能模態(tài)的計算權(quán)重,轉(zhuǎn)而依賴低成本的文本或哈希特征;這種以犧牲單次檢測精度換取系統(tǒng)整體吞吐量恢復(fù)的斷臂求生策略,確保了核心檢測服務(wù)在過載狀態(tài)下依然不癱瘓;
21、4、本發(fā)明建立了先放行后復(fù)查的異步閉環(huán)管理體系,在保障用戶上傳體驗的同時實現(xiàn)了合規(guī)風(fēng)險的可控兜底;針對在降級策略或高負(fù)載熔斷狀態(tài)下被放行的目標(biāo)文檔,系統(tǒng)將其標(biāo)記為待二次校驗并推入異步復(fù)查隊列,利用負(fù)載波谷期的閑置算力進(jìn)行全量深度語義重算;該機(jī)制彌補(bǔ)了降級模式下可能產(chǎn)生的漏判風(fēng)險,既避免了在攻擊高峰期阻塞正常用戶請求,又通過事后追責(zé)機(jī)制維持了平臺長期的內(nèi)容安全水位。