本技術(shù)屬于古籍?dāng)?shù)字化保護(hù),具體涉及一種古籍無損翻頁掃描修復(fù)一體化方法及系統(tǒng)。
背景技術(shù):
1、隨著中華古籍保護(hù)計劃的深入推進(jìn),古籍?dāng)?shù)字化成為實(shí)現(xiàn)中華優(yōu)秀傳統(tǒng)文化遺產(chǎn)永久保存與活化利用的核心手段,國內(nèi)館藏機(jī)構(gòu)已完成數(shù)百萬冊古籍的數(shù)字化采集工作,相關(guān)技術(shù)方案與設(shè)備也得到持續(xù)迭代。目前主流的古籍?dāng)?shù)字化方案,多聚焦于翻頁、掃描、矯正、修復(fù)單一模塊的孤立優(yōu)化,或簡單的功能疊加,尚未形成覆蓋“感知?-翻頁-掃描-修復(fù)-優(yōu)化”全鏈路的動態(tài)協(xié)同體系,在館藏珍貴古籍(尤其是宋元時期重度脆化古籍)的實(shí)際數(shù)字化作業(yè)中,仍存在多項(xiàng)核心技術(shù)缺陷。
2、1、翻頁無損性不足?,F(xiàn)有翻頁裝置多采用粘合式或機(jī)械式分離方式,如專利cn208857592u公開的一種適用于古籍脫酸增強(qiáng)加固的翻頁裝置,采用真空吸盤與粘性吸盤組合翻頁,但粘性部件與書頁直接接觸,對脆化古籍的紙張纖維存在損傷風(fēng)險;專利cn106042696a公開的一種書頁翻頁裝置同樣采用粘合方式,未針對不同紙張?zhí)匦缘奈搅υO(shè)置自適應(yīng)調(diào)節(jié)機(jī)制。
3、2、各作業(yè)模塊數(shù)據(jù)嚴(yán)重割裂。現(xiàn)有技術(shù)普遍存在“翻頁-掃描-修復(fù)”模塊相互獨(dú)立的問題,如專利cn119359605a和cn117333374b公開的圖像畸變校正方法僅聚焦于掃描圖像的矯正環(huán)節(jié),專利cn118038467a公開的古籍文字識別方法僅針對ocr修復(fù)環(huán)節(jié),各模塊之間數(shù)據(jù)不互通、控制不同步。
4、3、算法算力需求高,難以適配邊緣嵌入式平臺。部分現(xiàn)有研究嘗試采用機(jī)器學(xué)習(xí)進(jìn)行古籍?dāng)?shù)字化處理,但未針對邊緣設(shè)備做輕量化優(yōu)化,難以適配stm32、arm等嵌入式平臺。
5、4、ocr修復(fù)的魯棒性不足。如專利cn118038467a公開的方法,雖能識別缺損字符并生成候選集,但主要針對單字缺損修復(fù),缺乏對整句上下文的語義連貫性校驗(yàn)機(jī)制,也未引入權(quán)威古籍語料庫驗(yàn)證。
6、5、系統(tǒng)缺乏持續(xù)自適應(yīng)進(jìn)化能力?,F(xiàn)有古籍?dāng)?shù)字化設(shè)備部署完成后,核心作業(yè)參數(shù)基本固定,無法通過日常作業(yè)的數(shù)據(jù)積累實(shí)現(xiàn)模型與策略的持續(xù)優(yōu)化。
7、因此,亟須一種能夠動態(tài)感知古籍狀態(tài)、智能調(diào)整采集與修復(fù)策略、實(shí)現(xiàn)全鏈路協(xié)同優(yōu)化的高魯棒性古籍?dāng)?shù)字化一體化系統(tǒng)。本發(fā)明提出以多場協(xié)同翻頁與分級畸變矯正為核心的系統(tǒng)性創(chuàng)新,配合輕量化參數(shù)動態(tài)匹配模型,解決上述問題。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)提供一種古籍無損翻頁掃描修復(fù)一體化方法及系統(tǒng),以解決現(xiàn)有主流方案多聚焦單一模塊優(yōu)化或簡單功能疊加,未形成全鏈路動態(tài)協(xié)同體系的技術(shù)問題。
2、為解決上述技術(shù)問題,本技術(shù)采用的一個技術(shù)方案是:一種古籍無損翻頁掃描修復(fù)一體化方法,包括:
3、s1.采集古籍物理特性與環(huán)境參數(shù),通過輕量化?xgboost?模型輸出翻頁、掃描、矯正的基準(zhǔn)作業(yè)參數(shù);
4、s2.基于基準(zhǔn)作業(yè)參數(shù),通過吸盤集成的mems壓力傳感陣列實(shí)現(xiàn)脆弱區(qū)避讓,動態(tài)調(diào)節(jié)吸附負(fù)壓,以負(fù)壓-振動-氣流-靜電中和耦合機(jī)制完成書頁無損分離,并進(jìn)行翻頁穿透檢測;
5、s3.同步脆弱區(qū)數(shù)據(jù)自適應(yīng)完成高保真掃描,按畸變量化值分級矯正書脊畸變,并將矯正誤差反饋優(yōu)化翻頁參數(shù);
6、s4.采用crnn模型識別文字,結(jié)合權(quán)威古籍語料庫與上下文語義補(bǔ)全殘缺文字,按版式自適應(yīng)校準(zhǔn)識別結(jié)果;
7、s5.采集全流程作業(yè)數(shù)據(jù),通過增量學(xué)習(xí)更新crnn模型與翻頁參數(shù),實(shí)現(xiàn)crnn模型的閉環(huán)優(yōu)化。
8、進(jìn)一步,步驟s1中,輕量化?xgboost?模型以古籍開本、纖維強(qiáng)度、老化程度、溫度、濕度為輸入,按年代與古籍開本訓(xùn)練6個輕量化xgboost子模型,僅在上料時單次推理輸出基準(zhǔn)參數(shù)。
9、進(jìn)一步,古籍開本以?260mm×185mm?為第一閾值;其中,古籍的尺寸小于第一閾值,則為小開本;古籍的尺寸大于等于第一閾值,則為大開本。
10、進(jìn)一步,吸盤集成?4×4?mems?壓力傳感陣列,當(dāng)受力超過安全閾值時,自動微調(diào)1-3mm,實(shí)現(xiàn)脆弱區(qū)避讓。
11、進(jìn)一步,步驟s2中,
12、基于公式(1),進(jìn)行動態(tài)負(fù)壓調(diào)節(jié);其中,公式(1)為:
13、?????(1);
14、其中,為實(shí)時吸附負(fù)壓;為安全系數(shù);為被測紙張的纖維抗拉強(qiáng)度;為濕度調(diào)節(jié)系數(shù);為實(shí)時環(huán)境相對濕度,為50%rh標(biāo)準(zhǔn)參考濕度。
15、進(jìn)一步,步驟s2中,實(shí)現(xiàn)負(fù)壓-振動-氣流-靜電中和耦合機(jī)制的方法,包括:
16、基于實(shí)時受力反饋、紙張分離狀態(tài)、環(huán)境濕度為輸入變量,實(shí)時閉環(huán)調(diào)整包括負(fù)壓、振動、氣流、靜電中和參數(shù)的耦合控制參數(shù),建立多參數(shù)耦合聯(lián)動模型;
17、基于公式(2)-(3),獲取微振動參數(shù)以及氣流參數(shù);其中,公式(2)-(3)為:
18、????(2);
19、??????????(3);
20、其中,為微振動位移函數(shù),為振動幅值、振動頻率隨紙張纖維強(qiáng)度、吸附負(fù)壓在50-100hz區(qū)間動態(tài)調(diào)整,為時間,單位s;為空氣密度;為氣壓差;為氣流速度。
21、進(jìn)一步,步驟?s3?中分級畸變協(xié)同矯正的實(shí)現(xiàn)方法為:
22、s31.基于?mobilenetv2?網(wǎng)絡(luò)提取書脊語義特征,分割書脊畸變區(qū)域并計算畸變量化值;
23、s32.基于畸變量化值,執(zhí)行分級矯正,公式為:
24、?????(4);
25、其中,為仿射變換矩陣,為三維曲面重建算法,對應(yīng)重度畸變矯正;矯正后像素誤差控制在1像素以內(nèi)。
26、進(jìn)一步,步驟s4的方法,包括:
27、s41.采用crnn模型文字識別、vit?特征編碼、輕量級?bilstm?語義編碼與rag?檢索,增強(qiáng)引擎相結(jié)合的輕量化架構(gòu),替代大參數(shù)生成式語言模型,降低算力需求與推理延遲;
28、s42.預(yù)構(gòu)建歷史典籍權(quán)威語料庫,包含古籍全文數(shù)據(jù)庫、高頻詞庫、異體字-正字映射庫、避諱字庫、古籍批注專屬語料庫;
29、s43.基于公式(5)-(6),進(jìn)行殘缺文字補(bǔ)全;其中,公式(5)-(6)為:
30、???(5);
31、?????????????????(6);
32、其中,為上下文語義序列,為殘缺文字特征向量,k為典籍語料庫檢索匹配結(jié)果,為輕量級語義編碼模型,為最優(yōu)補(bǔ)全文字;
33、s44.基于補(bǔ)全的殘缺文字,按正文版式、批注版式、圖表旁注版式,設(shè)置差異化語義閾值并獲取自適應(yīng)校準(zhǔn)識別結(jié)果。
34、進(jìn)一步,步驟s5中,以作業(yè)成功率≥95%?且矯正誤差≤1?像素為有效樣本,采用icarl增量學(xué)習(xí)算法,更新輕量化xgboost子模型、耦合控制參數(shù)、語義閾值。
35、本技術(shù)采用的一個技術(shù)方案是:一種古籍無損翻頁掃描修復(fù)一體化系統(tǒng),包括:
36、多維度狀態(tài)感知模塊,用于采集古籍物理特性、環(huán)境參數(shù)、破損區(qū)域分布與實(shí)時受力數(shù)據(jù);
37、多場協(xié)同無損翻頁模塊,用于實(shí)現(xiàn)書頁無接觸分離與脆弱區(qū)智能避讓;
38、高保真掃描與畸變矯正模塊,用于書頁成像與畸變矯正;
39、雙庫驅(qū)動?ocr?智能修復(fù)模塊,用于文字識別、殘缺補(bǔ)全與語義校準(zhǔn);
40、邊緣計算與自適應(yīng)優(yōu)化模塊,用于進(jìn)行參數(shù)匹配、算法迭代與模塊優(yōu)化;各模塊通過工業(yè)總線實(shí)現(xiàn)雙向數(shù)據(jù)交互,形成“感知?-?決策?-?執(zhí)行?-?反饋?-?優(yōu)化”的全閉環(huán)協(xié)同體系。
41、本技術(shù)的有益效果是:本技術(shù)通過?mems?壓力傳感的“觸覺感知”實(shí)現(xiàn)脆弱區(qū)智能避障,結(jié)合濕度與纖維強(qiáng)度雙因子動態(tài)負(fù)壓與多場實(shí)時耦合機(jī)制,實(shí)現(xiàn)了“文物修復(fù)師級別的輕柔翻頁”。通過輕量化?xgboost?子模型與?rag?輕量化?ocr?架構(gòu),降低算力消耗;同時動態(tài)參數(shù)自適應(yīng)能力,可無縫適配線裝、包背裝、經(jīng)折裝等各類裝幀形式,以及不同年代、不同老化程度的古籍,無需人工調(diào)試;通過“典籍權(quán)威庫與經(jīng)驗(yàn)知識庫”雙驅(qū)動架構(gòu),結(jié)合版式自適應(yīng)動態(tài)閾值,提升古籍殘缺文字補(bǔ)全準(zhǔn)確率以及整體文字識別準(zhǔn)確率,對批注、圖表等復(fù)雜版式的識別適配性也大幅提升,同時實(shí)現(xiàn)了疑難場景的知識積累與復(fù)用,系統(tǒng)越用越精準(zhǔn)。