本發明涉及設備類型識別,特別涉及一種基于嵌入模型的cad圖紙設備類型識別方法及系統。
背景技術:
1、在電力工程、建筑工程等領域,cad圖紙作為設備布置、設計方案的核心載體,其包含的各類設備類型識別是圖紙輔助建模、智能審查等下游任務的關鍵前提。隨著智能化技術在工程設計領域的深度應用,傳統依賴人工識別cad圖紙中設備類型的方式已難以滿足高效建模與精準審查的需求——在變電站全站平面布置圖三維建模場景中,設計師需耗費大量時間手動核對設備信息并逐一建模,常面臨工期緊張的壓力;而在電氣一次設備布置圖審查環節,人工比對材料表與圖紙中設備的規格、數量及布置一致性,不僅耗時費力,還易因人為疏忽導致遺漏,影響設計準確性。因此,實現cad圖紙設備類型的自動化、高精度識別,成為提升工程設計效率與質量的核心訴求。
2、為解決上述問題,現有技術已提出多種基于人工智能的cad圖紙設備識別或檢索方案。例如,通過選取同類與非同類的正負樣本,利用雙分支深度卷積網絡學習設備間的共性與差異特征,再通過空間映射獲取匹配結果;或者采用clip算法對電器基礎圖元實現自動化分類;或者以vit模型作為特征提取器,提取三維模型20個視角的特征后,結合已訓練的bert模型得到全局綜合特征向量,進而匹配相似三維模型。
3、然而,現有技術方案在實際工程應用中仍存在顯著局限性,難以滿足復雜場景下的使用需求:
4、其一,現有方法均依賴固定類別的大規模標注樣本進行模型訓練,當需要新增設備類別時,必須重建包含新舊樣本的完整數據集,并對模型進行重新訓練或微調。這不僅導致模型迭代周期長,無法及時適配跨項目、跨標準的設備識別需求,還難以形成穩定通用的語義表征,泛化能力受限。
5、其二,工程實踐中,部分特種設備(如定制化電氣設備)的cad圖紙樣本極為稀缺,往往僅能獲取1-2張高質量圖紙,而現有監督學習方法對訓練數據量要求較高,在小樣本或極小樣本條件下,特征提取的判別性顯著下降,導致設備識別精度急劇降低,識別結果不可靠。
6、其三,現有方法的模型訓練依賴大規模一致性標注數據,新增設備類別時需開展新一輪人工標注工作,不僅耗時久、成本高,且對標注人員的專業能力與標注一致性要求嚴苛,進一步限制了技術的落地應用。
7、綜上,現有cad圖紙設備類型識別方法在可擴展性、小樣本適應性及數據成本控制方面存在明顯缺陷,無法充分滿足工程設計領域對高效、靈活、精準識別的實際需求,亟需一種能夠突破上述技術瓶頸的識別方法。
技術實現思路
1、有鑒于此,本發明的目的在于提供一種基于嵌入模型的cad圖紙設備類型識別方法及系統,旨在解決現有cad圖紙設備類型識別方法在可擴展性、小樣本適應性及數據成本控制方面存在明顯缺陷,無法充分滿足工程設計領域對高效、靈活、精準識別的實際需求的問題。
2、本發明一方面提出一種基于嵌入模型的cad圖紙設備類型識別方法,所述方法包括:
3、構建cad設備數據集;
4、構建包含特征提取結構和輔助頭結構的通用嵌入模型,利用所述cad設備數據集對所述通用嵌入模型進行訓練;
5、篩選各類別設備圖像模板構建cad設備模板庫,將所述模板庫中所有圖像通過訓練后的通用嵌入模型嵌入為向量集并導入向量數據庫;
6、將待識別cad設備圖輸入訓練后的通用嵌入模型,得到對應的嵌入向量;
7、計算所述待識別cad設備圖的嵌入向量與所述向量數據庫中向量集的相似度,根據相似度結果確定最匹配的設備類型。
8、進一步的,上述基于嵌入模型的cad圖紙設備類型識別方法,其中,所述構建cad設備數據集的步驟包括:
9、將預收集的各類變電平面圖導入cad設計軟件;
10、遍歷收集的圖紙當中的所有設備,將每個設備構件進行組塊,并按照設備類型標注設備塊名稱;
11、遍歷圖紙當中的所有設備集合 ds,對設備集合 ds當中的每一構件先計算其包圍盒,按包圍盒尺寸設定隔離視口并居中渲染,生成僅含該設備的居中圖像 i,導出設備圖像集合 is;對圖像集合?is?進行數據清洗,剔除重復樣本和低質量樣本,得到?cad?設備圖像數據集。
12、進一步的,上述基于嵌入模型的cad圖紙設備類型識別方法,其中,所述對圖像集合 is進行重復樣本查找,執行刪除重復樣本和低質量樣本以進行數據清洗得到cad設備數據集的步驟包括:
13、提取圖像類別信息,并按照類別將圖像集合 is劃分為g個設備子集sis,其中g為設備類別數,使用orb算法檢測子集sis所有圖像關鍵點,并使用flannmatch算法匹配關鍵點;
14、假設和分別為圖像和的關鍵點數,為圖像間匹配點數,則當時判定為不重復,否則算作重復圖像;其中,、是同一設備子集的不同圖像;
15、低質量樣本包括錯誤標注、多設備組合標注,錯誤標注是指設備實際類別與標注類別不一致,多設備組合表示不同類別設備在同一張圖內。
16、進一步的,上述基于嵌入模型的cad圖紙設備類型識別方法,其中,所述特征提取結構,用于對輸入圖像的底層紋理信息和深層次抽象語義進行提取,并輸出特征向量;
17、所述特征提取結構由卷積conv、歸一化bn、激活函數relu、最大池化maxpool以及基礎特征提取模塊bssicblock線性組成;
18、其中,將特征提取行為記作,則嵌入過程可表示為:
19、;
20、式中,表示輸出的嵌入向量,i為輸入圖像;
21、所述輔助頭結構用于輔助模型優化,由權重矩陣w組成。
22、進一步的,上述基于嵌入模型的cad圖紙設備類型識別方法,其中,所述利用所述cad設備數據集對所述通用嵌入模型進行訓練的步驟之前還包括:
23、對所述cad設備數據集當中的圖像進行數據增強,其中,數據增強包括隨機翻轉,隨機灰度,隨機放縮;
24、所述利用所述cad設備數據集對所述通用嵌入模型進行訓練的步驟包括:
25、使用arcface損失指導模型權重更新,定義如下:
26、;
27、;
28、式中, n為樣本數,表示當前計算涉及的類別總數, m為加性角度(超參數),表示自然指數,表示遍歷除當前類別 i之外的所有其他類別, s為尺度因子,為輔助頭權重矩陣 w中第 i類的列向量,表示非目標類別的權重向量與同一個樣本特征向量的夾角,表示和特征向量的夾角,通過增大同類間的夾角,迫使模型拉近類內特征,增大類間差異。
29、進一步的,上述基于嵌入模型的cad圖紙設備類型識別方法,其中,所述篩選各類別設備圖像模板構建cad設備模板庫,將所述模板庫中所有圖像通過訓練后的通用嵌入模型嵌入為向量集并導入向量數據庫的步驟包括:
30、篩選各類別設備圖像模板,構建cad模板庫ts,將模板庫ts內所有圖像嵌入為向量集tvs,導入至向量數據庫;
31、其中,,其中,為第g類模板集合,,是從子集中挑選的模板圖像,每類模板數量至少為1,其中z為模板總數;
32、當引入新設備類別時,將該類別的典型圖像加入模板庫并生成對應嵌入向量;
33、模板篩選方法包括要素共性篩選法和要素差異篩選法;
34、要素共性篩選法包括:對于某一設備類別,若其典型實例普遍包含一組關鍵組成要素集合:
35、;
36、設模板所含要素為,則定義其要素覆蓋率為:
37、;
38、在構建模板庫時,優先保留高于閾值的圖像作為模板,以確保類內表征的結構完備性與魯棒性;
39、要素差異篩選法包括:對于任意兩個不同類別和,設兩者的典型要素集合分別為和,則定義其類間要素區分度為:
40、;
41、當接近1時,保留對應的模板。
42、進一步的,上述基于嵌入模型的cad圖紙設備類型識別方法,其中,所述計算所述待識別cad設備圖的嵌入向量與所述向量數據庫中向量集的相似度,根據相似度結果確定最匹配的設備類型的步驟包括:
43、向量相似度通過函數進行度量,假設最終匹配的設備為j,則:式中,分別表示待識別cad設備圖的嵌入向量與所述向量數據庫中向量集,表示最大相似度,為相似度閾值,操作表示對向量 sim進行降序排列并映射原始下標,返回前topk個最大值及其對應下標,當最大相似度大于閾值時, j表示最相似的設備,否則,未匹配到結果。
44、本發明的另一個目的在于提供一種基于嵌入模型的cad圖紙設備類型識別系統,所述系統包括:
45、構建模塊,用于構建cad設備數據集;
46、訓練模塊,用于構建包含特征提取結構和輔助頭結構的通用嵌入模型,利用所述cad設備數據集對所述通用嵌入模型進行訓練;
47、篩選模塊,用于篩選各類別設備圖像模板構建cad設備模板庫,將所述模板庫中所有圖像通過訓練后的通用嵌入模型嵌入為向量集并導入向量數據庫;
48、識別模塊,用于將待識別cad設備圖輸入訓練后的通用嵌入模型,得到對應的嵌入向量;
49、匹配模塊,用于計算所述待識別cad設備圖的嵌入向量與所述向量數據庫中向量集的相似度,根據相似度結果確定最匹配的設備類型。
50、本發明的另一個目的在于提供一種可讀存儲介質,其上存儲有計算機程序,所述程序被處理器執行時實現上述的方法的步驟。
51、本發明的另一個目的是提供一種電子設備,包括存儲器、處理器以及存儲在存儲器上并在處理器上運行的計算機程序,所述處理器執行所述程序時實現上述的方法的步驟。
52、本發明通過構建cad設備數據集并進行清洗處理以保留有效樣本;構建包含特征提取結構和輔助頭結構的通用嵌入模型,利用所述cad設備數據集對其進行訓練;篩選各類別設備圖像模板構建cad設備模板庫,將模板庫中所有圖像通過訓練后的通用嵌入模型嵌入為向量集并導入向量數據庫;將待識別cad設備圖輸入訓練后的通用嵌入模型得到對應嵌入向量;計算該嵌入向量與向量數據庫中向量集的相似度并確定最匹配設備類型,其中,構建的cad設備模板庫支持動態擴展,新增設備類別時,無需重建包含新舊樣本的完整數據集,僅需將該類別的典型圖像加入模板庫并通過已訓練的通用嵌入模型生成對應嵌入向量存入向量數據庫,無需對模型重新訓練或微調,可快速適配跨項目、跨標準的設備識別需求,形成穩定通用的語義表征,顯著提升泛化與泛用性;通用嵌入模型具備特征提取結構與輔助頭結構,經cad設備數據集訓練后擁有強泛化能力與語義抽象能力,即便僅獲取1-2張高質量設備模板,也能有效捕獲設備關鍵幾何與結構特征,生成具有判別性的特征向量,保障小樣本場景下的識別準確性與可靠性;新增設備類別時無需開展大規模人工標注工作,僅需少量典型圖像即可完成模板擴充與向量生成,大幅降低標注成本、縮短迭代周期,同時避免對標注一致性的嚴苛依賴;通過自動化的數據集構建、模型訓練、向量嵌入與相似度匹配流程,實現cad圖紙設備類型的自動化識別,無需人工逐一核對或建模,顯著提升圖紙輔助建模與智能審查的效率,減少人為疏忽導致的遺漏,保障設計準確性。解決了現有技術當中cad圖紙設備類型識別方法在可擴展性、小樣本適應性及數據成本控制方面存在明顯缺陷,無法充分滿足工程設計領域對高效、靈活、精準識別的實際需求的問題。