1. <rt id="e600n"></rt>
      1. <pre id="e600n"><strong id="e600n"><pre id="e600n"></pre></strong></pre>
      2. 岛国免费AV,无码人妻精品一区二区三区夜夜嗨,又大又粗又硬又爽黄毛少妇,精品国产AV二区,91视频最新网址,久操无码,久久无码人妻一区二区三区午夜,国产精品视频中文字幕

        一種基于元數(shù)據(jù)的數(shù)據(jù)庫(kù)外鍵關(guān)系識(shí)別方法

        文檔序號(hào):45765832發(fā)布日期:2026-06-10 01:05閱讀:1來(lái)源:國(guó)知局

        本發(fā)明涉及數(shù)據(jù)庫(kù)技術(shù)、數(shù)據(jù)處理及自然語(yǔ)言處理領(lǐng)域,具體涉及一種基于元數(shù)據(jù)的數(shù)據(jù)庫(kù)外鍵關(guān)系識(shí)別方法。


        背景技術(shù):

        1、隨著大數(shù)據(jù)和人工智能的飛速發(fā)展,數(shù)據(jù)庫(kù)成為按照數(shù)據(jù)結(jié)構(gòu)組織、存儲(chǔ)和管理數(shù)據(jù)的倉(cāng)庫(kù)。對(duì)數(shù)據(jù)庫(kù)結(jié)構(gòu)信息進(jìn)行準(zhǔn)確解析,是實(shí)現(xiàn)數(shù)據(jù)高效利用、智能建模與業(yè)務(wù)落地的關(guān)鍵。其中,數(shù)據(jù)庫(kù)表與表之間的外鍵關(guān)系,是描述數(shù)據(jù)表關(guān)聯(lián)結(jié)構(gòu)的核心信息,在text-to-sql智能查詢(xún)、數(shù)據(jù)庫(kù)自動(dòng)建模、數(shù)據(jù)治理、合成數(shù)據(jù)生成等場(chǎng)景中都起到關(guān)鍵支撐作用,也是實(shí)現(xiàn)數(shù)據(jù)關(guān)聯(lián)分析、數(shù)據(jù)庫(kù)結(jié)構(gòu)恢復(fù)的重要基礎(chǔ)。

        2、外鍵關(guān)系指的是在數(shù)據(jù)庫(kù)中一個(gè)表的字段,引用另一個(gè)表主鍵或唯一鍵字段所形成的依賴(lài)關(guān)系。通過(guò)外鍵關(guān)系,不同數(shù)據(jù)表之間能夠建立關(guān)聯(lián)查詢(xún),同時(shí)也能夠在一定程度上保證數(shù)據(jù)的一致性與完整性。在規(guī)范的數(shù)據(jù)庫(kù)設(shè)計(jì)中,外鍵關(guān)系通常會(huì)被明確設(shè)置并通過(guò)約束進(jìn)行定義。然而在實(shí)際應(yīng)用中,由于數(shù)據(jù)來(lái)源復(fù)雜、歷史系統(tǒng)遷移、開(kāi)發(fā)規(guī)范不統(tǒng)一等原因,大量數(shù)據(jù)庫(kù)系統(tǒng)并未顯式定義外鍵關(guān)系,甚至存在外鍵約束缺失的情況。這種結(jié)構(gòu)信息的不完整性給數(shù)據(jù)庫(kù)的自動(dòng)化分析與智能應(yīng)用帶來(lái)了較大困難。

        3、為了處理這類(lèi)問(wèn)題,目前已經(jīng)出現(xiàn)了多種外鍵關(guān)系識(shí)別方法,主要分為基于字段名稱(chēng)相似度、基于值域重疊率、基于包含依賴(lài)這三類(lèi)。這些方法在結(jié)構(gòu)簡(jiǎn)單的數(shù)據(jù)庫(kù)里能起到一定效果,但放到復(fù)雜的實(shí)際場(chǎng)景中,就暴露出不少缺陷:一是過(guò)度依賴(lài)字段命名規(guī)則,命名不統(tǒng)一時(shí)識(shí)別準(zhǔn)確率會(huì)大幅降低;二是對(duì)數(shù)據(jù)缺失、異常值等噪聲很敏感,嚴(yán)格的包含約束很容易失效;三是只看重單一的數(shù)據(jù)特征,沒(méi)有綜合利用主鍵唯一性、字段重復(fù)度等核心結(jié)構(gòu)信息,容易把偶然的數(shù)據(jù)重疊誤判為真實(shí)引用;四是在多表、大規(guī)模、數(shù)據(jù)質(zhì)量參差不齊的復(fù)雜數(shù)據(jù)庫(kù)中,識(shí)別的準(zhǔn)確性和穩(wěn)定性都達(dá)不到實(shí)際使用要求。

        4、因此,對(duì)于缺乏完整schema信息、數(shù)據(jù)存在噪聲、命名規(guī)范不統(tǒng)一的數(shù)據(jù)庫(kù)場(chǎng)景,現(xiàn)有外鍵關(guān)系識(shí)別方法難以有效實(shí)現(xiàn)外鍵關(guān)系的精準(zhǔn)、穩(wěn)定識(shí)別。如何綜合利用數(shù)據(jù)庫(kù)的字段統(tǒng)計(jì)特征與結(jié)構(gòu)特征,在不依賴(lài)字段語(yǔ)義命名、容忍數(shù)據(jù)噪聲的前提下,實(shí)現(xiàn)數(shù)據(jù)庫(kù)外鍵關(guān)系的自動(dòng)化、高準(zhǔn)確率識(shí)別,成為當(dāng)前需要解決的技術(shù)問(wèn)題。


        技術(shù)實(shí)現(xiàn)思路

        1、本發(fā)明針對(duì)目前數(shù)據(jù)庫(kù)外鍵關(guān)系識(shí)別的迫切需求,結(jié)合多維度特征融合與量化評(píng)價(jià)方法,對(duì)數(shù)據(jù)庫(kù)表間的外鍵關(guān)系進(jìn)行精準(zhǔn)識(shí)別。一方面可以為智能數(shù)據(jù)庫(kù)應(yīng)用提供可靠的結(jié)構(gòu)信息支撐,另一方面從數(shù)據(jù)治理角度,有助于幫助管理人員完善數(shù)據(jù)庫(kù)結(jié)構(gòu)、提升數(shù)據(jù)質(zhì)量。本發(fā)明提供了一種高效、精準(zhǔn)的數(shù)據(jù)庫(kù)外鍵關(guān)系識(shí)別方法,所敘述方法步驟如圖1,包括:

        2、一、數(shù)據(jù)庫(kù)字段信息提取階段

        3、首先,收集數(shù)據(jù)庫(kù)的基礎(chǔ)結(jié)構(gòu)信息與字段統(tǒng)計(jì)信息,以此作為外鍵關(guān)系識(shí)別的基礎(chǔ)依據(jù)。數(shù)據(jù)庫(kù)metadata是描述數(shù)據(jù)庫(kù)及字段特征的數(shù)據(jù),包括結(jié)構(gòu)信息、統(tǒng)計(jì)信息等核心內(nèi)容,將收集到的metadata按類(lèi)別整理并存儲(chǔ),形成標(biāo)準(zhǔn)化的metadata集合。

        4、其次,作為識(shí)別數(shù)據(jù)的主體,數(shù)據(jù)庫(kù)的表結(jié)構(gòu)與字段數(shù)據(jù)在這一步也要被全面收集。由于數(shù)據(jù)庫(kù)類(lèi)型的多樣性,不同數(shù)據(jù)庫(kù)的表結(jié)構(gòu)、字段類(lèi)型定義存在差異,在收集metadata的同時(shí)要記錄數(shù)據(jù)庫(kù)的類(lèi)型信息,以此為依據(jù)來(lái)解析每個(gè)字段的屬性特征。

        5、最后,為了確保后續(xù)特征計(jì)算的準(zhǔn)確性,還需要收集字段的空值分布情況,作為數(shù)據(jù)預(yù)處理的參考依據(jù)。

        6、二、主鍵識(shí)別階段

        7、在metadata提取完成后,需要從數(shù)據(jù)庫(kù)中篩選出具備主鍵特征的字段,作為外鍵引用的核心基準(zhǔn)。主鍵是用于唯一標(biāo)識(shí)數(shù)據(jù)表中每一條記錄的字段或字段組合,具有唯一性與非空性,是表間建立關(guān)聯(lián)關(guān)系的重要依據(jù)。與傳統(tǒng)僅識(shí)別顯式主鍵的方法不同,本方法同時(shí)兼顧顯式主鍵與語(yǔ)義主鍵,確保主表字段基準(zhǔn)的全面性與精準(zhǔn)性,其具體流程如圖2所示,包括以下幾個(gè)部分:

        8、1.?metadata解析。數(shù)據(jù)收集完畢后,根據(jù)數(shù)據(jù)庫(kù)類(lèi)型信息對(duì)metadata進(jìn)行解析,將metadata轉(zhuǎn)換為對(duì)應(yīng)的表名稱(chēng)、字段名稱(chēng)、數(shù)據(jù)類(lèi)型、顯式約束、取值集合、記錄總數(shù)、唯一值數(shù)量等結(jié)構(gòu)化字段,為后續(xù)主鍵識(shí)別提供數(shù)據(jù)支撐。

        9、2.?顯式主鍵篩選。即基于約束特征匹配,通過(guò)metadata中的顯式約束信息篩選主鍵字段。根據(jù)解析到的字段顯式約束(是否設(shè)置主鍵/唯一鍵),直接判定該字段是否為顯式主鍵,按照表名稱(chēng)、字段名稱(chēng)、數(shù)據(jù)類(lèi)型、約束類(lèi)型等信息保存在顯式主鍵文件中。

        10、3.?語(yǔ)義主鍵判定。顯式主鍵篩選完成后,需要對(duì)未顯式設(shè)置主鍵的數(shù)據(jù)表進(jìn)行語(yǔ)義主鍵識(shí)別。日志中未標(biāo)記顯式主鍵的字段,其metadata中除了包含字段的基礎(chǔ)屬性,還存在反映主鍵特征的統(tǒng)計(jì)信息(如唯一值占比)。這些信息對(duì)于分析字段是否具備主鍵功能來(lái)說(shuō)是關(guān)鍵,因此只需提取該字段的核心統(tǒng)計(jì)特征,依據(jù)metadata中的記錄總數(shù)、唯一值數(shù)量計(jì)算唯一值占比,匹配字段是否具備主鍵的核心特征。識(shí)別語(yǔ)義主鍵可以依據(jù)以下特征:

        11、(1)唯一值占比:不同類(lèi)型的主鍵均具備高唯一性特征,例如顯式主鍵的唯一值占比為1,語(yǔ)義主鍵的唯一值占比通常不低于95%。比如用戶(hù)表中的user_id字段,若未顯式設(shè)置為主鍵,但唯一值占比達(dá)到98%,則可判定為語(yǔ)義主鍵。

        12、(2)數(shù)據(jù)類(lèi)型特征:主鍵字段通常為數(shù)值型或uuid型,排除文本型、枚舉型等不適宜作為主鍵的字段類(lèi)型,例如訂單表中的order_no(字符串類(lèi)型的訂單編號(hào))若滿(mǎn)足唯一值占比要求,也可判定為語(yǔ)義主鍵,但文本型的user_name字段則直接排除。

        13、(3)業(yè)務(wù)語(yǔ)義標(biāo)簽:不同的字段名稱(chēng)通常隱含業(yè)務(wù)含義,例如包含“id”“no”等關(guān)鍵詞的字段更可能作為主鍵,比如“goods_id”“contract_no”等字段,可輔助提升語(yǔ)義主鍵識(shí)別的準(zhǔn)確性。

        14、4.?主鍵分類(lèi)。根據(jù)識(shí)別方式與置信度的不同,將主鍵劃分為顯式主鍵與語(yǔ)義主鍵兩類(lèi),其中顯式主鍵由數(shù)據(jù)庫(kù)約束直接定義,具有較高可靠性,而語(yǔ)義主鍵則通過(guò)字段的統(tǒng)計(jì)特征(如唯一性、非空性、值分布)以及語(yǔ)義規(guī)則(如字段命名模式、業(yè)務(wù)含義)進(jìn)行推斷識(shí)別,用于補(bǔ)充顯式主鍵缺失的情況。在實(shí)際判定過(guò)程中,遵循顯式約束優(yōu)先的原則,并結(jié)合統(tǒng)計(jì)特征與語(yǔ)義規(guī)則進(jìn)行補(bǔ)充識(shí)別,從而實(shí)現(xiàn)主鍵識(shí)別的全面覆蓋。

        15、5.?主鍵整合。主鍵是外鍵引用的基礎(chǔ),在訪(fǎng)問(wèn)metadata中,不同數(shù)據(jù)表的主鍵字段歸屬不同,若同一字段在不同表中均被判定為主鍵,需結(jié)合業(yè)務(wù)邏輯確認(rèn)其合理性。主鍵識(shí)別之后需要對(duì)所有主鍵字段進(jìn)行整合,選擇唯一值占比作為核心排序依據(jù),如果字段的唯一值占比相同,則按顯式主鍵優(yōu)先于語(yǔ)義主鍵的規(guī)則排序。主鍵識(shí)別后生成兩個(gè)數(shù)據(jù)表,其中一個(gè)是顯式主鍵數(shù)據(jù)表,另一個(gè)是語(yǔ)義主鍵數(shù)據(jù)表。分別對(duì)這兩個(gè)數(shù)據(jù)表進(jìn)行整合處理。具體流程如下:

        16、(1)首先,對(duì)顯式主鍵數(shù)據(jù)進(jìn)行整合處理,包括:以數(shù)據(jù)表為單位對(duì)顯式主鍵字段進(jìn)行分組,當(dāng)同一數(shù)據(jù)表中存在多個(gè)主鍵字段時(shí),將所述多個(gè)主鍵字段組合為聯(lián)合主鍵;對(duì)唯一值占比低于預(yù)設(shè)閾值的字段進(jìn)行剔除;為每一顯式主鍵字段或聯(lián)合主鍵分配唯一標(biāo)識(shí);并在保留原有字段信息的基礎(chǔ)上,標(biāo)記主鍵類(lèi)型為顯式主鍵,從而得到顯式主鍵集合。

        17、(2)其次,對(duì)語(yǔ)義主鍵數(shù)據(jù)進(jìn)行整合處理,包括:以數(shù)據(jù)表為單位對(duì)語(yǔ)義主鍵字段進(jìn)行篩選,確保每個(gè)數(shù)據(jù)表僅保留一個(gè)語(yǔ)義主鍵;為每一語(yǔ)義主鍵分配唯一標(biāo)識(shí);并在保留原有字段信息的基礎(chǔ)上,標(biāo)記主鍵類(lèi)型為語(yǔ)義主鍵,從而得到語(yǔ)義主鍵集合。

        18、(3)最后,將顯式主鍵集合與語(yǔ)義主鍵集合進(jìn)行統(tǒng)一整合,包括:對(duì)兩個(gè)集合中的字段進(jìn)行對(duì)齊處理,并對(duì)字段名稱(chēng)不一致的部分進(jìn)行統(tǒng)一映射;將對(duì)齊后的兩個(gè)集合進(jìn)行合并,生成全局主鍵集合;并選擇唯一值占比作為核心排序依據(jù),如果字段的唯一值占比相同,則按顯式主鍵優(yōu)先于語(yǔ)義主鍵的規(guī)則排序,對(duì)全局主鍵集合進(jìn)行排序,從而形成結(jié)構(gòu)統(tǒng)一、優(yōu)先級(jí)明確的主鍵集合。

        19、三、多維度外鍵識(shí)別階段

        20、經(jīng)過(guò)主鍵識(shí)別后,數(shù)據(jù)被轉(zhuǎn)化為標(biāo)準(zhǔn)化的metadata集合和主鍵集合,其中metadata集合包含所有字段的結(jié)構(gòu)化特征,主鍵集合包含所有具備主鍵特征的字段信息。為了方便識(shí)別任務(wù)的進(jìn)行,將metadata集合中所有的字符串類(lèi)型特征轉(zhuǎn)換成對(duì)應(yīng)的標(biāo)準(zhǔn)化編碼,通過(guò)建立“原始特征-編碼”的雙向映射關(guān)系,實(shí)現(xiàn)特征的統(tǒng)一量化表示,同時(shí)將該映射文件持久化存儲(chǔ),然后基于metadata集合、主鍵集合采用多維度特征融合與結(jié)構(gòu)依賴(lài)度計(jì)算的方法進(jìn)行外鍵關(guān)系識(shí)別,得出最終的外鍵關(guān)系結(jié)果。

        21、外鍵關(guān)系識(shí)別是在給定metadata集合、主鍵集合和識(shí)別閾值的情況下,挖掘字段間所有的潛在外鍵關(guān)系,旨在發(fā)現(xiàn)數(shù)據(jù)庫(kù)中真實(shí)有效的表間關(guān)聯(lián)。外鍵關(guān)系(foreign?keyrelationship)是指候選子表字段與主鍵字段之間的引用依賴(lài)關(guān)系,可以表示成<a→b>,其中a是候選子表字段,b是主鍵字段。有效外鍵關(guān)系是指一個(gè)字段對(duì)(a,b)滿(mǎn)足值域覆蓋率、主鍵唯一性系數(shù)、引用依賴(lài)率等特征的量化要求,且結(jié)構(gòu)依賴(lài)度大于設(shè)定閾值。

        22、結(jié)構(gòu)依賴(lài)度是外鍵關(guān)系識(shí)別的核心量化指標(biāo),其設(shè)計(jì)本質(zhì)是通過(guò)融合外鍵關(guān)系成立的三大必要特征,構(gòu)建全面、客觀的綜合評(píng)價(jià)體系,避免單一特征維度的誤判風(fēng)險(xiǎn),其外鍵關(guān)系判定的邏輯示意圖如圖3所示,以下為各核心特征及結(jié)構(gòu)依賴(lài)度的詳細(xì)定義:

        23、1.?值域覆蓋率(coverage):其定義為候選子表字段a的取值集合va與主鍵字段b的取值集合vb的交集元素個(gè)數(shù),與va總元素個(gè)數(shù)的比值。該指標(biāo)的取值范圍為,值越接近1,表明子表字段a的取值越集中來(lái)源于主表字段b,越符合外鍵“引用主表取值”的本質(zhì)要求。

        24、2.?主鍵唯一性系數(shù)(uniqueness):其定義為主鍵字段b的唯一值數(shù)量與記錄總數(shù)的比值。根據(jù)數(shù)據(jù)庫(kù)設(shè)計(jì)規(guī)范,外鍵僅能引用主表的主鍵或唯一約束字段,此類(lèi)字段的核心屬性是取值唯一,因此該指標(biāo)的取值范圍為,值越接近1,表明主表字段b的唯一性越強(qiáng),作為被引用字段的合法性與可靠性越高。對(duì)于顯式主鍵字段,該系數(shù)通常為1;對(duì)于語(yǔ)義主鍵字段,該系數(shù)通常不低于0.95。

        25、3.?引用依賴(lài)率(dependency):其定義為候選子表字段a的記錄總數(shù)與唯一值數(shù)量的比值。外鍵對(duì)應(yīng)的業(yè)務(wù)關(guān)聯(lián)本質(zhì)是“多對(duì)一”映射,即多條子表記錄會(huì)引用同一主表字段值,因此該指標(biāo)的取值范圍為,值越大,表明子表字段a的取值重復(fù)度越高,多對(duì)一引用特征越顯著,越符合外鍵的業(yè)務(wù)屬性。若該指標(biāo)值等于1,說(shuō)明子表字段a無(wú)取值重復(fù),與外鍵的業(yè)務(wù)特征完全不符,可直接排除其作為外鍵的可能性。

        26、結(jié)構(gòu)依賴(lài)度的核心優(yōu)勢(shì)在于融合了上述三大特征的協(xié)同作用,既保證了外鍵關(guān)系成立的必要條件,又通過(guò)科學(xué)的量化方式實(shí)現(xiàn)了特征的優(yōu)勢(shì)互補(bǔ)。本發(fā)明采用分層加權(quán)、核心約束與特征協(xié)同相結(jié)合的融合策略,將多維分散特征統(tǒng)一映射為單一的結(jié)構(gòu)依賴(lài)度指標(biāo)(sds),實(shí)現(xiàn)對(duì)候選字段對(duì)引用關(guān)系強(qiáng)度的精準(zhǔn)量化,其融合計(jì)算公式如下:

        27、

        28、為精準(zhǔn)闡釋公式中各歸一化特征項(xiàng)、分層權(quán)重邏輯及主鍵約束因子的具體內(nèi)涵與計(jì)算規(guī)則,下面進(jìn)行逐一說(shuō)明:

        29、(1)歸一化特征項(xiàng)定義。為消除不同特征維度的數(shù)值尺度差異,確保融合過(guò)程的合理性與公平性,對(duì)三大核心特征進(jìn)行歸一化處理,統(tǒng)一映射至區(qū)間,各歸一化特征項(xiàng)定義及計(jì)算方式如下:

        30、:歸一化值域覆蓋率,計(jì)算方式為;

        31、:歸一化主鍵唯一性系數(shù),計(jì)算方式,其中表示字段x的唯一值數(shù)量;表示字段x所屬數(shù)據(jù)表的記錄總數(shù);

        32、:歸一化引用依賴(lài)率,計(jì)算方式為。

        33、(2)分層權(quán)重分配邏輯。在特征融合時(shí),采用分層加權(quán)方式進(jìn)行組合。其中,主鍵唯一性作為外鍵關(guān)系成立的核心條件,賦予最高權(quán)重;值域覆蓋率反映引用關(guān)系的直接表現(xiàn),作為重要依據(jù);引用依賴(lài)率則用于輔助判斷業(yè)務(wù)上的“多對(duì)一”關(guān)系。通過(guò)這種權(quán)重設(shè)計(jì),使融合結(jié)果既符合數(shù)據(jù)庫(kù)設(shè)計(jì)原則,又能夠兼顧實(shí)際數(shù)據(jù)分布特征。

        34、(3)主鍵約束因子設(shè)計(jì)。為主表有效性約束因子,用于過(guò)濾不具備主鍵核心特征的無(wú)效主表字段。當(dāng)(θ可以取0.8)時(shí),:表明主表字段b具備強(qiáng)唯一性,完全符合外鍵引用的基準(zhǔn)要求。當(dāng)時(shí),:表明主表字段b無(wú)主鍵特征,直接判定該字段對(duì)無(wú)外鍵關(guān)系。

        當(dāng)前第1頁(yè)1 2 
        網(wǎng)友詢(xún)問(wèn)留言 留言:0條
        • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
        主站蜘蛛池模板: 人妻伦理在线一二三区| 欧美精品亚洲精品日韩专区| 久久中文字幕无码一区二区| 国产高清A片| 亚洲成av人片无码不卡播放器| 久久伊人蜜桃av一区二区| 亚洲中文字幕av天堂| 欧美乱码伦视频免费| 国产超爽精品国语对白| 国产精品人妻一码二码尿失禁| 老司机性色福利精品视频| 性欧美丰满熟妇xxxx性久久久| 免费AV人体片在线观看| 亚洲男人成人性天堂网站| 免费av深夜在线观看| 潮喷视频在线播放| 五十老熟妇乱子伦免费观看| 2020年最新国产精品正在播放 | 一级少妇人妻免费视频| 国产高清自产拍av在线| 国产91四大| 久久久久久久人妻丝袜| 亚洲成A人片在线观看无码不卡| 久久欧洲精品成av人片| 宅男宅女精品国产AV天堂| 国产精品免费AⅤ片在线观看| 国产永久免费高清在线观看| 呦系列视频一区二区三区| 欧美丰满熟妇hdxx| 无码精品a∨动漫在线观看| 特级毛片在线大全免费播放| 国精品午夜福利不卡视频| 一本二本三本亚洲??码| 青青草一区在线观看视频| 亚洲色丰满少妇高潮18p| 精品无码三级在线观看视频| 色偷偷亚洲女人天堂观看| 中文字幕国产精品二区| 亚洲中文字幕久久精品码| 国产丝袜在线播放视频在线| 宅男午夜|