本發明涉及計算機,特別涉及一種基于網絡標識符的網站關聯關系挖掘及動態監控方法、裝置、設備及介質。
背景技術:
1、在互聯網出海、seo(search?engineoptimization,搜索引擎優化)優化及廣告投放分析領域,競爭情報的獲取至關重要。分析人員通常需要評估一個網站的流量價值、判斷其背后是否存在成熟的運營團隊(站群模式),以及監測競爭對手的廣告投放動向。
2、目前,網站關聯關系通常需要相關人員進行手動挖掘,并在不同的工具之間頻繁切換,這種方式不僅效率低下,而且難以發現網站之間的隱性關聯。例如,一個看似獨立的博客,實際上可能是一個擁有100個網站的龐大站群的一部分。如果不能通過shared?id(共享標識符)將它們串聯起來,分析者就無法看清競爭對手的全貌。此外,當前的方法對于網站數量變化的感知滯后,不能實時的確定競爭對手的網站數量。
技術實現思路
1、有鑒于此,本發明的目的在于提供一種基于網絡標識符的網站關聯關系挖掘及動態監控方法、裝置、設備及介質,可識別出與標識符相應的關聯網站,并通過情報事件推送實時掌握與標識符對應的網站數量變化情況。其具體方案如下:
2、第一方面,本技術公開了一種基于網絡標識符的網站關聯關系挖掘及動態監控方法,應用于后端服務器,包括:
3、通過預設爬蟲集群獲取若干網絡頁面的網頁信息,并根據所述網頁信息中的標識符信息以及所述若干網絡頁面的對應網站域名更新目標網站關聯圖譜;
4、若接收到瀏覽器客戶端創建的與目標標識符對應的目標監控任務,則通過所述預設爬蟲集群獲取的新增網頁信息與所述目標標識符進行匹配,以得到相應的匹配結果;
5、若所述匹配結果表征匹配成功,則基于所述目標網站關聯圖譜確定所述目標標識符對應的歷史關聯網站列表以及當前關聯網站列表,并基于所述歷史關聯網站列表以及當前關聯網站列表確定所述新增網頁信息是否為誤報信息;
6、若所述新增網頁信息不為誤報信息,則生成關聯網站情報事件,并將所述關聯網站情報事件推送至所述瀏覽器客戶端。
7、可選的,所述通過預設爬蟲集群獲取若干網絡頁面的網頁信息,并根據所述網頁信息中的標識符信息以及所述若干網絡頁面的對應網站域名更新目標網站關聯圖譜,包括:
8、通過預設爬蟲集群獲取若干網絡頁面的網頁信息,并通過預設正則表達式對所述網頁信息中的網頁源碼進行掃描,以提取所述網頁信息中的標識符信息;所述預設爬蟲集群為基于預設腳本注入規則在所述若干網絡頁面注入的監聽腳本;所述預設腳本注入規則為若所述若干網絡頁面的網頁地址在預設網頁列表中,則向所述若干網絡頁面注入監聽腳本;
9、對所述標識符信息進行分析,以識別所述標識符信息中的公共標識,并將所述公共標識從所述標識符信息中剔除,以得到目標標識符信息;
10、基于所述目標標識符信息以及所述若干網絡頁面的對應網站域名更新目標網站關聯圖譜。
11、可選的,所述基于所述目標標識符信息以及所述若干網絡頁面的對應網站域名更新目標網站關聯圖譜,包括:
12、將所述目標標識符信息以及所述若干網絡頁面的對應網站域名作為所述目標網站關聯圖譜中的節點;
13、若所述網頁源碼中包含所述目標標識符信息和/或所述網站域名,則構建所述網頁源碼對應的網絡頁面與所述節點之間的邊,以完成對所述目標網站關聯圖譜的更新。
14、可選的,所述通過預設爬蟲集群獲取若干網絡頁面的網頁信息,并根據所述網頁信息中的標識符信息以及所述若干網絡頁面的對應網站域名更新目標網站關聯圖譜之后,還包括:
15、若接收到所述瀏覽器客戶端的網頁信息獲取請求,則基于所述網頁信息獲取請求中的若干待查詢標識符從所述目標網站關聯圖譜中查詢相應的待反饋網頁數據;
16、將所述待反饋網頁數據反饋至所述瀏覽器客戶端,以便所述瀏覽器客戶端基于所述待反饋網頁數據進行信息頁面渲染。
17、可選的,所述若接收到瀏覽器客戶端創建的與目標標識符對應的目標監控任務,則通過所述預設爬蟲集群獲取的新增網頁信息與所述目標標識符進行匹配,以得到相應的匹配結果,包括:
18、若接收到瀏覽器客戶端創建的與目標標識符對應的目標監控任務,則通過所述預設爬蟲集群獲取的所述若干網絡頁面的新增網頁信息進行匹配;
19、若所述新增網頁信息中的網頁源碼中包括所述目標標識符,則生成表征匹配成功的第一匹配結果;
20、若所述新增網頁信息中的網頁源碼中不包括所述目標標識符,則生成表征匹配失敗的第二匹配結果。
21、可選的,所述基于所述歷史關聯網站列表以及當前關聯網站列表確定所述新增網頁信息是否為誤報信息,包括:
22、對所述歷史關聯網站列表以及當前關聯網站列表進行差集運算,以得到相應的差集結果;
23、若所述差集結果不為空,則確定所述新增網頁信息是不為誤報信息,若所述差集結果為空,則確定所述新增網頁信息是為誤報信息。
24、可選的,所述若所述新增網頁信息不為誤報信息,則生成關聯網站情報事件,并將所述關聯網站情報事件推送至所述瀏覽器客戶端,包括:
25、若所述新增網頁信息不為誤報信息,則基于預設數據結構生成關聯網站情報事件,并將所述關聯網站情報事件推送至預設消息中心,以便所述預設消息中心基于所述關聯網站情報事件向所述瀏覽器客戶端推送紅點通知。
26、第二方面,本技術公開了一種基于網絡標識符的網站關聯關系挖掘及動態監控方法,應用于后端服務器,包括:
27、圖譜更新模塊,用于通過預設爬蟲集群獲取若干網絡頁面的網頁信息,并根據所述網頁信息中的標識符信息以及所述若干網絡頁面的對應網站域名更新目標網站關聯圖譜;
28、標識符匹配模塊,用于若接收到瀏覽器客戶端創建的與目標標識符對應的目標監控任務,則通過所述預設爬蟲集群獲取的新增網頁信息與所述目標標識符進行匹配,以得到相應的匹配結果;
29、誤報信息確認模塊,用于若所述匹配結果表征匹配成功,則基于所述目標網站關聯圖譜確定所述目標標識符對應的歷史關聯網站列表以及當前關聯網站列表,并基于所述歷史關聯網站列表以及當前關聯網站列表確定所述新增網頁信息是否為誤報信息;
30、情報事件推送模塊,用于若所述新增網頁信息不為誤報信息,則生成關聯網站情報事件,并將所述關聯網站情報事件推送至所述瀏覽器客戶端。
31、第三方面,本技術公開了一種電子設備,包括:
32、存儲器,用于保存計算機程序;
33、處理器,用于執行所述計算機程序,以實現如前述的基于網絡標識符的網站關聯關系挖掘及動態監控方法。
34、第四方面,本技術公開了一種計算機可讀存儲介質,用于保存計算機程序,其中,所述計算機程序被處理器執行時實現如前述的基于網絡標識符的網站關聯關系挖掘及動態監控方法。
35、本技術中,可以通過預設爬蟲集群獲取若干網絡頁面的網頁信息,并根據所述網頁信息中的標識符信息以及所述若干網絡頁面的對應網站域名更新目標網站關聯圖譜;若接收到瀏覽器客戶端創建的與目標標識符對應的目標監控任務,則通過所述預設爬蟲集群獲取的新增網頁信息與所述目標標識符進行匹配,以得到相應的匹配結果;若所述匹配結果表征匹配成功,則基于所述目標網站關聯圖譜確定所述目標標識符對應的歷史關聯網站列表以及當前關聯網站列表,并基于所述歷史關聯網站列表以及當前關聯網站列表確定所述新增網頁信息是否為誤報信息;若所述新增網頁信息不為誤報信息,則生成關聯網站情報事件,并將所述關聯網站情報事件推送至所述瀏覽器客戶端。
36、由此可見,通過本技術的方法,可以通過預設爬蟲集群獲取網絡頁面的網信息,然后通過網頁信息中的標識符信息以及網絡頁面對應網站域名更新目標網站關聯圖譜;如果接收到瀏覽器客戶端創建的與目標標識符對應的目標監控任務,則通過獲取的新增網頁信息與目標標識符進行匹配;若匹配成功,則基于通過目標網站關聯圖譜確定的與目標標識符對應的歷史關聯網站列表及當前關聯網站列表,確定新增網頁信息是否為誤報信息;若不為誤報信息,則生成關聯網站情報事件,并將關聯網站情報事件推送至瀏覽器客戶端。這樣一來,可以將分散的、表面無關的網站串聯成一個網絡,進而能識別出用戶相關聯的網站,從而提供更深度的情報價值。并且可以通過及時的預警情報推送,實時掌握用戶的網站數量變化情況。