本公開涉及文本篩選,具體涉及文本篩選方法、裝置、計算機設備、存儲介質及程序產品。
背景技術:
1、在信息爆炸的時代,為了保持市場敏感度和競爭力,企業需要獲取、篩選以及分析相關行業的文本。相關技術中,通過人工的方式從海量的文本中篩選相關行業的文本。由于人工易受到主觀因素的影響,導致無法準確篩選相關行業的文本。因此,如何提高篩選文本的準確率成為一個需要解決的技術問題。
技術實現思路
1、有鑒于此,本公開實施例提供了一種文本篩選方法、裝置、計算機設備、存儲介質及程序產品。
2、第一方面,本公開實施例提供了一種文本篩選方法,該方法包括:確定與車輛相關的待篩選文本的至少一個第一指標的指標值在目標時間段內的變化幅度,其中,第一指標是用于表征推送待篩選文本所產生影響價值的指標;當變化幅度滿足預設條件時,根據至少一個第一指標的指標值在目標時間段內的變化幅度,確定待篩選文本的第二指標的指標值,其中,第二指標是用于表征推送待篩選文本所產生時效價值的指標;當待篩選文本的第二指標的指標值大于閾值時,將待篩選文本確定為目標文本,其中,目標文本為需要進行推送的文本。
3、在一個可能的實現方式中,根據至少一個第一指標的指標值在目標時間段內的變化幅度,確定待篩選文本的第二指標的指標值包括:根據待篩選文本的第二指標的初始指標值、變化幅度,確定待篩選文本的第二指標的指標值。
4、在一個可能的實現方式中,待篩選文本是通過待篩選文本對應的原始文本進行處理得到的,方法還包括:獲取原始文本以及與車輛相關的停用詞;根據與車輛相關的行業語料庫,對待篩選文本進行篩選,確定待處理文本信息;根據與車輛相關的停用詞,去除待處理文本信息中包含與車輛相關的停用詞表相同的內容,得到待篩選文本。
5、在一個可能的實現方式中,原始文本來自目標網站;方法還包括:當針對于目標網站的爬取請求被攔截時,將目標網站對應的代理池從初始代理池切換為目標網站對應的目標代理池并且根據目標網站的預設爬取頻率閾值,確定目標爬取頻率;根據目標爬取頻率,爬取目標網站提供的文本的信息。
6、在一個可能的實現方式中,根據至少一個第一指標的指標值在目標時間段內的變化幅度,確定待篩選文本的第二指標的指標值,包括:利用文本篩選模型,根據至少一個第一指標的指標值在目標時間段內的變化幅度,確定待篩選文本的第二指標的指標值;其中,文本篩選模型被利用待訓練文本進行訓練;其中,待訓練文本是文本篩選模型在連續多個時間段的準確率小于準確率閾值時獲取的。
7、在一個可能的實現方式中,在當待篩選文本的第二指標的指標值大于閾值時,將待篩選文本確定為目標文本之后,方法還包括:確定目標文本的推送格式以及推送渠道;根據推送格式,對目標文本中的文本內容進行編排,得到編排后的文本;根據推送渠道,將編排后的文本進行推送。
8、第二方面,本公開提供了一種文本篩選裝置,該裝置包括:第一確定模塊,用于確定與車輛相關的待篩選文本的至少一個第一指標的指標值在目標時間段內的變化幅度,其中,第一指標是用于表征推送待篩選文本所產生影響價值的指標;第二確定模塊,用于當變化幅度滿足預設條件時,根據至少一個第一指標的指標值在目標時間段內的變化幅度,確定待篩選文本的第二指標的指標值,其中,第二指標是用于表征推送待篩選文本所產生時效價值的指標;第三確定模塊,用于當待篩選文本的第二指標的指標值大于閾值時,將待篩選文本確定為目標文本,其中,目標文本為需要進行推送的文本。
9、第三方面,本公開提供了一種計算機設備,包括:存儲器和處理器,存儲器和處理器之間互相通信連接,存儲器中存儲有計算機指令,處理器通過執行計算機指令,從而執行上述第一方面或其對應的任一實施方式的文本篩選方法。
10、第四方面,本公開提供了一種計算機可讀存儲介質,該計算機可讀存儲介質上存儲有計算機指令,計算機指令用于使計算機執行上述第一方面或其對應的任一實施方式的文本篩選方法。
11、第五方面,本公開提供了一種計算機程序產品,包括計算機指令,計算機指令用于使計算機執行上述第一方面或其對應的任一實施方式的文本篩選方法。
12、本公開實施例提供的文本篩選方法,當與車輛相關的待篩選文本的至少一個第一指標的指標值在目標時間段內的變化幅度滿足預設條件時,根據至少一個第一指標的指標值在目標時間段內的變化幅度,確定該變化幅度對應的待篩選文本的第二指標的指標值,根據待篩選文本的第二指標的指標值確定目標文本。一方面,通過智能化的文本篩選避免了人工易受到主觀因素的影響,導致無法準確篩選相關行業的文本的問題,另一方面,考慮了通過固定指標值確定目標文本的方式,沒有考慮指標的指標值的動態變化,通過第一指標的指標值在目標時間段內的變化幅度,確定待篩選文本的第二指標的指標值,能夠根據指標的指標值的動態變化,更準確地確定目標文本。
1.一種文本篩選方法,其特征在于,所述方法包括:
2.根據權利要求1所述的文本篩選方法,其特征在于,所述根據所述至少一個第一指標的指標值在目標時間段內的變化幅度,確定所述待篩選文本的第二指標的指標值包括:
3.根據權利要求1所述的文本篩選方法,其特征在于,待篩選文本是通過待篩選文本對應的原始文本進行處理得到的,所述方法還包括:
4.根據權利要求1所述的文本篩選方法,其特征在于,原始文本來自目標網站;所述方法還包括:
5.根據權利要求1所述的文本篩選方法,其特征在于,根據所述至少一個第一指標的指標值在目標時間段內的變化幅度,確定所述待篩選文本的第二指標的指標值,包括:
6.根據權利要求1-5中任一項所述的文本篩選方法,其特征在于,在當所述待篩選文本的第二指標的指標值大于閾值時,將所述待篩選文本確定為目標文本之后,所述方法還包括:
7.一種文本篩選裝置,其特征在于,所述裝置包括:
8.一種計算機設備,其特征在于,包括:
9.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲有計算機指令,所述計算機指令用于使計算機執行權利要求1至6中任一項所述的文本篩選方法。
10.一種計算機程序產品,其特征在于,包括計算機指令,所述計算機指令用于使計算機執行權利要求1至6中任一項所述的文本篩選方法。