本發(fā)明涉及貨運(yùn)周轉(zhuǎn)量預(yù)測(cè),具體為基于vmd和隨機(jī)森林的貨運(yùn)周轉(zhuǎn)量預(yù)測(cè)方法及裝置。
背景技術(shù):
1、貨運(yùn)周轉(zhuǎn)量是指在單位時(shí)間內(nèi)某一物流節(jié)點(diǎn)內(nèi),所有貨物進(jìn)出口的總重量,即貨物在該節(jié)點(diǎn)內(nèi)的流動(dòng)量。貨運(yùn)周轉(zhuǎn)量是衡量物流節(jié)點(diǎn)運(yùn)營能力的重要指標(biāo),對(duì)于物流運(yùn)營和管理具有重要意義。對(duì)貨運(yùn)周轉(zhuǎn)量進(jìn)行預(yù)測(cè)可以提高物流運(yùn)營效率,減少物流成本,從而提高企業(yè)的經(jīng)濟(jì)效益,同時(shí)也能提升客戶的滿意度。
2、現(xiàn)有技術(shù)(“基于變分模態(tài)分解和隨機(jī)森林算法的貨運(yùn)周轉(zhuǎn)量預(yù)測(cè)方法”,《中國儲(chǔ)運(yùn)》,丁毅等著,202304)公開了一種通過變分模態(tài)分解對(duì)時(shí)序數(shù)列降噪、利用隨機(jī)森林算法進(jìn)行預(yù)測(cè)的貨運(yùn)周轉(zhuǎn)量預(yù)測(cè)方法。由于貨物周轉(zhuǎn)量作為典型的非線性時(shí)序數(shù)據(jù),波動(dòng)性較強(qiáng),噪聲較多,直接對(duì)其進(jìn)行預(yù)測(cè)較為困難,需要先采用如vmd模型的多尺度分解方法將時(shí)序信號(hào)分解成若干平穩(wěn)、有規(guī)律的子序列。vmd模型可以處理非線性和非平穩(wěn)信號(hào),能夠提取信號(hào)中的不同頻率成分。由于vmd模型分解出的子序列有明確的數(shù)學(xué)解釋并清晰的獲取信號(hào)的含義,可以直接對(duì)子序列逐一預(yù)測(cè)并疊加,得到最終預(yù)測(cè)結(jié)果。然而常規(guī)的方法是采用多次實(shí)驗(yàn)來得到子序列的個(gè)數(shù),即vmd模型的正則化參數(shù),這種重復(fù)訓(xùn)練的方式不僅計(jì)算復(fù)雜且耗時(shí)長。同時(shí),直接采用子序列預(yù)測(cè)值進(jìn)行累加獲得的最終預(yù)測(cè)結(jié)果不夠準(zhǔn)確。
3、隨機(jī)森林算法具有準(zhǔn)確性高、可以處理高維度數(shù)據(jù)的多種優(yōu)勢(shì),然而由于無法控制模型的內(nèi)部運(yùn)行,對(duì)于超參數(shù)的選擇只能不斷嘗試不同組合,具有耗時(shí)過長的問題。
4、為了解決貨運(yùn)周轉(zhuǎn)量預(yù)測(cè)結(jié)果不夠準(zhǔn)確的問題,提出基于vmd和隨機(jī)森林的貨運(yùn)周轉(zhuǎn)量預(yù)測(cè)方法及裝置。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于vmd和隨機(jī)森林的貨運(yùn)周轉(zhuǎn)量預(yù)測(cè)方法,以解決上述技術(shù)問題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
3、基于vmd和隨機(jī)森林的貨運(yùn)周轉(zhuǎn)量預(yù)測(cè)方法,其特征在于,包括:
4、s1.利用第一改進(jìn)型vmd模型將貨運(yùn)周轉(zhuǎn)量數(shù)據(jù)集分解為k1個(gè)貨量數(shù)據(jù)組s11.利用平衡優(yōu)化器算法預(yù)測(cè)vmd模型的正則化參數(shù)k1,從而構(gòu)建所述第一改進(jìn)型vmd模型;所述貨運(yùn)周轉(zhuǎn)量數(shù)據(jù)集為各種運(yùn)輸工具的貨運(yùn)周轉(zhuǎn)量累計(jì)數(shù)的數(shù)據(jù)集,所述累計(jì)數(shù)的公式如下
5、
6、其中,c為一種運(yùn)輸工具的貨運(yùn)周轉(zhuǎn)量累計(jì)數(shù);mi為所述一種運(yùn)輸工具運(yùn)輸?shù)牡趇批貨物的質(zhì)量;si為所述第i批貨物的運(yùn)輸距離;用所述貨運(yùn)周轉(zhuǎn)量數(shù)據(jù)集訓(xùn)練所述平衡優(yōu)化算法,獲取所述k1的取值;s12.用所述貨運(yùn)周轉(zhuǎn)量數(shù)據(jù)集訓(xùn)練所述第一改進(jìn)型vmd模型;進(jìn)一步地,vmd模型為變分模態(tài)分解模型,所述變分模態(tài)分解模型根據(jù)分量窄帶條件建立約束優(yōu)化問題,從而估計(jì)信號(hào)分量的中心頻率以及重構(gòu)相應(yīng)分量。
7、進(jìn)一步地,所述平衡優(yōu)化器算法基于以下公式展開迭代尋優(yōu)
8、
9、其中k為k1或k2,k0為上一次迭代k的解,keq為當(dāng)前的最優(yōu)解,f為指數(shù)項(xiàng)系數(shù),λ為隨機(jī)數(shù)向量,v為控制量,g為生成速率;
10、s110.所述平衡優(yōu)化器算法在k的上下限范圍內(nèi)進(jìn)行隨機(jī)初始化,如下
11、
12、其中為k的初始化取值;kmin為所述k的下限向量;kmax為所述k的上限向量;γi為第i個(gè)隨機(jī)數(shù)向量;
13、s120.從最優(yōu)候選解中選取平衡狀態(tài),所述最優(yōu)候選解構(gòu)成平衡狀態(tài)池,如下
14、keq,pool={keq,1,keq,2,keq,3,keq,4,keq,avg}
15、p(keq,1)=p(keq,2)=p(keq,3)=p(keq,4)=p(keq,avg)=0.2
16、其中keq,1,keq,2,keq,3,keq,4分別為當(dāng)前迭代的四個(gè)最優(yōu)解;keq,avg為所述四個(gè)最優(yōu)解的平均狀態(tài);五個(gè)解被選中的概率均為0.2;
17、s130.改進(jìn)所述指數(shù)項(xiàng)系數(shù)平衡所述平衡優(yōu)化器算法的局部搜索和全局搜索,公式如下
18、f=α*sign(γ-0.5)(e-λt-1)
19、其中α為全局搜索的權(quán)重常系數(shù)的取值;sign為符號(hào)函數(shù);γ和λ為隨機(jī)數(shù)向量,為0和1之間的隨機(jī)數(shù),所述隨機(jī)數(shù)向量維度和優(yōu)化空間維度一致;
20、s140.計(jì)算生成速率以加強(qiáng)所述平衡優(yōu)化器算法的局部尋優(yōu)能力,如下,
21、g=gkp(keq-λk)
22、
23、其中g(shù)kp為所述生成速率的控制參數(shù)向量;
24、s150.更新解,公式如下
25、
26、s160.判斷是否滿足停止條件,滿足則輸出結(jié)果,不滿足重復(fù)s120~s150。
27、s2.利用第二改進(jìn)型vmd模型將每個(gè)所述貨量數(shù)據(jù)組分解為k2個(gè)子序列;
28、s21.用所述貨量數(shù)據(jù)組訓(xùn)練所述平衡優(yōu)化算法,獲取所述k2的取值,從而構(gòu)建第二改進(jìn)型vmd模型。
29、s211.將所述貨運(yùn)周轉(zhuǎn)量數(shù)據(jù)集分解為具有中心頻率的有限帶寬的所述子序列,每個(gè)所述子序列的估計(jì)帶寬之和最小,約束條件為所有所述子序列的和與所述貨運(yùn)周轉(zhuǎn)量數(shù)據(jù)集相等。
30、進(jìn)一步地,所述約束條件表達(dá)式為
31、
32、其中{uk},{wk}分別對(duì)應(yīng)分解后第k個(gè)所述子序列分量和所述中心頻率;*為卷積運(yùn)算符;δ(t)為狄拉克函數(shù)。
33、s212.引入拉格朗日乘法算子λ轉(zhuǎn)為非約束問題;通過加入所述拉格朗日乘法算子λ和一個(gè)二次懲罰因子,代入約束條件表達(dá)式,得到新的無約束優(yōu)化式,即拉格朗日函數(shù)表達(dá)式。
34、進(jìn)一步地,所述拉格朗日函數(shù)表達(dá)式公式如下
35、
36、其中β為所述二次懲罰因子。
37、進(jìn)一步地,所述約束條件即,如果需要最小化或最大化目標(biāo)函數(shù),變量必須滿足一些限制。例如,在支持向量機(jī)中,如果需要最大化間隔,但是分類器必須滿足一些約束條件,如函數(shù)間隔不小于1和樣本點(diǎn)與分類面的距離之和最小等。
38、s213.利用admm交替方向乘子法求解所述約束問題;所述admm交替方向乘子法通過固定所述拉格朗日函數(shù)表達(dá)式中包含的{uk},{wk},λ三個(gè)變量中的任意兩個(gè),更新未被固定的變量。
39、進(jìn)一步地,所述三個(gè)變量的更新值分別為λn+1,公式如下
40、
41、
42、
43、通過將所述三個(gè)變量的公式代入所述拉格朗日函數(shù)表達(dá)式,求解更新的變量。
44、s22.用所述貨量數(shù)據(jù)組訓(xùn)練所述第二改進(jìn)型vmd模型。
45、進(jìn)一步地,將k1個(gè)所述貨量數(shù)據(jù)組分別帶入所述第二改進(jìn)型vmd模型,每個(gè)所述貨量數(shù)據(jù)組被分為k2個(gè)所述子序列,共計(jì)k1×k2個(gè)所述子序列。
46、s3.利用代價(jià)敏感學(xué)習(xí)模型優(yōu)化超參數(shù),獲得改進(jìn)型隨機(jī)森林模型。
47、進(jìn)一步地,所述代價(jià)敏感學(xué)習(xí)模型不再使用損失函數(shù),轉(zhuǎn)為使用誤分類成本使條件風(fēng)險(xiǎn)最小化;通過建立cost矩陣,為不同類型的錯(cuò)誤分配不同類型的代價(jià),使得在分類時(shí),高代價(jià)錯(cuò)誤的數(shù)量和所述高代價(jià)錯(cuò)誤的代價(jià)總和最小;所述代價(jià)敏感學(xué)習(xí)模型通過對(duì)隨機(jī)森林模型進(jìn)行剪枝使得損失最小化,獲得所述改進(jìn)型隨機(jī)森林模型。
48、進(jìn)一步地,所述cost矩陣用于描述決策錯(cuò)誤或分類錯(cuò)誤的代價(jià)。在二元分類問題中,通常將預(yù)測(cè)結(jié)果分為真陽性、假陽性、真陰性和假陰性四種情況。所述cost矩陣將這四種情況的代價(jià)以矩陣的形式展現(xiàn)出來。一般地,所述cost矩陣的行表示實(shí)際情況,列表示預(yù)測(cè)結(jié)果,其中每個(gè)元素表示對(duì)應(yīng)的代價(jià)。
49、進(jìn)一步地,所述隨機(jī)森林模型集成多個(gè)決策樹模型的預(yù)測(cè)結(jié)果;通過bagging思想,利用求平均值的方式整合所述多個(gè)決策樹的重要特征和預(yù)測(cè)結(jié)果。
50、進(jìn)一步地,所述決策樹模型是一種基于樹形結(jié)構(gòu)的分類和回歸模型,通過在數(shù)據(jù)集中遞歸的進(jìn)行二分操作,構(gòu)建樹。所述樹的每一個(gè)內(nèi)部節(jié)點(diǎn)對(duì)應(yīng)一個(gè)特征,每一片葉子對(duì)應(yīng)一個(gè)類別標(biāo)簽或數(shù)值。
51、進(jìn)一步地,所述剪枝為尋找最優(yōu)的超參數(shù)組合,去除不必要的參數(shù)擬合過程。所述超參數(shù)組合包括所述決策樹的數(shù)量、每棵所述決策樹的最大深度和特征子集的大小。
52、s4.利用k1×k2個(gè)所述子序列分別訓(xùn)練所述改進(jìn)型隨機(jī)森林模型。
53、進(jìn)一步地,將所述子序列分別分為訓(xùn)練集和測(cè)試集,訓(xùn)練所述改進(jìn)型隨機(jī)森林模型,獲得k1×k2個(gè)訓(xùn)練結(jié)果。
54、s5.集合k1×k2個(gè)所述子序列的訓(xùn)練結(jié)果作為預(yù)測(cè)結(jié)果;采用熵值法分別計(jì)算k1個(gè)所述貨量數(shù)據(jù)組和k1×k2個(gè)所述子序列的權(quán)重。
55、進(jìn)一步地,根據(jù)以下公式集合k1×k2個(gè)所述子序列的訓(xùn)練結(jié)果
56、
57、
58、其中pi,j為第j個(gè)所述貨量數(shù)據(jù)組中包含的第i個(gè)所述子序列訓(xùn)練所述改進(jìn)型隨機(jī)森林模型的結(jié)果;pj為第j個(gè)所述貨量數(shù)據(jù)組的預(yù)測(cè)結(jié)果;wi,j為利用所述熵值法獲得的第j個(gè)所述貨量數(shù)據(jù)組中包含的第i個(gè)所述子序列的權(quán)重;vj為利用所述熵值法獲得的第j個(gè)所述貨量數(shù)據(jù)組的權(quán)重。
59、進(jìn)一步地,所述熵值法通過數(shù)據(jù)攜帶的信息量大小,即熵值,進(jìn)行權(quán)重計(jì)算;所述信息量越大,不確定性越小,所述熵值越小。
60、進(jìn)一步地,通過所述熵值法計(jì)算一個(gè)所述貨量數(shù)據(jù)組中的每個(gè)所述子序列的所述權(quán)重,重復(fù)k1次,獲得k1個(gè)所述貨量數(shù)據(jù)組中的每個(gè)所述子序列的所述權(quán)重;通過所述熵值法計(jì)算所述貨運(yùn)周轉(zhuǎn)量數(shù)據(jù)集中每個(gè)所述貨量數(shù)據(jù)組的所述權(quán)重。
61、基于vmd和隨機(jī)森林的貨運(yùn)周轉(zhuǎn)量預(yù)測(cè)裝置,其特征在于:
62、第一優(yōu)化模塊,用于利用平衡優(yōu)化器算法預(yù)測(cè)參數(shù)k1,獲得第一改進(jìn)型vmd模型;
63、分解模塊,用于利用所述第一改進(jìn)型vmd模型和第二改進(jìn)型vmd模型將貨運(yùn)周轉(zhuǎn)量數(shù)據(jù)集分解為k1×k2個(gè)子序列;
64、第二優(yōu)化模塊,用于利用代價(jià)敏感學(xué)習(xí)模型優(yōu)化超參數(shù),獲得改進(jìn)型隨機(jī)森林模型;
65、訓(xùn)練模塊,用于利用k1×k2個(gè)所述子序列分別訓(xùn)練所述隨機(jī)森林模型;
66、集合模塊,用于集合k1×k2個(gè)所述子序列的訓(xùn)練結(jié)果作為預(yù)測(cè)結(jié)果。
67、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:
68、1、k值為vmd模型的正則化參數(shù),較大的k值可以提高分解的精度和信噪比,但會(huì)導(dǎo)致帶寬變窄,從而丟失一部分重要的信息;較小的k值會(huì)導(dǎo)致帶寬變寬,從而引入一些噪聲和不必要的信號(hào)分量。k的取值因此變成構(gòu)建vmd模型的重要因素。常規(guī)方法取多個(gè)k值代入vmd模型,重復(fù)訓(xùn)練,對(duì)比多個(gè)k值分別對(duì)應(yīng)的精確度,需要耗費(fèi)大量時(shí)間,計(jì)算難度高。平衡優(yōu)化器算法通過在優(yōu)化變量的上下限范圍內(nèi)多次迭代尋優(yōu),獲取vmd模型的k值,通過固定k值獲得改進(jìn)型vmd模型,減少計(jì)算時(shí)間,提高計(jì)算精度。
69、2、隨機(jī)森林模型集成多棵決策樹,每棵決策樹的數(shù)量、深度和特征子集的大小等超參數(shù)都會(huì)直接影響到隨機(jī)森林模型的性能和泛化能力。其中,決策樹基于隨機(jī)選擇的樣本和特征進(jìn)行訓(xùn)練,具有一定的隨機(jī)性,缺乏穩(wěn)定性。通過代價(jià)敏感學(xué)習(xí)模型構(gòu)建隨機(jī)森林模型的cost矩陣,獲取最優(yōu)超參數(shù)組合,可以提高模型的性能和泛化能力,減少模型的方差和不確定性。
70、3、完成模型訓(xùn)練后,直接對(duì)所有貨量數(shù)據(jù)組的結(jié)果求和會(huì)導(dǎo)致貨運(yùn)周轉(zhuǎn)量預(yù)測(cè)結(jié)果不夠準(zhǔn)確的問題。二次代入改進(jìn)型vmd模型,將每個(gè)貨量數(shù)據(jù)組再分為多個(gè)子序列,并利用熵值法獲得子序列和貨量數(shù)據(jù)組的權(quán)重,兩次疊加使用權(quán)重求和的方式,可以提高預(yù)測(cè)結(jié)果的準(zhǔn)確性。