本公開涉及模型推理,尤其涉及一種推理仿真模型的構(gòu)建方法、數(shù)據(jù)處理方法及相關(guān)產(chǎn)品。
背景技術(shù):
1、隨著人工智能技術(shù)的快速發(fā)展,大規(guī)模語(yǔ)言模型在自然語(yǔ)言處理任務(wù)中展現(xiàn)出卓越性能。然而,該大規(guī)模語(yǔ)言模型通常包含大量的模型參數(shù),這對(duì)運(yùn)行該大規(guī)模語(yǔ)言模型的硬件設(shè)備的計(jì)算資源和存儲(chǔ)資源等資源都提出了嚴(yán)格要求。因此,在實(shí)際部署大規(guī)模語(yǔ)言模型的過程中,如何準(zhǔn)確評(píng)估和優(yōu)化大規(guī)模語(yǔ)言模型在特定硬件配置下的推理性能至關(guān)重要。
技術(shù)實(shí)現(xiàn)思路
1、本公開提供了一種推理仿真模型的構(gòu)建方法、數(shù)據(jù)處理方法及相關(guān)產(chǎn)品,以至少解決現(xiàn)有技術(shù)中存在的以上技術(shù)問題。
2、第一方面,本公開實(shí)施例提供了一種推理仿真模型的構(gòu)建方法,該方法包括:
3、獲取待部署模型中多個(gè)算子單元分別在模型推理階段所需的算子運(yùn)行資源;
4、獲取目標(biāo)圖形處理器gpu的硬件性能基線;
5、確定待部署模型在目標(biāo)并行策略下的性能折扣因子,性能折扣因子基于目標(biāo)gpu對(duì)應(yīng)的硬件固定折扣和算子資源折扣的乘積確定,硬件固定折扣表征目標(biāo)gpu的固有性能損失,算子資源折扣表征算子單元的性能折扣程度;
6、基于多個(gè)算子單元分別在模型推理階段所需的算子運(yùn)行資源、硬件性能基線與性能折扣因子,構(gòu)建得到用于評(píng)估待部署模型的推理性能的推理仿真模型。
7、第二方面,本公開實(shí)施例提供了一種數(shù)據(jù)處理方法,該方法包括:
8、獲取待處理數(shù)據(jù),待處理數(shù)據(jù)包括目標(biāo)部署模型的算子資源參數(shù)、目標(biāo)推理場(chǎng)景數(shù)據(jù)以及用于部署目標(biāo)部署模型的實(shí)際圖形處理器gpu的硬件配置信息;
9、利用第一方面提供的方法步驟構(gòu)建得到的推理仿真模型對(duì)待處理數(shù)據(jù)進(jìn)行處理,得到推理仿真模型的輸出結(jié)果,輸出結(jié)果包括推理首字延遲、端到端推理吞吐量以及模型并行策略,輸出結(jié)果用于表征目標(biāo)部署模型在目標(biāo)場(chǎng)景下的推理性能,目標(biāo)場(chǎng)景基于目標(biāo)推理場(chǎng)景數(shù)據(jù)和實(shí)際gpu的硬件配置信息確定。
10、第三方面,本公開實(shí)施例提供了一種推理仿真模型的構(gòu)建裝置,該裝置包括:
11、獲取模塊,用于獲取待部署模型中多個(gè)算子單元分別在模型推理階段所需的算子運(yùn)行資源;
12、獲取模塊,還用于獲取目標(biāo)圖形處理器gpu的硬件性能基線;
13、確定模塊,還用于確定待部署模型在目標(biāo)并行策略下的性能折扣因子,性能折扣因子基于目標(biāo)gpu對(duì)應(yīng)的硬件固定折扣和算子資源折扣的乘積確定,硬件固定折扣表征目標(biāo)gpu的固有性能損失,算子資源折扣表征算子單元的性能折扣程度;
14、構(gòu)建模塊,用于基于多個(gè)算子單元分別在模型推理階段所需的算子運(yùn)行資源、硬件性能基線與性能折扣因子,構(gòu)建得到用于評(píng)估待部署模型的推理性能的推理仿真模型。
15、第四方面,本公開實(shí)施例提供了一種數(shù)據(jù)處理裝置,該裝置包括:
16、獲取模塊,用于獲取待處理數(shù)據(jù),待處理數(shù)據(jù)包括目標(biāo)部署模型的算子資源參數(shù)、目標(biāo)推理場(chǎng)景數(shù)據(jù)以及用于部署目標(biāo)部署模型的實(shí)際圖形處理器gpu的硬件配置信息;
17、處理模塊,用于利用第一方面提供的方法步驟構(gòu)建得到的推理仿真模型對(duì)待處理數(shù)據(jù)進(jìn)行處理,得到推理仿真模型的輸出結(jié)果,輸出結(jié)果包括推理首字延遲、端到端推理吞吐量以及模型并行策略,輸出結(jié)果用于表征目標(biāo)部署模型在目標(biāo)場(chǎng)景下的推理性能,目標(biāo)場(chǎng)景基于目標(biāo)推理場(chǎng)景數(shù)據(jù)和實(shí)際gpu的硬件配置信息確定。
18、第五方面,本公開實(shí)施例提供了一種電子設(shè)備,包括:至少一個(gè)處理器;以及,與至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,存儲(chǔ)器存儲(chǔ)有可被至少一個(gè)處理器執(zhí)行的指令,指令被至少一個(gè)處理器執(zhí)行,以使至少一個(gè)處理器能夠執(zhí)行第一方面提供的推理仿真模型的構(gòu)建方法或第二方面的數(shù)據(jù)處理方法。
19、第六方面,本公開實(shí)施例提供了一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)指令用于使計(jì)算機(jī)執(zhí)行根據(jù)第一方面提供的推理仿真模型的構(gòu)建方法或第二方面的數(shù)據(jù)處理方法。
20、基于本公開實(shí)施例提供的推理仿真模型的構(gòu)建方法,通過獲取的算子單元在模型推理階段的算子運(yùn)行資源、目標(biāo)gpu的硬件性能基線,以及目標(biāo)并行策略下的性能折扣因子,能夠高精度地構(gòu)建推理仿真模型。由于算子運(yùn)行資源能夠從算子粒度反映待部署模型在整個(gè)模型推理過程中的所需資源,而硬件性能基線則量化了不同gpu在計(jì)算能力、存儲(chǔ)帶寬等顯性參數(shù)上的差異,另外,性能折扣因子不僅有效反映模型部署前后的實(shí)際性能與估計(jì)性能之間的折扣程度,還能夠通過其中的硬件固定折扣進(jìn)一步反應(yīng)不同gpu在隱性參數(shù)層面造成的額外性能損耗。如此,基于算子單元在模型推理階段的算子運(yùn)行資源、目標(biāo)gpu的硬件性能基線,以及目標(biāo)并行策略下的性能折扣因子能夠準(zhǔn)確構(gòu)建得到推理仿真模型,從而能夠利用該推理仿真模型準(zhǔn)確評(píng)估待部署模型的推理性能。
21、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識(shí)本公開的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
1.一種推理仿真模型的構(gòu)建方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取待部署模型中多個(gè)算子單元分別在模型推理階段所需的算子運(yùn)行資源,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述模型推理階段包括預(yù)填充階段和解碼階段,所述算子單元對(duì)應(yīng)的資源計(jì)算模型包括所述算子單元在預(yù)填充階段的第一資源計(jì)算模型以及所述算子單元在解碼階段的第二資源計(jì)算模型;
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述算子運(yùn)行資源基于張量并行變量和數(shù)據(jù)并行變量確定,所述算子運(yùn)行資源包括算子訪存需求資源和算子通信需求資源中的至少一個(gè);
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定所述待部署模型在目標(biāo)并行策略下的性能折扣因子,包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述多個(gè)算子單元分別在模型推理階段所需的算子運(yùn)行資源、所述硬件性能基線與所述性能折扣因子,構(gòu)建得到用于評(píng)估所述待部署模型的推理性能的推理仿真模型,包括:
7.根據(jù)權(quán)利要求1或6所述的方法,其特征在于,所述方法還包括:
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,性能數(shù)據(jù)包括首字延遲和端到端吞吐量中的至少一個(gè);所述在基于所述實(shí)測(cè)性能數(shù)據(jù)與所述預(yù)測(cè)性能數(shù)據(jù)確定的誤差信息不滿足預(yù)設(shè)條件的情況下,更新所述性能折扣因子之前,所述方法還包括:
9.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述更新所述性能折扣因子,包括:
10.一種數(shù)據(jù)處理方法,其特征在于,所述方法包括:
11.一種推理仿真模型的構(gòu)建裝置,其特征在于,所述裝置包括:
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述裝置包括:
13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述模型推理階段包括預(yù)填充階段和解碼階段,所述算子單元對(duì)應(yīng)的資源計(jì)算模型包括所述算子單元在預(yù)填充階段的第一資源計(jì)算模型以及所述算子單元在解碼階段的第二資源計(jì)算模型;所述裝置包括:
14.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述算子運(yùn)行資源基于張量并行變量和數(shù)據(jù)并行變量確定,所述算子運(yùn)行資源至少包括算子訪存需求資源和算子通信需求資源中的至少一個(gè);所述裝置包括:
15.一種數(shù)據(jù)處理裝置,其特征在于,所述裝置包括: