本申請涉及數(shù)據(jù)處理,尤其涉及一種模型訓(xùn)練方法、設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、在城市治理等場景中,考慮到網(wǎng)絡(luò)帶寬及計算實(shí)時性等需求,通常會將計算任務(wù)部署在邊緣節(jié)點(diǎn),也即是,依賴邊緣計算技術(shù)來完成場景中的計算任務(wù)。
2、而由于邊緣節(jié)點(diǎn)的算力有限,難以承載如transformer為代表的各類大模型,而不得不在邊緣節(jié)點(diǎn)上引入更加輕量的小模型來執(zhí)行計算任務(wù)。
3、因此,如何優(yōu)化這些輕量型或中量型模型的性能成為亟需解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、本申請的多個方面提供一種模型訓(xùn)練方法、設(shè)備及存儲介質(zhì),用以優(yōu)化模型性能。
2、本申請實(shí)施例提供一種模型訓(xùn)練方法,包括:
3、響應(yīng)于針對第一模型的預(yù)訓(xùn)練指令,獲取訓(xùn)練樣本集,所述訓(xùn)練樣本集中的訓(xùn)練樣本未攜帶標(biāo)簽;
4、將所述未攜帶標(biāo)簽的訓(xùn)練樣本分別輸入所述第一模型和第二模型,所述第二模型采用已完成預(yù)訓(xùn)練的模型,所述第二模型的規(guī)模大于所述第一模型的規(guī)模;
5、從所述第一模型和所述第二模型中分別提取輸出特征和中間層特征;
6、將所述第二模型的輸出特征和中間層特征作為所述第一模型的優(yōu)化目標(biāo),以利用所述未攜帶標(biāo)簽的訓(xùn)練樣本對所述第一模型進(jìn)行無監(jiān)督預(yù)訓(xùn)練。
7、本申請實(shí)施例還提供一種計算設(shè)備,包括存儲器、處理器和通信組件;
8、所述存儲器用于存儲一條或多條計算機(jī)指令;
9、所述處理器與所述存儲器和所述通信組件耦合,用于執(zhí)行所述一條或多條計算機(jī)指令,以用于執(zhí)行前述的模型訓(xùn)練方法。
10、本申請實(shí)施例還提供一種存儲計算機(jī)指令的計算機(jī)可讀存儲介質(zhì),當(dāng)所述計算機(jī)指令被一個或多個處理器執(zhí)行時,致使所述一個或多個處理器執(zhí)行前述的模型訓(xùn)練方法。
11、在本申請實(shí)施例中,在對模型進(jìn)行訓(xùn)練的過程中,一方面,可完全依賴未攜帶標(biāo)簽的訓(xùn)練樣本,這樣,可借助海量的無標(biāo)簽數(shù)據(jù)支持對模型進(jìn)行無監(jiān)督預(yù)訓(xùn)練;另一方面,還可引入已完成預(yù)訓(xùn)練的且比待訓(xùn)練模型規(guī)模更大的模型作為參考,將未攜帶標(biāo)簽的訓(xùn)練樣本同時輸入待訓(xùn)練模型和引入的更大規(guī)模的模型,并從兩個模型中分別提取輸出特征和中間層特征,基于此,可以更大規(guī)模的模型的輸出特征和中間層特征作為優(yōu)化目標(biāo),實(shí)施前述的無監(jiān)督預(yù)訓(xùn)練。這樣,可支持按照無監(jiān)督的方式對模型進(jìn)行預(yù)訓(xùn)練,這可在標(biāo)簽稀缺的場景中,有效提高模型的知識豐富度,顯著提高模型的泛化能力,而且,通過引入更大規(guī)模的模型作為參考,可使得待訓(xùn)練模型能夠得到同參考的模型相近的基線性能,提高模型的開箱準(zhǔn)確率,進(jìn)而可有效優(yōu)化模型性能。
1.一種模型訓(xùn)練方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,將所述第二模型的輸出特征和中間層特征作為所述第一模型的優(yōu)化目標(biāo),包括:
3.根據(jù)權(quán)利要求1或2任一項(xiàng)所述的方法,其特征在于,從所述第一模型和所述第二模型中分別提取輸出特征,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,基于所述物體框向量和所述前景分?jǐn)?shù),構(gòu)建所述輸出特征,包括:
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,評估所述第一模型相對于所述第一模型的輸出特征損失和中間層特征損失,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,對所述第二模型和所述第一模型針對同一訓(xùn)練樣本所產(chǎn)生的輸出結(jié)果中的物體框進(jìn)行配對,以確定出符合預(yù)置配對要求的物體框?qū)?,包括?/p>
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,從所述第一模型和所述第二模型中分別提取中間層特征,包括:
8.根據(jù)權(quán)利要求1或7任一項(xiàng)所述的方法,其特征在于,從所述第一模型和所述第二模型中分別提取中間層特征,包括:
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述下游任務(wù)包括目標(biāo)檢測任務(wù)、圖像分類任務(wù)或語義分割任務(wù)中的一種或多種。
11.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:
12.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述第二模型采用與所述第一模型所需的基礎(chǔ)功能相匹配的大模型。
13.一種計算設(shè)備,其特征在于,包括存儲器、處理器和通信組件;
14.一種存儲計算機(jī)指令的計算機(jī)可讀存儲介質(zhì),其特征在于,當(dāng)所述計算機(jī)指令被一個或多個處理器執(zhí)行時,致使所述一個或多個處理器執(zhí)行權(quán)利要求1-12任一項(xiàng)所述的模型訓(xùn)練方法。