本申請(qǐng)涉及自然語(yǔ)言處理及深度學(xué)習(xí),尤其涉及一種語(yǔ)言模型的訓(xùn)練及數(shù)據(jù)處理方法、裝置、設(shè)備及介質(zhì)。
背景技術(shù):
1、在自然語(yǔ)言處理(natural?language?processing,nlp)領(lǐng)域,預(yù)訓(xùn)練語(yǔ)言模型(pre-trained?language?models,plms)的興起標(biāo)志著該領(lǐng)域的一次重大飛躍。這些模型通過(guò)在大規(guī)模、多樣化的語(yǔ)料庫(kù)(corpus)上進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練(unsupervised?pre-training),成功捕捉到了語(yǔ)言的深層次特征和上下文理解能力。預(yù)訓(xùn)練過(guò)程使得模型能夠?qū)W習(xí)到豐富的語(yǔ)言表示(language?representation),為后續(xù)的具體任務(wù)提供了堅(jiān)實(shí)的基礎(chǔ)。
2、隨著技術(shù)的不斷發(fā)展,特別是在chatgpt等先進(jìn)模型的推動(dòng)下,nlp領(lǐng)域?qū)︻A(yù)訓(xùn)練語(yǔ)言模型的微調(diào)技術(shù)(fine-tuning?technique)進(jìn)行了深入研究。其中,監(jiān)督微調(diào)(supervised?fine-tuning)和增量微調(diào)(incremental?fine-tuning)是兩種常見(jiàn)的微調(diào)方法。監(jiān)督微調(diào)方法通過(guò)在大規(guī)模、多任務(wù)數(shù)據(jù)集(multi-task?dataset)上對(duì)預(yù)訓(xùn)練模型進(jìn)行進(jìn)一步的訓(xùn)練,旨在提升模型在各種任務(wù)上的綜合能力。這種方法雖然在一定程度上取得了成功,但其高昂的計(jì)算成本(computational?cost)和時(shí)間消耗成為了實(shí)際應(yīng)用中的一大障礙。此外,監(jiān)督微調(diào)方法往往難以在特定領(lǐng)域(specific?domain)或任務(wù)(task)上達(dá)到最佳性能,限制了模型的靈活性和適應(yīng)性。
3、為了克服監(jiān)督微調(diào)的局限性,增量微調(diào)方法應(yīng)運(yùn)而生。該方法通過(guò)引入少量的數(shù)據(jù)和計(jì)算資源,對(duì)預(yù)訓(xùn)練模型進(jìn)行針對(duì)性領(lǐng)域或任務(wù)適配性微調(diào),從而顯著提高模型在下游任務(wù)(downstream?task)上的表現(xiàn)。增量微調(diào)方法不僅降低了計(jì)算成本,還提高了模型的靈活性和適應(yīng)性,使其能夠更好地適應(yīng)各種實(shí)際應(yīng)用場(chǎng)景。
4、然而,增量微調(diào)方法也面臨著一個(gè)嚴(yán)峻的挑戰(zhàn):災(zāi)難性遺忘(catastrophicforgetting)。在增量微調(diào)過(guò)程中,模型在學(xué)習(xí)新任務(wù)時(shí),往往會(huì)忘記在預(yù)訓(xùn)練階段學(xué)到的知識(shí)。這種現(xiàn)象表現(xiàn)為模型在新任務(wù)上的性能得到提升的同時(shí),其在原有任務(wù)上的性能卻顯著下降。災(zāi)難性遺忘問(wèn)題嚴(yán)重限制了模型的多任務(wù)學(xué)習(xí)能力(multi-task?learningability),使得模型難以在多個(gè)任務(wù)之間保持良好的性能平衡。
5、因此,如何解決增量微調(diào)過(guò)程中的災(zāi)難性遺忘問(wèn)題,成為了當(dāng)前nlp領(lǐng)域亟待解決的關(guān)鍵技術(shù)難題。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)?zhí)峁┝艘环N語(yǔ)言模型的訓(xùn)練及數(shù)據(jù)處理方法、裝置、設(shè)備及介質(zhì),用于解決現(xiàn)有對(duì)語(yǔ)言模型進(jìn)行增量微調(diào)過(guò)程中,存在災(zāi)難性遺忘的問(wèn)題。
2、第一方面,本申請(qǐng)?zhí)峁┝艘环N語(yǔ)言模型的訓(xùn)練方法,所述方法包括:
3、獲取目標(biāo)業(yè)務(wù)樣本集;其中,所述目標(biāo)業(yè)務(wù)樣本集中包含有業(yè)務(wù)樣本及所述業(yè)務(wù)樣本在目標(biāo)業(yè)務(wù)下的期望輸出;
4、基于所述目標(biāo)業(yè)務(wù)樣本集,對(duì)預(yù)先訓(xùn)練的基礎(chǔ)語(yǔ)言模型進(jìn)行迭代微調(diào);其中,所述基礎(chǔ)語(yǔ)言模型為已具備自然語(yǔ)言理解能力的模型;
5、其中,在任一次迭代微調(diào)過(guò)程中:
6、針對(duì)任一業(yè)務(wù)樣本,通過(guò)當(dāng)前已微調(diào)的語(yǔ)言模型,獲取該業(yè)務(wù)樣本對(duì)應(yīng)的第一預(yù)測(cè)輸出及其對(duì)應(yīng)的第一概率分布,以及,通過(guò)所述基礎(chǔ)語(yǔ)言模型,獲取該業(yè)務(wù)樣本對(duì)應(yīng)的第二預(yù)測(cè)輸出及其對(duì)應(yīng)的第二概率分布;根據(jù)所述第一預(yù)測(cè)輸出、所述第一概率分布以及所述期望輸出,確定增量損失值;以及,根據(jù)所述第一預(yù)測(cè)輸出、所述第一概率分布、所述第二預(yù)測(cè)輸出以及所述第二概率分布,確定所述基礎(chǔ)語(yǔ)言模型與所述當(dāng)前已微調(diào)的語(yǔ)言模型之間的相對(duì)損失值;
7、基于各所述增量損失值以及各所述相對(duì)損失值,對(duì)所述當(dāng)前已微調(diào)的語(yǔ)言模型進(jìn)行微調(diào),以得到訓(xùn)練完成的支持所述目標(biāo)業(yè)務(wù)的語(yǔ)言模型。
8、第二方面,本申請(qǐng)還提供了一種基于上述所述模型的數(shù)據(jù)處理方法,所述方法包括:
9、獲取目標(biāo)業(yè)務(wù)的待處理業(yè)務(wù)數(shù)據(jù);
10、通過(guò)預(yù)先訓(xùn)練的支持所述目標(biāo)業(yè)務(wù)的語(yǔ)言模型,基于所述待處理業(yè)務(wù)數(shù)據(jù),獲取所述目標(biāo)業(yè)務(wù)的處理結(jié)果。
11、第三方面,本申請(qǐng)還提供了一種語(yǔ)言模型的訓(xùn)練裝置,所述裝置包括:
12、獲取模塊,用于獲取目標(biāo)業(yè)務(wù)樣本集;其中,所述目標(biāo)業(yè)務(wù)樣本集中包含有業(yè)務(wù)樣本及所述業(yè)務(wù)樣本在目標(biāo)業(yè)務(wù)下的期望輸出;
13、訓(xùn)練模塊,用于:
14、基于所述目標(biāo)業(yè)務(wù)樣本集,對(duì)預(yù)先訓(xùn)練的基礎(chǔ)語(yǔ)言模型進(jìn)行迭代微調(diào);其中,所述基礎(chǔ)語(yǔ)言模型為已具備自然語(yǔ)言理解能力的模型;
15、其中,在任一次迭代微調(diào)過(guò)程中:
16、針對(duì)任一業(yè)務(wù)樣本,通過(guò)當(dāng)前已微調(diào)的語(yǔ)言模型,獲取該業(yè)務(wù)樣本對(duì)應(yīng)的第一預(yù)測(cè)輸出及其對(duì)應(yīng)的第一概率分布,以及,通過(guò)所述基礎(chǔ)語(yǔ)言模型,獲取該業(yè)務(wù)樣本對(duì)應(yīng)的第二預(yù)測(cè)輸出及其對(duì)應(yīng)的第二概率分布;根據(jù)所述第一預(yù)測(cè)輸出、所述第一概率分布以及所述期望輸出,確定增量損失值;以及,根據(jù)所述第一預(yù)測(cè)輸出、所述第一概率分布、所述第二預(yù)測(cè)輸出以及所述第二概率分布,確定所述基礎(chǔ)語(yǔ)言模型與所述當(dāng)前已微調(diào)的語(yǔ)言模型之間的相對(duì)損失值;
17、基于各所述增量損失值以及各所述相對(duì)損失值,對(duì)所述當(dāng)前已微調(diào)的語(yǔ)言模型進(jìn)行微調(diào),以得到訓(xùn)練完成的支持所述目標(biāo)業(yè)務(wù)的語(yǔ)言模型。
18、第四方面,本申請(qǐng)還提供了一種基于上述所述模型的數(shù)據(jù)處理裝置,所述裝置包括:
19、獲取單元,用于獲取目標(biāo)業(yè)務(wù)的待處理業(yè)務(wù)數(shù)據(jù);
20、處理單元,用于通過(guò)預(yù)先訓(xùn)練的支持所述目標(biāo)業(yè)務(wù)的語(yǔ)言模型,基于所述待處理業(yè)務(wù)數(shù)據(jù),獲取所述目標(biāo)業(yè)務(wù)的處理結(jié)果。
21、第五方面,本申請(qǐng)?zhí)峁┝艘环N計(jì)算機(jī)設(shè)備,所述計(jì)算機(jī)設(shè)備包括處理器,所述處理器用于執(zhí)行存儲(chǔ)器中存儲(chǔ)的計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上述所述語(yǔ)言模型的訓(xùn)練方法的步驟,或,實(shí)現(xiàn)如上述所述數(shù)據(jù)處理方法的步驟。
22、第六方面,本申請(qǐng)?zhí)峁┝艘环N計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述所述語(yǔ)言模型的訓(xùn)練方法的步驟,或,實(shí)現(xiàn)如上述所述數(shù)據(jù)處理方法的步驟。
23、本申請(qǐng)的有益效果如下:
24、通過(guò)結(jié)合增量損失值和相對(duì)損失值,對(duì)基礎(chǔ)語(yǔ)言模型進(jìn)行迭代微調(diào),使得訓(xùn)練后的語(yǔ)言模型能夠有效地支持特定的目標(biāo)業(yè)務(wù)。該方法在適應(yīng)目標(biāo)業(yè)務(wù)的同時(shí),保留了基礎(chǔ)語(yǔ)言模型的自然語(yǔ)言理解能力,提高了語(yǔ)言模型在目標(biāo)業(yè)務(wù)上的性能和泛化能力,從而減少災(zāi)難性遺忘。
1.一種語(yǔ)言模型的訓(xùn)練方法,其特征在于,所述方法包括:
2.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述第一預(yù)測(cè)輸出、所述第一概率分布以及所述期望輸出,確定增量損失值,包括:
3.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述第一預(yù)測(cè)輸出、所述第一概率分布、所述第二預(yù)測(cè)輸出以及所述第二概率分布,確定所述基礎(chǔ)語(yǔ)言模型與所述當(dāng)前已微調(diào)的語(yǔ)言模型之間的相對(duì)損失值,包括:
4.如權(quán)利要求1所述的方法,其特征在于,所述基于各所述增量損失值以及各所述相對(duì)損失值,對(duì)所述當(dāng)前已微調(diào)的語(yǔ)言模型進(jìn)行微調(diào),包括:
5.如權(quán)利要求4所述的方法,其特征在于,所述增量損失值對(duì)應(yīng)的第一權(quán)重值與所述相對(duì)損失值對(duì)應(yīng)的第二權(quán)重值均為1。
6.一種基于權(quán)利要求1-5任一所述方法訓(xùn)練得到的語(yǔ)言模型的數(shù)據(jù)處理方法,其特征在于,所述方法包括:
7.一種語(yǔ)言模型的訓(xùn)練裝置,其特征在于,所述裝置包括;
8.一種基于權(quán)利要求1-5任一所述方法訓(xùn)練得到的語(yǔ)言模型的數(shù)據(jù)處理裝置,其特征在于,所述裝置包括:
9.一種計(jì)算機(jī)設(shè)備,其特征在于,所述計(jì)算機(jī)設(shè)備包括處理器,所述處理器用于執(zhí)行存儲(chǔ)器中存儲(chǔ)的計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上述權(quán)利要求1-5任一所述語(yǔ)言模型的訓(xùn)練方法的步驟,或,實(shí)現(xiàn)如上述權(quán)利要求6所述數(shù)據(jù)處理方法的步驟。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,其存儲(chǔ)有可由計(jì)算機(jī)設(shè)備執(zhí)行的計(jì)算機(jī)程序,當(dāng)所述程序在計(jì)算機(jī)設(shè)備上運(yùn)行時(shí),使得所述計(jì)算機(jī)設(shè)備執(zhí)行如上述權(quán)利要求1-5任一所述語(yǔ)言模型的訓(xùn)練方法的步驟,或,實(shí)現(xiàn)如上述權(quán)利要求6所述數(shù)據(jù)處理方法的步驟。