最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種模型訓(xùn)練方法以及相關(guān)設(shè)備與流程

文檔序號(hào):41942912發(fā)布日期:2025-05-16 13:59閱讀:2來(lái)源:國(guó)知局
一種模型訓(xùn)練方法以及相關(guān)設(shè)備與流程

本技術(shù)涉及人工智能,具體涉及一種模型訓(xùn)練方法以及相關(guān)設(shè)備。


背景技術(shù):

1、隨著人工智能(artificial?intelligence,ai)技術(shù)的快速發(fā)展,在自然語(yǔ)言處理(natural?language?processing,nlp)和計(jì)算機(jī)視覺(jué)(computer?vision,cv)等領(lǐng)域,引入了諸如多頭注意力(multi-head?attention,mha)機(jī)制等注意力機(jī)制對(duì)諸如文本和圖像序列等序列數(shù)據(jù)進(jìn)行處理,以有效利用序列數(shù)據(jù)的上下文信息,獲得較為準(zhǔn)確的處理結(jié)果。mha作為一種強(qiáng)大的注意力機(jī)制,雖然在處理序列數(shù)據(jù)和利用上下文信息方面表現(xiàn)出色,但對(duì)計(jì)算資源以及存儲(chǔ)資源等資源的消耗較大。

2、為了解決mha對(duì)計(jì)算資源以及存儲(chǔ)資源等資源的消耗較大的問(wèn)題,目前,提出了多頭查詢(xún)注意力(multi-query?attention,mqa)、分組查詢(xún)注意力(grouped-queryattention,gqa)和多頭潛在注意力(multi-head?latent?attention,mla)等用于優(yōu)化注意力機(jī)制的mha變體,以提高transformer模型等基于注意力機(jī)制的ai模型的推理效率。

3、在實(shí)際應(yīng)用時(shí),mqa、gqa可以通過(guò)對(duì)mha增減提供鍵值對(duì)的注意力頭的數(shù)量得到,而mla由于是在mha的基礎(chǔ)上進(jìn)行了模型結(jié)構(gòu)的創(chuàng)新,目前只能通過(guò)執(zhí)行完整的訓(xùn)練過(guò)程,才能得到推理場(chǎng)景中的包含了mla的ai模型,訓(xùn)練過(guò)程較為復(fù)雜,訓(xùn)練過(guò)程所消耗的資源較多。


技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)實(shí)施例提供了一種模型訓(xùn)練方法,可以解決目前的包含了mla的ai模型的訓(xùn)練過(guò)程較為復(fù)雜的問(wèn)題。本技術(shù)還提供了相應(yīng)的裝置、設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)程序產(chǎn)品等。

2、本技術(shù)第一方面提供一種模型訓(xùn)練方法,該方法包括:獲取第一模型以及第二模型,第一模型包括預(yù)設(shè)注意力模塊,預(yù)設(shè)注意力模塊包括以下模塊中的一種或多種:多頭注意力mha模塊、多頭查詢(xún)注意力mqa模塊、分組查詢(xún)注意力gqa模塊,第二模型包括多頭潛在注意力mla模塊,第一模型為訓(xùn)練后的ai模型,第二模型為待訓(xùn)練的ai模型,并且第一模型和第二模型用于對(duì)文本和/或圖像進(jìn)行處理,第二模型中的mla模塊的模型權(quán)重是對(duì)預(yù)設(shè)注意力模塊的模型權(quán)重進(jìn)行變換而得到的;將第一模型作為教師模型并將第二模型作為學(xué)生模型,對(duì)mla模塊進(jìn)行訓(xùn)練,以獲得訓(xùn)練后的第二模型。

3、在第一方面中,可以根據(jù)第一模型中的預(yù)設(shè)注意力模塊的模型參數(shù)與第二模型中的mla模塊中的模型參數(shù)的相關(guān)性,將預(yù)設(shè)注意力模塊中的模型權(quán)重變換為mla模塊的初始化的模型權(quán)重,以將預(yù)設(shè)注意力模塊中的知識(shí)遷移至初始化后的mla模塊中,為初始化后的第二模型提供較好的知識(shí)基礎(chǔ),然后對(duì)mla模塊進(jìn)行微調(diào)等小規(guī)模的訓(xùn)練即可獲得性能較好的訓(xùn)練后的第二模型,而無(wú)需對(duì)第二模型從零開(kāi)始執(zhí)行完整的全流程訓(xùn)練過(guò)程,大大提升對(duì)第二模型的訓(xùn)練效率。

4、在第一方面的一種可能的實(shí)現(xiàn)方式中,第一模型中除預(yù)設(shè)注意力模塊之外的第一模塊的模型權(quán)重與第二模型中除mla模塊之外的第二模塊的模型權(quán)重相同,第一模塊的結(jié)構(gòu)與第二模塊的結(jié)構(gòu)相同,且第一模塊在第一模型中的位置與第二模塊在第二模型中的位置對(duì)應(yīng);將第一模型作為教師模型并將第二模型作為學(xué)生模型,對(duì)mla模塊進(jìn)行訓(xùn)練,以獲得訓(xùn)練后的第二模型,包括:在固定第二模塊的模型權(quán)重的情況下,將第一模型作為教師模型并將第二模型作為學(xué)生模型,對(duì)mla模塊進(jìn)行訓(xùn)練,以獲得訓(xùn)練后的第二模型。

5、該種可能的實(shí)現(xiàn)方式中,已訓(xùn)練好的第一模型和待訓(xùn)練的第二模型的模型結(jié)構(gòu)中可以存在類(lèi)似或者相對(duì)應(yīng)的結(jié)構(gòu),實(shí)現(xiàn)較為近似的功能。例如,第一模塊的結(jié)構(gòu)與第二模塊的結(jié)構(gòu)相同,且第一模塊在第一模型中的位置與第二模塊在第二模型中的位置對(duì)應(yīng),預(yù)設(shè)注意力模塊與mla模塊的結(jié)構(gòu)和功能存在相關(guān)性。因此,可以設(shè)置第二模型中的第二模塊的模型權(quán)重與已訓(xùn)練好的第一模型中的第一模塊的模型權(quán)重相同,從而將已訓(xùn)練的第一模型中的第一模塊的知識(shí)復(fù)用至第二模型的第二模塊中,然后對(duì)mla模塊進(jìn)行微調(diào)等小規(guī)模的訓(xùn)練即可獲得性能較好的訓(xùn)練后的第二模型,而無(wú)需對(duì)第二模型從零開(kāi)始執(zhí)行完整的全流程訓(xùn)練過(guò)程,提升對(duì)第二模型的訓(xùn)練效率。

6、在第一方面的一種可能的實(shí)現(xiàn)方式中,第二模塊的模型權(quán)重是將第一模塊的模型權(quán)重復(fù)用至第二模型而得到的。

7、該種可能的實(shí)現(xiàn)方式中,可以根據(jù)第一模型中除預(yù)設(shè)注意力模塊之外的第一模塊的模型權(quán)重,確定第二模型中除mla模塊之外的第二模塊的模型權(quán)重。這樣,可以通過(guò)模型權(quán)重的遷移而將已訓(xùn)練的第一模型中的第一模塊的知識(shí)復(fù)用至初始化后的第二模型的第二模塊中,以減少訓(xùn)練階段第二模型所需要學(xué)習(xí)的知識(shí),實(shí)現(xiàn)了已有的第一模型的知識(shí)的有效利用,降低了第二模型的訓(xùn)練難度。

8、示例性地,預(yù)設(shè)注意力模塊中可以包括第一模型參數(shù),mla模塊中可以包括第二模型參數(shù),第一模型參數(shù)與第二模型參數(shù)對(duì)應(yīng),且第一模型參數(shù)的維度與第二模型參數(shù)的維度不同,那么,可以對(duì)第一模型參數(shù)的權(quán)重進(jìn)行維度變換,獲得第二模型參數(shù)的權(quán)重。其中,第一模型參數(shù)與第二模型參數(shù)對(duì)應(yīng)可以指第一模型參數(shù)與第二模型參數(shù)的功能和/或參數(shù)結(jié)構(gòu)相同或相似。

9、在第一方面的一種可能的實(shí)現(xiàn)方式中,mla模塊是基于損失函數(shù)而進(jìn)行訓(xùn)練的,損失函數(shù)包括第一損失項(xiàng)和/或第二損失項(xiàng),第一損失項(xiàng)用于評(píng)估第一模型的輸出與第二模型的輸出之間的差異,第二損失項(xiàng)用于評(píng)估預(yù)設(shè)注意力模塊的輸出與mla模塊的輸出之間的差異。

10、該種可能的實(shí)現(xiàn)方式中,通過(guò)第一損失項(xiàng)進(jìn)行訓(xùn)練,可以使得訓(xùn)練后的第二模型的輸出性能向第一模型對(duì)齊;而通過(guò)第二損失項(xiàng)進(jìn)行訓(xùn)練,第二模型的mla模塊可以學(xué)習(xí)到預(yù)設(shè)注意力模塊中的特征表示,從而在特征層面實(shí)現(xiàn)與第一模型的對(duì)齊??梢?jiàn),基于第一模型的知識(shí),通過(guò)包含第一損失項(xiàng)和/或第二損失項(xiàng)的損失函數(shù)對(duì)第二模型中的mla模塊進(jìn)行訓(xùn)練,可以高效實(shí)現(xiàn)訓(xùn)練后的第二模型到第一模型的精度對(duì)齊,保證訓(xùn)練后的第二模型的性能。

11、在第一方面的一種可能的實(shí)現(xiàn)方式中,損失函數(shù)為第一損失項(xiàng)和第二損失項(xiàng)進(jìn)行加權(quán)求和而得到。

12、在第一方面的一種可能的實(shí)現(xiàn)方式中,將第一模型作為教師模型并將第二模型作為學(xué)生模型,對(duì)mla模塊進(jìn)行訓(xùn)練,以獲得訓(xùn)練后的第二模型,包括:將第一模型作為教師模型并將第二模型作為學(xué)生模型,對(duì)mla模塊進(jìn)行訓(xùn)練;在mla模塊訓(xùn)練完成之后,在固定訓(xùn)練后的mla模塊的模型權(quán)重的情況下,對(duì)第二模塊和/或第二模型中除mla模塊之外的第三模塊進(jìn)行訓(xùn)練,以獲得訓(xùn)練后的第二模型,第三模塊與第二模塊不同。

13、該種可能的實(shí)現(xiàn)方式中,可以進(jìn)行多個(gè)階段的微調(diào)等訓(xùn)練,但每個(gè)階段的訓(xùn)練強(qiáng)度和耗時(shí)通常較小,并可以通過(guò)多個(gè)階段的訓(xùn)練逐步提升第二模型的性能。在完成多個(gè)階段的微調(diào)等訓(xùn)練之后,可以獲得性能更優(yōu)的訓(xùn)練后的第二模型。

14、本技術(shù)第二方面提供一種模型訓(xùn)練裝置,該裝置具有實(shí)現(xiàn)上述第一方面或第一方面任意一種可能實(shí)現(xiàn)方式的方法的功能。該功能可以通過(guò)硬件實(shí)現(xiàn),也可以通過(guò)硬件執(zhí)行相應(yīng)的軟件實(shí)現(xiàn)。該硬件或軟件包括一個(gè)或多個(gè)與上述功能相對(duì)應(yīng)的模塊,例如接口模塊以及訓(xùn)練模塊。

15、本技術(shù)第三方面提供一種計(jì)算設(shè)備集群,該計(jì)算設(shè)備集群包括至少一個(gè)計(jì)算設(shè)備,該至少一個(gè)計(jì)算設(shè)備包括處理器和存儲(chǔ)器,至少一個(gè)計(jì)算設(shè)備的存儲(chǔ)器中存儲(chǔ)有可在處理器上運(yùn)行的計(jì)算機(jī)執(zhí)行指令,當(dāng)計(jì)算機(jī)執(zhí)行指令被處理器執(zhí)行時(shí),處理器執(zhí)行如上述第一方面或第一方面任意一種可能的實(shí)現(xiàn)方式的方法。

16、本技術(shù)第四方面提供一種存儲(chǔ)一個(gè)或多個(gè)計(jì)算機(jī)執(zhí)行指令的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),當(dāng)計(jì)算機(jī)執(zhí)行指令被處理器執(zhí)行時(shí),處理器執(zhí)行如上述第一方面或第一方面任意一種可能的實(shí)現(xiàn)方式的方法。

17、本技術(shù)第五方面提供一種存儲(chǔ)一個(gè)或多個(gè)計(jì)算機(jī)執(zhí)行指令的計(jì)算機(jī)程序產(chǎn)品,當(dāng)計(jì)算機(jī)執(zhí)行指令被處理器執(zhí)行時(shí),處理器執(zhí)行如上述第一方面或第一方面任意一種可能的實(shí)現(xiàn)方式的方法。

18、本技術(shù)第六方面提供了一種芯片系統(tǒng),該芯片系統(tǒng)包括處理器,用于支持處理器實(shí)現(xiàn)上述第一方面或第一方面任意一種可能的實(shí)現(xiàn)方式中所涉及的功能。在一種可能的設(shè)計(jì)中,芯片系統(tǒng)還可以包括存儲(chǔ)器,存儲(chǔ)器用于保存必要的程序指令和數(shù)據(jù)。該芯片系統(tǒng),可以由芯片構(gòu)成,也可以包含芯片和其他分立器件。

19、其中,第二方面至第六方面或者其中任一種可能實(shí)現(xiàn)方式所帶來(lái)的技術(shù)效果可參見(jiàn)第一方面或第一方面的相關(guān)可能實(shí)現(xiàn)方式所帶來(lái)的技術(shù)效果,此處不再贅述。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1