本公開總體上涉及計(jì)算機(jī)領(lǐng)域,并且更具體地涉及文本生成方法及電子設(shè)備。
背景技術(shù):
1、生成式大語言模型是能夠生成自然語言文本的深度學(xué)習(xí)模型。這類模型基于復(fù)雜的神經(jīng)網(wǎng)絡(luò)架構(gòu),例如變換器(transformer),并經(jīng)過大量文本數(shù)據(jù)的預(yù)訓(xùn)練,以學(xué)習(xí)語言的統(tǒng)計(jì)特性和模式。生成式大語言模型的核心能力是生成連貫、有邏輯且符合語法規(guī)則的文本。這意味著模型可以輸出全新的文本內(nèi)容,如文章、對(duì)話、詩(shī)歌等,而不僅僅是復(fù)制或重述訓(xùn)練數(shù)據(jù)中的內(nèi)容。
2、在大語言模型中,混合專家(mixture?of?experts,moe)可以被集成到變換層中,通過激活較少數(shù)目的專家,能夠減少計(jì)算量。但是目前的方案中被激活的專家數(shù)目是固定的,導(dǎo)致模型不夠靈活。
技術(shù)實(shí)現(xiàn)思路
1、根據(jù)本公開的示例實(shí)施例,提供了一種文本生成的方法、裝置、電子設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)、和計(jì)算機(jī)程序產(chǎn)品。能夠基于提示信息的復(fù)雜程度來確定moe大模型中要激活的專家的數(shù)目,以此能夠?qū)崿F(xiàn)模型的動(dòng)態(tài)控制和動(dòng)態(tài)使用。
2、在本公開的第一方面,提供了一種信息處理方法,包括:獲取提示信息;將提示信息輸入到moe大模型中,確定提示信息對(duì)應(yīng)的向量表示,其中moe大模型具有經(jīng)訓(xùn)練確定的最大專家數(shù)目;還包括利用文本評(píng)估模型,基于向量表示,確定提示信息的評(píng)分值,其中提示信息的評(píng)分值是用于表征提示信息的復(fù)雜程度的量化的性能指標(biāo);基于提示信息的評(píng)分值,確定moe大模型中要激活的專家的數(shù)目,其中要激活的專家的數(shù)目不大于最大專家數(shù)目;以及基于moe大模型的激活的專家,生成與提示信息對(duì)應(yīng)的輸出。
3、在本公開的第二方面,提供了一種電子設(shè)備,包括:至少一個(gè)處理單元;至少一個(gè)存儲(chǔ)器,至少一個(gè)存儲(chǔ)器被耦合到至少一個(gè)處理單元并且存儲(chǔ)用于由至少一個(gè)處理單元執(zhí)行的指令,該指令當(dāng)由至少一個(gè)處理單元執(zhí)行時(shí)使得電子設(shè)備執(zhí)行根據(jù)本公開的第一方面所描述的方法。
4、在本公開的第三方面,提供了一種文本生成裝置,包括:獲取單元,被配置為獲取提示信息;第一確定單元,被配置為將提示信息輸入到moe大模型中,確定提示信息對(duì)應(yīng)的向量表示,其中moe大模型具有經(jīng)訓(xùn)練確定的最大專家數(shù)目;第二確定單元,被配置為利用文本評(píng)估模型,基于向量表示,確定提示信息的評(píng)分值,其中提示信息的評(píng)分值是用于表征提示信息的復(fù)雜程度的量化的性能指標(biāo);第三確定單元,被配置為基于提示信息的評(píng)分值,確定moe大模型中要激活的專家的數(shù)目,其中要激活的專家的數(shù)目不大于最大專家數(shù)目;以及生成單元,被配置為基于moe大模型的所述激活的專家,生成與提示信息對(duì)應(yīng)的輸出。
5、在本公開的第四方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)具有在其上存儲(chǔ)的機(jī)器可執(zhí)行指令,該機(jī)器可執(zhí)行指令在由設(shè)備執(zhí)行時(shí)使該設(shè)備執(zhí)行根據(jù)本公開的第一方面所描述的方法。
6、在本公開的第五方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)可執(zhí)行指令,其中計(jì)算機(jī)可執(zhí)行指令在被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)本公開的第一方面所描述的方法。
7、在本公開的第六方面,提供了一種電子設(shè)備,包括:處理電路,被配置為執(zhí)行根據(jù)本公開的第一方面所描述的方法。
8、提供
技術(shù)實(shí)現(xiàn)要素:
部分是為了以簡(jiǎn)化的形式來介紹一系列概念,它們?cè)谙挛牡木唧w實(shí)施方式中將被進(jìn)一步描述。發(fā)明內(nèi)容部分不旨在標(biāo)識(shí)本公開的關(guān)鍵特征或必要特征,也不旨在限制本公開的范圍。本公開的其它特征將通過以下的描述變得容易理解。
1.一種文本生成方法,包括:
2.?根據(jù)權(quán)利要求1所述的方法,其中基于所述評(píng)分值確定所述moe大模型中要激活的專家的數(shù)目包括:
3.?根據(jù)權(quán)利要求2所述的方法,其中確定所述多個(gè)閾值包括:
4.根據(jù)權(quán)利要求3所述的方法,其中所述服務(wù)器的所述工作狀態(tài)包括以下至少一項(xiàng):
5.根據(jù)權(quán)利要求2所述的方法,其中所述多個(gè)候選專家數(shù)目中的每個(gè)都小于所述最大專家數(shù)目。
6.根據(jù)權(quán)利要求1所述的方法,其中所述提示信息對(duì)應(yīng)的向量表示包括:所述moe大模型的中間層輸出的所述提示信息對(duì)應(yīng)的層次化特征。
7.根據(jù)權(quán)利要求1所述的方法,其中生成所述輸出包括:
8.根據(jù)權(quán)利要求1所述的方法,其中生成所述輸出包括:
9.根據(jù)權(quán)利要求8所述的方法,其中確定所述評(píng)分值包括:
10.根據(jù)權(quán)利要求8所述的方法,其中所述多個(gè)單詞元為所述已生成的輸出中的最后生成的預(yù)設(shè)數(shù)目的單詞元。
11.根據(jù)權(quán)利要求1所述的方法,其中所述文本評(píng)估模型采用卷積神經(jīng)網(wǎng)絡(luò)cnn或循環(huán)神經(jīng)網(wǎng)絡(luò)rnn結(jié)構(gòu)。
12.一種電子設(shè)備,包括:
13.一種文本生成裝置,包括:
14.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)權(quán)利要求1至11中任一項(xiàng)所述的方法。