本說明書一個或多個實施例涉及機(jī)器學(xué)習(xí),尤其涉及一種大語言模型的請求處理方法及裝置。
背景技術(shù):
1、大規(guī)模語言模型(large?language?model,llm)是基于海量文本數(shù)據(jù)訓(xùn)練的深度學(xué)習(xí)模型。它能夠理解文本含義,并基于給定的文本生成自然語言文本,處理各種自然語言任務(wù),如文本摘要、問答、翻譯等。
2、目前在調(diào)用llm處理用戶請求時,希望可以有效降低延遲或提高吞吐。
技術(shù)實現(xiàn)思路
1、本說明書實施例描述一種大語言模型的請求處理方法及裝置,可以滿足實際應(yīng)用中的更高要求。
2、根據(jù)第一方面,提供一種大語言模型的請求處理方法,該方法的實現(xiàn)基于針對所述大語言模型的輸出文本預(yù)先設(shè)定的多個生成區(qū)段,其中各個生成區(qū)段配置有對應(yīng)的起始詞元和終止詞元,且配置有對應(yīng)的查詢采樣語料。所述方法包括:針對第一請求,在判斷出其處于解碼階段的情況下,根據(jù)其包括的第一詞元序列,確定對應(yīng)的第一生成區(qū)段;基于所述第一生成區(qū)段對應(yīng)的第一查詢采樣語料和所述大語言模型,進(jìn)行針對所述第一詞元序列的投機(jī)采樣處理,得到續(xù)接在所述第一詞元序列之后的目標(biāo)詞元序列,作為所述第一請求的處理結(jié)果。
3、在一些實施例中,根據(jù)其包括的第一詞元序列,確定對應(yīng)的第一生成區(qū)段,包括:確定所述第一詞元序列中最新生成的起始詞元,從而將此起始詞元對應(yīng)的生成區(qū)段確定為所述第一生成區(qū)段。
4、在一些實施例中,所述大語言模型經(jīng)過以下微調(diào)處理:獲取微調(diào)樣本,其中包括原始的第一標(biāo)簽詞元序列;根據(jù)所述標(biāo)簽詞元序列對應(yīng)于所述各個生成區(qū)段的劃分位置,插入所述各個生成區(qū)段對應(yīng)的起始詞元和終止詞元,得到改造后的第二標(biāo)簽詞元序列;利用將所述第一標(biāo)簽詞元序列替換為所述第二標(biāo)簽詞元序列的微調(diào)樣本,對預(yù)訓(xùn)練后的大語言模型進(jìn)行微調(diào)。
5、在一些實施例中,所述各個生成區(qū)段配置有對應(yīng)的投機(jī)采樣算法;其中,基于所述第一生成區(qū)段對應(yīng)的第一查詢采樣語料,進(jìn)行針對所述第一詞元序列的投機(jī)采樣,包括:采用所述第一生成區(qū)段對應(yīng)的第一投機(jī)采樣算法進(jìn)行所述投機(jī)采樣,所述第一投機(jī)采樣算法為以下中的一種:單分支預(yù)測、多分支預(yù)測下的深度優(yōu)先搜索算法、多分支預(yù)測下的廣度優(yōu)先搜索算法。
6、在一些實施例中,所述投機(jī)采樣處理包括:根據(jù)所述第一詞元序列對所述第一查詢采樣語料進(jìn)行查詢采樣,得到續(xù)接在所述第一詞元序列之后的若干預(yù)測詞元序列;調(diào)用所述大語言模型處理基于所述若干預(yù)測詞元序列而構(gòu)造的所述多個輸入,得到多個推理結(jié)果;利用所述多個推理結(jié)果對所述若干預(yù)測詞元序列進(jìn)行驗證,得到所述目標(biāo)詞元序列。
7、進(jìn)一步,在一些具體的實施例中,所述第一查詢采樣語料包括多個鍵值對,各個鍵值對中鍵和值的形式均為詞元序列,且具有所述值續(xù)接在所述鍵之后的頻率信息。其中,所述查詢采樣包括:基于所述第一詞元序列確定第一鍵;在所述第一查詢采樣語料中查詢包含所述第一鍵的若干鍵值對,并基于其中頻率排在靠前范圍內(nèi)的預(yù)定個數(shù)的鍵值對中的值確定所述若干預(yù)測詞元序列。
8、在另一些具體的實施例中,所述多個輸入的構(gòu)造包括:針對所述若干預(yù)測詞元序列中任意的第一預(yù)測序列,將其分裂為多個子序列,該多個子序列各自包含從所述第一預(yù)測序列中首個詞元起的不同數(shù)量的連續(xù)詞元;將所述多個子序列分別拼接在所述第一詞元序列后,得到多個拼接序列;將所述第一詞元序列和多個拼接序列歸為所述多個輸入。
9、在一些實施例中,其中在得到所述目標(biāo)詞元序列之后,所述方法還包括:在所述目標(biāo)詞元序列的末尾詞元為所述第一生成區(qū)段對應(yīng)的終止詞元的情況下,基于所述目標(biāo)詞元序列更新所述第一查詢采樣語料。
10、在一些實施例中,在得到所述目標(biāo)詞元序列之后,所述方法還包括:在所述目標(biāo)詞元序列的末尾詞元不是文本結(jié)束詞元,或者,在截至所述目標(biāo)詞元序列的已生成序列長度沒有達(dá)到長度閾值的情況下,基于所述目標(biāo)詞元序列構(gòu)建新的待處理請求。
11、在一些實施例中,所述方法還包括:基于當(dāng)前的請求隊列調(diào)度一批參與本次批量計算的請求,其中任一請求被作為所述第一請求。
12、根據(jù)第二方面,提供一種大語言模型的請求處理方法,所述方法的實現(xiàn)基于針對所述大語言模型的輸出文本預(yù)先設(shè)定的多個生成區(qū)段,其中各個生成區(qū)段配置有對應(yīng)的起始詞元和終止詞元,且配置有對應(yīng)的初步模型。該方法包括:針對第一請求,在判斷出其處于解碼階段的情況下,根據(jù)其包括的第一詞元序列,確定對應(yīng)的第一生成區(qū)段?;谒龅谝簧蓞^(qū)段對應(yīng)的第一初步模型和所述大語言模型,進(jìn)行針對所述第一詞元序列的投機(jī)采樣處理,得到續(xù)接在所述第一詞元序列之后的目標(biāo)詞元序列,作為所述第一請求的處理結(jié)果。
13、在一些實施例中,所述投機(jī)采樣處理包括:將所述第一詞元序列輸入所述第一初步模型,得到續(xù)接在所述第一詞元序列之后的預(yù)測詞元序列;調(diào)用所述大語言模型處理基于所述預(yù)測詞元序列而構(gòu)造的所述多個輸入,得到多個推理結(jié)果;利用所述多個推理結(jié)果對所述預(yù)測詞元序列進(jìn)行驗證,得到所述目標(biāo)詞元序列。
14、根據(jù)第三方面,提供一種大語言模型的請求處理裝置,所述大語言模型的輸出文本被預(yù)先設(shè)定為多個生成區(qū)段,其中各個生成區(qū)段配置有對應(yīng)的起始詞元和終止詞元,且配置有對應(yīng)的查詢采樣語料。所述裝置包括:生成區(qū)段確定模塊,配置為針對第一請求,在判斷出其處于解碼階段的情況下,根據(jù)其包括的第一詞元序列,確定對應(yīng)的第一生成區(qū)段;投機(jī)采樣模塊,配置為基于所述第一生成區(qū)段對應(yīng)的第一查詢采樣語料和所述大語言模型,進(jìn)行針對所述第一詞元序列的投機(jī)采樣處理,得到續(xù)接在所述第一詞元序列之后的目標(biāo)詞元序列,作為所述第一請求的處理結(jié)果。
15、根據(jù)第四方面,提供一種大語言模型的請求處理裝置,所述大語言模型的輸出文本被預(yù)先設(shè)定為多個生成區(qū)段,其中各個生成區(qū)段配置有對應(yīng)的起始詞元和終止詞元,且配置有對應(yīng)的初步模型。該裝置包括:生成區(qū)段確定模塊,配置為針對第一請求,在判斷出其處于解碼階段的情況下,根據(jù)其包括的第一詞元序列,確定對應(yīng)的第一生成區(qū)段;投機(jī)采樣模塊,配置為基于所述第一生成區(qū)段對應(yīng)的第一初步模型和所述大語言模型,進(jìn)行針對所述第一詞元序列的投機(jī)采樣處理,得到續(xù)接在所述第一詞元序列之后的目標(biāo)詞元序列,作為所述第一請求的處理結(jié)果。
16、根據(jù)第五方面,提供了一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,當(dāng)該計算機(jī)程序在計算機(jī)中執(zhí)行時,令計算機(jī)執(zhí)行第一方面或第二方面提供的方法。
17、根據(jù)第六方面,提供了一種計算設(shè)備,包括存儲器和處理器,所述存儲器中存儲有可執(zhí)行代碼,該處理器執(zhí)行所述可執(zhí)行代碼時,實現(xiàn)第一方面或第二方面提供的方法。
18、綜上,采用本說明書實施例披露的上述方法及裝置,在提供llm模型服務(wù)時,可以有效降低處理用戶請求的延遲、提高服務(wù)請求的吞吐量。
1.一種大語言模型的請求處理方法,所述方法的實現(xiàn)基于針對所述大語言模型的輸出文本預(yù)先設(shè)定的多個生成區(qū)段,其中各個生成區(qū)段配置有對應(yīng)的起始詞元和終止詞元,且配置有對應(yīng)的查詢采樣語料;所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其中,根據(jù)其包括的第一詞元序列,確定對應(yīng)的第一生成區(qū)段,包括:
3.根據(jù)權(quán)利要求1所述的方法,其中,所述大語言模型經(jīng)過以下微調(diào)處理:
4.根據(jù)權(quán)利要求1所述的方法,其中,所述各個生成區(qū)段配置有對應(yīng)的投機(jī)采樣算法;其中,基于所述第一生成區(qū)段對應(yīng)的第一詞表,進(jìn)行針對所述第一詞元序列的投機(jī)采樣,包括:
5.根據(jù)權(quán)利要求1所述的方法,其中,所述投機(jī)采樣處理包括:
6.根據(jù)權(quán)利要求5所述的方法,其中,所述第一查詢采樣語料包括多個鍵值對,各個鍵值對中鍵和值的形式均為詞元序列,且具有所述值續(xù)接在所述鍵之后的頻率信息;
7.根據(jù)權(quán)利要求5所述的方法,其中,所述多個輸入的構(gòu)造包括:
8.根據(jù)權(quán)利要求1所述的方法,其中在得到所述目標(biāo)詞元序列之后,所述方法還包括:
9.根據(jù)權(quán)利要求1所述的方法,其中,在得到所述目標(biāo)詞元序列之后,所述方法還包括:
10.根據(jù)權(quán)利要求1所述的方法,其中,所述方法還包括:
11.一種大語言模型的請求處理方法,所述方法的實現(xiàn)基于針對所述大語言模型的輸出文本預(yù)先設(shè)定的多個生成區(qū)段,其中各個生成區(qū)段配置有對應(yīng)的起始詞元和終止詞元,且配置有對應(yīng)的初步模型;所述方法包括:
12.根據(jù)權(quán)利要求11所述的方法,其中,所述投機(jī)采樣處理包括:
13.一種大語言模型的請求處理裝置,所述大語言模型的輸出文本被預(yù)先設(shè)定為多個生成區(qū)段,其中各個生成區(qū)段配置有對應(yīng)的起始詞元和終止詞元,且配置有對應(yīng)的查詢采樣語料;所述裝置包括:
14.一種大語言模型的請求處理裝置,所述大語言模型的輸出文本被預(yù)先設(shè)定為多個生成區(qū)段,其中各個生成區(qū)段配置有對應(yīng)的起始詞元和終止詞元,且配置有對應(yīng)的初步模型;所述裝置包括:
15.一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,其中,當(dāng)所述計算機(jī)程序在計算機(jī)中執(zhí)行時,令計算機(jī)執(zhí)行權(quán)利要求1-12中任一項所述的方法。
16.一種計算設(shè)備,包括存儲器和處理器,其中,所述存儲器中存儲有可執(zhí)行代碼,所述處理器執(zhí)行所述可執(zhí)行代碼時,實現(xiàn)權(quán)利要求1-12中任一項所述的方法。