本公開涉及人工智能領(lǐng)域中的人機交互領(lǐng)域,尤其涉及一種問答模型的訓(xùn)練方法、基于大模型的問答方法及裝置。
背景技術(shù):
1、在人機交互的實際應(yīng)用中,許多任務(wù)無法通過單一目標進行完成。例如,在自然語言處理任務(wù)中,人工智能模型可能需要同時滿足準確性、一致性、語義豐富性等多個目標。
2、目前的人工智能模型在訓(xùn)練時,難以學(xué)習(xí)到多個目標,影響模型的人機交互的問答效果,降低用戶的人機交互體驗。
技術(shù)實現(xiàn)思路
1、本公開提供了一種問答模型的訓(xùn)練方法、基于大模型的問答方法及裝置。
2、根據(jù)本公開的第一方面,提供了一種問答模型的訓(xùn)練方法,包括:
3、獲取預(yù)設(shè)的提示詞數(shù)據(jù)集;其中,所述預(yù)設(shè)的提示詞數(shù)據(jù)集中包括提示詞信息,所述提示詞信息與訓(xùn)練目標一一對應(yīng),所述訓(xùn)練目標表征對模型的輸出數(shù)據(jù)的要求;
4、通過遍歷所述預(yù)設(shè)的提示詞數(shù)據(jù)集,至少根據(jù)當前遍歷到的提示詞信息,對待訓(xùn)練的問答模型進行訓(xùn)練,得到當前的問答模型;其中,所述問答模型滿足已經(jīng)遍歷過的所述提示詞信息對應(yīng)的所述訓(xùn)練目標;
5、響應(yīng)于確定所述預(yù)設(shè)的提示詞數(shù)據(jù)集遍歷完成,確定所述當前的問答模型為訓(xùn)練完成的問答模型。
6、根據(jù)本公開的第二方面,提供了一種基于大模型的問答方法,包括:
7、接收用戶輸入的提問信息;
8、將所述提問信息輸入至問答模型中,基于模型提示詞,得到所述提問信息對應(yīng)的回復(fù)信息;其中,所述問答模型表征權(quán)1至11中任一項所述的訓(xùn)練完成的問答模型,所述模型提示詞用于引導(dǎo)問答模型生成回復(fù)信息。
9、根據(jù)本公開的第三方面,提供了一種問答模型的訓(xùn)練裝置,包括:
10、獲取單元,用于獲取預(yù)設(shè)的提示詞數(shù)據(jù)集;其中,所述預(yù)設(shè)的提示詞數(shù)據(jù)集中包括提示詞信息,所述提示詞信息與訓(xùn)練目標一一對應(yīng),所述訓(xùn)練目標表征對模型的輸出數(shù)據(jù)的要求;
11、訓(xùn)練單元,用于通過遍歷所述預(yù)設(shè)的提示詞數(shù)據(jù)集,至少根據(jù)當前遍歷到的提示詞信息,對待訓(xùn)練的問答模型進行訓(xùn)練,得到當前的問答模型;其中,所述問答模型滿足已經(jīng)遍歷過的所述提示詞信息對應(yīng)的所述訓(xùn)練目標;
12、確定單元,用于響應(yīng)于確定所述預(yù)設(shè)的提示詞數(shù)據(jù)集遍歷完成,確定所述當前的問答模型為訓(xùn)練完成的問答模型。
13、根據(jù)本公開的第四方面,提供了一種基于大模型的問答裝置,包括:
14、接收單元,用于接收用戶輸入的提問信息;
15、回復(fù)單元,用于將所述提問信息輸入至問答模型中,基于模型提示詞,得到所述提問信息對應(yīng)的回復(fù)信息;其中,所述問答模型表征第三方面所述的訓(xùn)練完成的問答模型,所述模型提示詞用于引導(dǎo)問答模型生成回復(fù)信息。
16、根據(jù)本公開的第五方面,提供了一種電子設(shè)備,包括:
17、至少一個處理器;以及
18、與所述至少一個處理器通信連接的存儲器;
19、所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行本公開第一方面和第二方面所述的方法。
20、根據(jù)本公開的第六方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì),所述計算機指令用于使所述計算機執(zhí)行根據(jù)本公開第一方面和第二方面所述的方法。
21、根據(jù)本公開的第七方面,提供了一種計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)本公開第一方面和第二方面所述方法的步驟。
22、根據(jù)本公開的技術(shù),提高了模型訓(xùn)練的適應(yīng)性和靈活性,從而更好地學(xué)習(xí)不同的目標。
23、應(yīng)當理解,本部分所描述的內(nèi)容并非旨在標識本公開的實施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
1.一種問答模型的訓(xùn)練方法,包括:
2.根據(jù)權(quán)利要求1所述的方法,其中,所述通過遍歷所述預(yù)設(shè)的提示詞數(shù)據(jù)集,至少根據(jù)當前遍歷到的提示詞信息,對待訓(xùn)練的問答模型進行訓(xùn)練,得到當前的問答模型,包括:
3.根據(jù)權(quán)利要求2所述的方法,其中,所述根據(jù)當前遍歷到的提示詞信息和預(yù)設(shè)的待訓(xùn)練數(shù)據(jù)集,對所述待訓(xùn)練的問答模型進行訓(xùn)練,得到所述當前的問答模型,包括:
4.根據(jù)權(quán)利要求3所述的方法,其中,所述根據(jù)所述待訓(xùn)練輸入數(shù)據(jù)對應(yīng)的期望輸出數(shù)據(jù)和對應(yīng)的預(yù)測輸出數(shù)據(jù),得到待訓(xùn)練的問答模型的識別正確率,包括:
5.根據(jù)權(quán)利要求4所述的方法,其中,所述根據(jù)各待訓(xùn)練輸入數(shù)據(jù)的識別結(jié)果,確定所述待訓(xùn)練的問答模型的識別正確率,包括:
6.根據(jù)權(quán)利要求3-5中任一項所述的方法,其中,所述根據(jù)所述識別正確率,對所述待訓(xùn)練的問答模型進行訓(xùn)練,得到所述當前的問答模型,包括:
7.根據(jù)權(quán)利要求6所述的方法,其中,所述根據(jù)所述識別正確率,對預(yù)設(shè)的損失函數(shù)進行更新,得到目標函數(shù),包括:
8.根據(jù)權(quán)利要求7所述的方法,其中,所述根據(jù)所述超參數(shù)的參數(shù)值,確定所述目標函數(shù),包括:
9.根據(jù)權(quán)利要求2-8中任一項所述的方法,其中,所述根據(jù)當前遍歷到的提示詞信息和預(yù)設(shè)的待訓(xùn)練數(shù)據(jù)集,對所述待訓(xùn)練的問答模型進行訓(xùn)練,得到所述當前的問答模型,包括:
10.根據(jù)權(quán)利要求1-9中任一項所述的方法,還包括:
11.根據(jù)權(quán)利要求1-10中任一項所述的方法,還包括:
12.一種基于大模型的問答方法,包括:
13.一種問答模型的訓(xùn)練裝置,包括:
14.一種基于大模型的問答裝置,包括:
15.一種電子設(shè)備,包括:
16.一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì),其中,所述計算機指令用于使所述計算機執(zhí)行根據(jù)權(quán)利要求1-12中任一項所述的方法。
17.一種計算機程序產(chǎn)品,其中,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1-12中任一項所述方法的步驟。