本發(fā)明涉及模型評估,具體涉及一種對話模型評估和對話重塑方法、設(shè)備和介質(zhì)。
背景技術(shù):
1、大語言模型(large?language?model,llm),實(shí)質(zhì)上是一種生成式模型。通過大語言模型能夠?yàn)榛谳斎氲膶υ捫畔⑸上鄳?yīng)的對話響應(yīng),因此可廣泛應(yīng)用于咨詢、分析、聊天等場景。
2、對于大語言模型而言,如何評估模型在人機(jī)對話中的表現(xiàn),是一個基礎(chǔ)問題之一。針對大語言模型的對話表現(xiàn)評估,主要評估的是大語言模型的對話交互能力。比如,基于大語言模型在不同情境中的反應(yīng)和行為特征,對大語言模型的理解能力、生成能力、邏輯推理能力、情感理解能力等多個方面進(jìn)行評價分析。
3、相關(guān)技術(shù)中,通過大語言模型輸出的對話信息可以評估模型的對話交互能力。然而,由于大語言模型的輸出具有不可預(yù)見性,即使輸入相同信息,模型輸出的對話信息也會因每次預(yù)測得到的概率不同而存在一定差異,使得基于單次對話信息得到的評估結(jié)果出現(xiàn)偏差,影響評估結(jié)果的準(zhǔn)確性,增加模型評估的難度。
4、因此,需要設(shè)計(jì)一種對話模型評估和對話重塑方法、設(shè)備和介質(zhì),用以解決上述技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明目的在于提供一種對話模型評估和對話重塑方法、設(shè)備和介質(zhì),具體技術(shù)方案如下:
2、一種對話模型評估和對話重塑方法,包括以下步驟:
3、s1,設(shè)置場景要素,基于場景要素構(gòu)建兩個虛擬對話角色,調(diào)用對話模型實(shí)現(xiàn)兩個虛擬對話角色,進(jìn)而生成對話數(shù)據(jù),通過設(shè)置不同的場景要素生成不同的對話數(shù)據(jù),形成對話數(shù)據(jù)集;
4、s2,基于對話數(shù)據(jù)集構(gòu)建輸入數(shù)據(jù),構(gòu)建分析層,所述分析層包括多個不同維度的分析器,將輸入數(shù)據(jù)輸入分析器中,得到維度分析結(jié)果;
5、s3:構(gòu)建審查層,所述審查層包括多個不同維度的審查器,所述審查器與所述分析器一一對應(yīng),用于審查維度分析結(jié)果,并對維度分析結(jié)果進(jìn)行調(diào)整,得到維度審查結(jié)果;
6、s4:構(gòu)建評定層,所述評定層用于綜合多個維度審查結(jié)果,對所述輸入數(shù)據(jù)進(jìn)行綜合評定,得到評定結(jié)果,基于評定結(jié)果完成對所述對話模型的評估;
7、s5,多維解構(gòu),通過思維鏈和自反思技術(shù)實(shí)現(xiàn)多維解構(gòu);
8、s6,對話重塑,針對多維解構(gòu)初始回復(fù)進(jìn)行預(yù)演反饋,獲取對話方反應(yīng),并基于評定結(jié)果對多維解構(gòu)初始回復(fù)進(jìn)行指導(dǎo),形成反饋建議,通過對話方反應(yīng)和反饋建議生成最終回復(fù)。
9、可選的,在s1中,場景要素包括場景主題、第一說話人場景信息、第二說話人場景信息和場景目標(biāo),虛擬角色的構(gòu)建表達(dá)式如下:
10、;
11、;
12、其中,表示第一說話人的虛擬對話角色,表示第二說話人的虛擬對話角色,表示第一說話人的角色構(gòu)建過程,通過場景主題和第一說話人場景信息,完成第一說話人的虛擬對話角色構(gòu)建;表示第二說話人的角色構(gòu)建過程,通過場景主題、第二說話人場景信息以及場景目標(biāo),完成第二說話人的虛擬對話角色構(gòu)建。
13、可選的,在s2中,所述輸入數(shù)據(jù)包括對話記錄、待評價回復(fù)和其他對話數(shù)據(jù),所述對話記錄具體是對話數(shù)據(jù)中待評價回復(fù)之前的內(nèi)容,所述其他對話數(shù)據(jù)具體是對話數(shù)據(jù)中待評價回復(fù)之后的內(nèi)容。
14、可選的,在s2中,所述分析器通過大語言模型結(jié)合分析提示詞構(gòu)建,分析提示詞包括維度信息、對話記錄、待評價回復(fù)、場景要素、分析輸出格式和分析任務(wù);
15、所述維度信息包括維度名稱、維度定義和評分標(biāo)準(zhǔn);
16、所述輸出格式包括維度信息、維度表現(xiàn)分析和維度評分;
17、所述分析任務(wù)為對輸入數(shù)據(jù)進(jìn)行評價分析,按照分析輸出格式輸出維度分析結(jié)果。
18、可選的,在s3中,所述審查器通過大語言模型結(jié)合審查提示詞構(gòu)建,審查提示詞包括維度信息、對話記錄、待評價回復(fù)、場景要素、維度分析結(jié)果、輸出格式和審查任務(wù);
19、所述審查任務(wù)為對當(dāng)前維度的維度分析結(jié)果進(jìn)行審查并調(diào)整維度分析結(jié)果中的維度表現(xiàn)分析和維度評分,并按照輸出格式輸出維度審查結(jié)果。
20、可選的,在s3中,所述評定層通過大語言模型結(jié)合評定提示詞構(gòu)建,評定提示詞包括對話記錄、待評價回復(fù)、場景數(shù)據(jù)、維度審查結(jié)果、評定標(biāo)準(zhǔn)、評定輸出格式和評定任務(wù);
21、所述評定標(biāo)準(zhǔn)為基于各個溝通能力等級設(shè)置的評定標(biāo)準(zhǔn);
22、評定輸出格式包括溝通能力等級、各個維度表現(xiàn)和維度評分、總分、原因分析以及反饋建議;
23、評定任務(wù)為根據(jù)各個維度審查結(jié)果進(jìn)行原因分析和反饋建議,并按照評定輸出格式輸出評定結(jié)果。
24、可選的,在s5中,根據(jù)對話記錄和場景數(shù)據(jù)構(gòu)建思維鏈,通過自反思技術(shù)得到多維解構(gòu)初始回復(fù),思維鏈的表達(dá)式如下:
25、;
26、;
27、;
28、;
29、其中,為感知維度的思維鏈推理結(jié)果,表示從感知維度,根據(jù)對話記錄和場景數(shù)據(jù)分析對方是否表達(dá)了需求及情感;表示感知維度的思維鏈;表示對話記錄;為期望維度的思維鏈推理結(jié)果,表示從期望維度,根據(jù)對話記錄和場景數(shù)據(jù),分析對方期望從對話中獲得的信息或達(dá)成的目標(biāo);表示期望維度的思維鏈;為參與維度的思維鏈推理結(jié)果,表示從參與維度,根據(jù)對話記錄和場景數(shù)據(jù)分析在對話時是否積極參與到對話中、能否推動話題,確保溝通的流暢性;表示參與維度的思維鏈;為信息維度的思維鏈推理結(jié)果,表示從信息維度,根據(jù)對話記錄和場景數(shù)據(jù)分析原始在對話時是否清晰且完整地傳遞了對方所需的信息、是否存在誤解或模糊點(diǎn);表示參與維度的思維鏈;
30、所述自反思技術(shù)用于指導(dǎo)對話模型生成多維解構(gòu)初始回復(fù),表達(dá)式如下:
31、;
32、其中,表示多維解構(gòu)初始回復(fù),表示生成初始回復(fù),表示自反思技術(shù)。
33、可選的,所述對話模型評估和對話重塑方法還包括對話重塑,具體如下:
34、可選的,在s6中,針對多維解構(gòu)初始回復(fù)進(jìn)行預(yù)演反饋,獲取對話方反應(yīng),并基于評定結(jié)果生成反饋建議,通過對話方反應(yīng)和反饋建議生成最終回復(fù),最終回復(fù)的計(jì)算表達(dá)式如下:
35、;
36、;
37、;
38、其中,表示對話方反應(yīng);表示模擬函數(shù),用于生成針對多維解構(gòu)初始回復(fù)的對話方反應(yīng);表示反饋建議;表示分析函數(shù),用于對多維解構(gòu)初始回復(fù)生成反饋建議;表示待評價的回復(fù);表示評定層輸出;表示最終回復(fù);表示輸出函數(shù),用于評價對話模型綜合預(yù)演的對話方反應(yīng)和反饋建議生成最終回復(fù)。
39、另外,本發(fā)明還包括一種計(jì)算機(jī)設(shè)備,包括存儲器和處理器;
40、所述存儲器用于存儲可在處理器上運(yùn)行的計(jì)算機(jī)程序;
41、所述處理器用于執(zhí)行所述計(jì)算機(jī)程序時實(shí)現(xiàn)如上述的對話模型評估和對話重塑方法的步驟。
42、另外,本發(fā)明還包括一種計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)上存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)如上述的對話模型評估和對話重塑方法的步驟。
43、應(yīng)用本發(fā)明的技術(shù)方案,具有以下有益效果:
44、本發(fā)明提供了一種對話模型評估和對話重塑方法,本發(fā)明方法通過定義場景要素,從而精確構(gòu)建對話數(shù)據(jù)集。與現(xiàn)有方法相比,本發(fā)明方法的優(yōu)勢在于通過明確角色背景和目標(biāo),確保生成的對話緊扣核心話題且具有目標(biāo)導(dǎo)向性,從而提高對話的邏輯一致性和實(shí)用性。另外,本發(fā)明方法采用多維量化與層級分析結(jié)構(gòu)的方式,將評價過程分為分析層、審查層和評定層,能夠確保評價過程的逐步深入與精確性。
45、除了上面所描述的目的、特征和優(yōu)點(diǎn)之外,本發(fā)明還有其它的目的、特征和優(yōu)點(diǎn)。下面將參照圖,對本發(fā)明作進(jìn)一步詳細(xì)的說明。