本公開(kāi)涉及計(jì)算機(jī)領(lǐng)域,更具體地講,涉及一種基于大模型智能體的非獨(dú)立同分布數(shù)據(jù)模擬增強(qiáng)方法。
背景技術(shù):
1、如今,推薦系統(tǒng)已經(jīng)成為了在線內(nèi)容平臺(tái)的重要組成部分。隨著平臺(tái)愈發(fā)重視長(zhǎng)期的可持續(xù)發(fā)展,如何有效的評(píng)估推薦算法的長(zhǎng)期影響和表現(xiàn)成為了一個(gè)重要的問(wèn)題。當(dāng)我們考慮推薦算法對(duì)于平臺(tái)的長(zhǎng)期影響時(shí),內(nèi)容創(chuàng)作者是一項(xiàng)不可忽視的角色。因?yàn)槠洳粩嗤ㄟ^(guò)上傳新的商品重塑平臺(tái)的商品池,同時(shí)其行為(如離開(kāi)平臺(tái),上傳商品)也受到推薦算法的間接影響,從而影響平臺(tái)的長(zhǎng)期發(fā)展。除此之外,雖然在線測(cè)試能夠在具有創(chuàng)作者的環(huán)境中評(píng)估,但是由于長(zhǎng)期進(jìn)行在線測(cè)試的開(kāi)銷太大,模擬器被認(rèn)為是更加高效的解決方案。因此,為了更高效的對(duì)推薦算法進(jìn)行長(zhǎng)期評(píng)估,構(gòu)建一個(gè)模擬創(chuàng)作者與平臺(tái)的交互行為的模擬器是至關(guān)重要的。
2、評(píng)估推薦系統(tǒng)的長(zhǎng)期影響的關(guān)鍵在于考慮創(chuàng)作者和推薦系統(tǒng)之間的交互行為模式,而現(xiàn)有的建模方法并不能很好的捕獲到這種模式。目前大部分基于強(qiáng)化學(xué)習(xí)的模擬器沒(méi)有對(duì)創(chuàng)作者的行為進(jìn)行建模,并且主要關(guān)注評(píng)估強(qiáng)化學(xué)習(xí)算法;而少數(shù)考慮創(chuàng)作者行為的模擬器也因?yàn)槠浠谝?guī)則的方法而無(wú)法與真實(shí)世界創(chuàng)作者行為對(duì)齊。首次利用大模型的模擬人類行為的能力,引入記憶、行為等模塊對(duì)用戶的觀看、點(diǎn)贊等行為進(jìn)行模擬。
3、盡管現(xiàn)有的模擬器已經(jīng)在用戶模擬上取得了較為優(yōu)異的表現(xiàn),但大部分模擬器忽視了對(duì)創(chuàng)作者行為的建模,使其無(wú)法充分捕捉現(xiàn)實(shí)世界推薦系統(tǒng)對(duì)平臺(tái)對(duì)長(zhǎng)期的影響。而少部分考慮了創(chuàng)作者行為的模擬器,由于其基于規(guī)則的方法,使其行為與真實(shí)世界創(chuàng)作者的策略性創(chuàng)作行為具有一定差距。
技術(shù)實(shí)現(xiàn)思路
1、本公開(kāi)的實(shí)施例的目的在于提供一種基于大模型智能體的非獨(dú)立同分布數(shù)據(jù)模擬增強(qiáng)方法,針對(duì)推薦系統(tǒng)中的長(zhǎng)期評(píng)估問(wèn)題提出了一個(gè)基于大模型智能體的創(chuàng)作者模擬器,更好地幫助創(chuàng)作者智能體理解有限的用戶反饋信息并增強(qiáng)其分析和創(chuàng)作能力。
2、在一個(gè)總的方面,提供一種基于大模型智能體的非獨(dú)立同分布數(shù)據(jù)模擬方法,智能體由個(gè)人資料模塊、記憶模塊、信念模塊、創(chuàng)作模塊四個(gè)模塊,并通過(guò)訓(xùn)練構(gòu)成智能體部署在系統(tǒng)環(huán)境上,通過(guò)用戶端訪問(wèn)所述智能體并得到輸出結(jié)果,所述用戶端的操作則會(huì)構(gòu)成反饋信息輸入記憶模塊的反饋記憶;個(gè)人資料模塊通過(guò)真實(shí)數(shù)據(jù)集初始化創(chuàng)作者的社會(huì)身份、創(chuàng)作內(nèi)在動(dòng)機(jī)和創(chuàng)作活躍度,以活躍度來(lái)控制創(chuàng)作者模擬器的創(chuàng)作頻率,并在每次創(chuàng)作的時(shí)候?qū)⑸鐣?huì)身份和內(nèi)在動(dòng)機(jī)作為文本提示輸入到創(chuàng)作模塊輔助大模型創(chuàng)作。
3、在推薦系統(tǒng)的離線長(zhǎng)期評(píng)估的時(shí)候,模擬推薦系統(tǒng)的內(nèi)容(商品)池的動(dòng)態(tài)變化十分重要,這樣的動(dòng)態(tài)變化需要靠不斷的向商品池中注入模擬內(nèi)容數(shù)據(jù)來(lái)實(shí)現(xiàn)。同時(shí),這樣的模擬內(nèi)容數(shù)據(jù)需要與真實(shí)世界的數(shù)據(jù)(文本內(nèi)容、內(nèi)容品類)獨(dú)立同分布,同時(shí),還需要與真實(shí)創(chuàng)作者個(gè)體創(chuàng)作的內(nèi)容保持一致。傳統(tǒng)的推薦模擬器沒(méi)有實(shí)現(xiàn)這種動(dòng)態(tài)商品池的模擬,導(dǎo)致無(wú)法模擬推薦平臺(tái)的長(zhǎng)期動(dòng)態(tài)變化,為推薦系統(tǒng)的長(zhǎng)期評(píng)估造成了困難。因此,我們提出了基于大模型智能體創(chuàng)作者模擬器來(lái)實(shí)現(xiàn)這樣獨(dú)立同分布的數(shù)據(jù)模擬。所述智能體的構(gòu)建過(guò)程,首先通過(guò)所述個(gè)人資料模塊對(duì)創(chuàng)作者的固有特征進(jìn)行初始化;所述記憶模塊用于反映真實(shí)創(chuàng)作者的反饋記憶和創(chuàng)作記憶,其中創(chuàng)作記憶依據(jù)相關(guān)性和時(shí)效性檢索創(chuàng)作模塊中的快思考模塊,將反饋記憶中最近的創(chuàng)作實(shí)例輸入創(chuàng)作模塊中的慢思考模塊;所述信念模塊感知?jiǎng)?chuàng)作者通過(guò)反饋記憶在有限用戶反饋下的信息認(rèn)知更新以及創(chuàng)作記憶的信息更新,而后作為所述創(chuàng)作模塊的慢思考模塊的輸入;所述創(chuàng)作模塊采用快慢思考結(jié)合來(lái)還原真實(shí)世界創(chuàng)作者創(chuàng)作過(guò)程,包括快思考模塊和慢思考模塊,所述慢思考模塊的處理結(jié)果應(yīng)用于所述快思考模塊,最終得到處理結(jié)果并向用戶反饋。通過(guò)這樣的模擬創(chuàng)作,所構(gòu)建的創(chuàng)作者智能體能夠有效的生成與真實(shí)平臺(tái)數(shù)據(jù)獨(dú)立同分布的文本內(nèi)容,同時(shí),能夠很好的與真實(shí)創(chuàng)作者創(chuàng)作的內(nèi)容保持內(nèi)容和品類一致性。通過(guò)將其注入到推薦模擬器當(dāng)中,能夠有效的模擬推薦系統(tǒng)的長(zhǎng)期動(dòng)態(tài),增強(qiáng)推薦系統(tǒng)的長(zhǎng)期模擬的和評(píng)估。
4、所述個(gè)人資料模塊的實(shí)現(xiàn)方式為:預(yù)先收集的真實(shí)世界數(shù)據(jù)集來(lái)初始化的個(gè)人資料,配置文件包含社會(huì)身份、內(nèi)在動(dòng)機(jī)和創(chuàng)作活躍度三個(gè)維度;
5、其中,社會(huì)身份通過(guò)分析創(chuàng)作者的創(chuàng)作歷史和基本信息獲得,內(nèi)在動(dòng)機(jī)利用大語(yǔ)言模型總結(jié)獲得,創(chuàng)作活躍度表示每個(gè)創(chuàng)作者每天平均創(chuàng)作的物品數(shù)量。
6、所述記憶模塊構(gòu)建兩種記憶:反饋記憶和創(chuàng)作記憶。
7、所述反饋記憶的構(gòu)建方法為:將創(chuàng)作者c的反饋記憶表示為由于其在信息不對(duì)稱狀態(tài)中的位置,在每個(gè)時(shí)間步n結(jié)束時(shí),反饋記憶將根據(jù)平臺(tái)提供的關(guān)于歷史創(chuàng)作的部分用戶反饋信息進(jìn)行更新。
8、
9、所述創(chuàng)作記憶存儲(chǔ)創(chuàng)作者智能體的歷史創(chuàng)作商品信息。
10、所述信念模塊的實(shí)現(xiàn)方法為:構(gòu)建技能信念和受眾信念,其中技能信念在信息代表創(chuàng)作者對(duì)自己創(chuàng)作每種類型商品能力的置信度,這被定義為他們創(chuàng)作的每種類型內(nèi)容的比例,在每個(gè)時(shí)間步n開(kāi)始時(shí),創(chuàng)作者c對(duì)類型g的技能置信度將根據(jù)創(chuàng)作記憶進(jìn)行更新;
11、
12、受眾信念代表了創(chuàng)作者對(duì)每個(gè)類型用戶偏好的內(nèi)部理解和期望,在每個(gè)時(shí)間步n開(kāi)始時(shí),創(chuàng)作者c在類型g中的受眾信念將根據(jù)存儲(chǔ)在反饋記憶中的用戶反饋進(jìn)行更新;
13、
14、所述創(chuàng)作模塊的實(shí)現(xiàn)方法為:思維過(guò)程分為兩個(gè)階段:慢思考用于戰(zhàn)略規(guī)劃和分析,快思考則基于經(jīng)驗(yàn)和本能進(jìn)行快速內(nèi)容生成;
15、所述慢思考階段反應(yīng)在每次創(chuàng)作過(guò)程中,用戶對(duì)最近創(chuàng)作商品的反饋會(huì)直接影響創(chuàng)作者對(duì)其當(dāng)前創(chuàng)作策略是否繼續(xù)或改變的判斷,在每個(gè)時(shí)間步n開(kāi)始時(shí),創(chuàng)作者接收三個(gè)關(guān)鍵因素作為輸入:(1)最近創(chuàng)作商品的效用,即zi(n),(2)技能信念和受眾信念(3)社會(huì)身份和內(nèi)在動(dòng)機(jī)隨后,三個(gè)關(guān)鍵因素輸入通過(guò)設(shè)計(jì)的提示p1輸入到大語(yǔ)言模型中進(jìn)行慢思考:
16、
17、所述快思考階段為,在生成分析結(jié)果后,創(chuàng)造者智能體根據(jù)分析結(jié)果發(fā)現(xiàn)生成內(nèi)容,生成內(nèi)容主要分為四個(gè)部分:商品標(biāo)題、商品類型、商品標(biāo)簽和商品描述,在創(chuàng)作內(nèi)容之前,創(chuàng)造者智能體根據(jù)動(dòng)作從創(chuàng)造記憶中檢索創(chuàng)造經(jīng)驗(yàn)以協(xié)助快速思考者在創(chuàng)造過(guò)程中的工作;
18、
19、所述訓(xùn)練方法為:
20、使用近端策略優(yōu)化算法(ppo)對(duì)創(chuàng)造者智能體進(jìn)行微調(diào),獎(jiǎng)勵(lì)公式為:獲得最終的用戶對(duì)物品預(yù)測(cè)分?jǐn)?shù)后,利用成對(duì)排名損失來(lái)優(yōu)化所有可訓(xùn)練參數(shù)θ。
21、本發(fā)明實(shí)施例的所要實(shí)現(xiàn)的技術(shù)效果在于:
22、提出一種新穎的基于大模型智能體的非獨(dú)立同分布數(shù)據(jù)模擬器來(lái)對(duì)推薦平臺(tái)中的平臺(tái)-創(chuàng)作者信息不對(duì)稱下行為進(jìn)行建模;利用真實(shí)平臺(tái)數(shù)據(jù)初始化個(gè)人資料模塊來(lái)還原創(chuàng)作者智能體的創(chuàng)作偏好,采用反饋和創(chuàng)作記憶結(jié)合來(lái)輔助創(chuàng)作者智能體的創(chuàng)作過(guò)程;同時(shí),受到博弈論和認(rèn)知科學(xué)相關(guān)研究的啟發(fā)利用信念、創(chuàng)作等模塊來(lái)模擬創(chuàng)作者在有限信息下的認(rèn)知過(guò)程
23、本發(fā)明可以集成于各類離線推薦模擬環(huán)境,用于評(píng)估現(xiàn)有的各種推薦算法,具有廣泛的應(yīng)用場(chǎng)景。
1.一種基于大模型智能體的非獨(dú)立同分布數(shù)據(jù)模擬方法,其特征在于,智能體由個(gè)人資料模塊、記憶模塊、信念模塊、創(chuàng)作模塊四個(gè)模塊,并通過(guò)訓(xùn)練構(gòu)成智能體部署在系統(tǒng)環(huán)境上,通過(guò)用戶端訪問(wèn)所述智能體并得到輸出結(jié)果,所述用戶端的操作則會(huì)構(gòu)成反饋信息輸入記憶模塊的反饋記憶;個(gè)人資料模塊通過(guò)真實(shí)數(shù)據(jù)集初始化創(chuàng)作者的社會(huì)身份、創(chuàng)作內(nèi)在動(dòng)機(jī)和創(chuàng)作活躍度,以活躍度來(lái)控制創(chuàng)作者模擬器的創(chuàng)作頻率,并在每次創(chuàng)作的時(shí)候?qū)⑸鐣?huì)身份和內(nèi)在動(dòng)機(jī)作為文本提示輸入到創(chuàng)作模塊輔助大模型創(chuàng)作;
2.如權(quán)利要求1所述的一種基于大模型智能體的非獨(dú)立同分布數(shù)據(jù)模擬方法,其特征在于,所述個(gè)人資料模塊的實(shí)現(xiàn)方式為:預(yù)先收集的真實(shí)世界數(shù)據(jù)集來(lái)初始化的個(gè)人資料,配置文件包含社會(huì)身份、內(nèi)在動(dòng)機(jī)和創(chuàng)作活躍度三個(gè)維度;
3.如權(quán)利要求2所述的一種基于大模型智能體的非獨(dú)立同分布數(shù)據(jù)模擬方法,其特征在于,所述記憶模塊構(gòu)建兩種記憶:反饋記憶和創(chuàng)作記憶。
4.如權(quán)利要求3所述的一種基于大模型智能體的非獨(dú)立同分布數(shù)據(jù)模擬方法,其特征在于,所述反饋記憶的構(gòu)建方法為:將創(chuàng)作者c的反饋記憶表示為由于其在信息不對(duì)稱狀態(tài)中的位置,在每個(gè)時(shí)間步n結(jié)束時(shí),反饋記憶將根據(jù)平臺(tái)提供的關(guān)于歷史創(chuàng)作的部分用戶反饋信息進(jìn)行更新。
5.如權(quán)利要求4所述的一種基于大模型智能體的非獨(dú)立同分布數(shù)據(jù)模擬方法,其特征在于,所述信念模塊的實(shí)現(xiàn)方法為:構(gòu)建技能信念和受眾信念,其中技能信念在信息代表創(chuàng)作者對(duì)自己創(chuàng)作每種類型商品能力的置信度,這被定義為他們創(chuàng)作的每種類型內(nèi)容的比例,在每個(gè)時(shí)間步n開(kāi)始時(shí),創(chuàng)作者c對(duì)類型g的技能置信度將根據(jù)創(chuàng)作記憶進(jìn)行更新;
6.如權(quán)利要求5所述的一種基于大模型智能體的非獨(dú)立同分布數(shù)據(jù)模擬方法,其特征在于,所述創(chuàng)作模塊的實(shí)現(xiàn)方法為:思維過(guò)程分為兩個(gè)階段:慢思考用于戰(zhàn)略規(guī)劃和分析,快思考則基于經(jīng)驗(yàn)和本能進(jìn)行快速內(nèi)容生成;
7.如權(quán)利要求6所述的一種基于大模型智能體的非獨(dú)立同分布數(shù)據(jù)模擬方法,其特征在于,所述訓(xùn)練方法為: