游戲機(jī)器人的訓(xùn)練方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào)：41561199發(fā)布日期：2025-04-08 18:14閱讀：10來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>休閑,運(yùn)動(dòng),玩具,娛樂(lè)用品的裝置及其制品制造技術(shù)

游戲機(jī)器人的訓(xùn)練方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

本申請(qǐng)涉及人工智能，尤其涉及一種游戲機(jī)器人的訓(xùn)練方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。

背景技術(shù)：

1、隨著人工智能的深入研究，在游戲中植入游戲機(jī)器人模擬人類玩家決策是游戲領(lǐng)域的重要研究方向之一。

2、相關(guān)技術(shù)提供的游戲機(jī)器人一般采用基于規(guī)則的方法和傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法做出游戲決策。然而，由于基于規(guī)則的方法依賴于預(yù)先設(shè)定的固定規(guī)則，因此難以應(yīng)對(duì)復(fù)雜多變的游戲場(chǎng)景，容易出現(xiàn)策略僵化的問(wèn)題，導(dǎo)致無(wú)法有效捕捉復(fù)雜的玩家行為和動(dòng)態(tài)策略，造成游戲機(jī)器人的游戲決策缺乏靈活性和適應(yīng)性；傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法則往往需要大量的試錯(cuò)和時(shí)間來(lái)學(xué)習(xí)有效的策略，訓(xùn)練效率低。

3、因此，如何在提高訓(xùn)練效率的同時(shí)，提供具有更高決策能力的游戲機(jī)器人，成為了亟待解決的技術(shù)問(wèn)題。

技術(shù)實(shí)現(xiàn)思路

1、本申請(qǐng)實(shí)施例的主要目的在于提出一種游戲機(jī)器人的訓(xùn)練方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)，旨在提高訓(xùn)練效率，提供具有更高決策能力的游戲機(jī)器人。

2、為實(shí)現(xiàn)上述目的，本申請(qǐng)實(shí)施例的第一方面提出了一種游戲機(jī)器人的訓(xùn)練方法，所述方法包括：

3、獲取目標(biāo)游戲的第一游戲狀態(tài)和所述第一游戲狀態(tài)下人類玩家的第一決策數(shù)據(jù)；

4、基于所述第一游戲狀態(tài)和所述第一決策數(shù)據(jù)，對(duì)預(yù)設(shè)的獎(jiǎng)勵(lì)模型進(jìn)行訓(xùn)練，得到訓(xùn)練好的獎(jiǎng)勵(lì)模型；

5、獲取所述目標(biāo)游戲的第二游戲狀態(tài)和所述第二游戲狀態(tài)下游戲機(jī)器人的第二決策數(shù)據(jù)；

6、通過(guò)所述訓(xùn)練好的獎(jiǎng)勵(lì)模型，基于所述第二游戲狀態(tài)和所述第二決策數(shù)據(jù)進(jìn)行獎(jiǎng)勵(lì)預(yù)測(cè)，得到所述游戲機(jī)器人的獎(jiǎng)勵(lì)；

7、基于所述第二游戲狀態(tài)、所述第二決策數(shù)據(jù)和所述獎(jiǎng)勵(lì)，對(duì)所述游戲機(jī)器人進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練，得到訓(xùn)練好的游戲機(jī)器人。

8、為實(shí)現(xiàn)上述目的，本申請(qǐng)實(shí)施例的第二方面提出了一種游戲機(jī)器人的訓(xùn)練裝置，所述裝置包括：

9、第一獲取模塊，用于獲取目標(biāo)游戲的第一游戲狀態(tài)和所述第一游戲狀態(tài)下人類玩家的第一決策數(shù)據(jù)；

10、獎(jiǎng)勵(lì)模型訓(xùn)練模塊，用于基于所述第一游戲狀態(tài)和所述第一決策數(shù)據(jù)，對(duì)預(yù)設(shè)的獎(jiǎng)勵(lì)模型進(jìn)行訓(xùn)練，得到訓(xùn)練好的獎(jiǎng)勵(lì)模型；

11、第二獲取模塊，用于獲取所述目標(biāo)游戲的第二游戲狀態(tài)和所述第二游戲狀態(tài)下游戲機(jī)器人的第二決策數(shù)據(jù)；

12、獎(jiǎng)勵(lì)預(yù)測(cè)模塊，用于通過(guò)所述訓(xùn)練好的獎(jiǎng)勵(lì)模型，基于所述第二游戲狀態(tài)和所述第二決策數(shù)據(jù)進(jìn)行獎(jiǎng)勵(lì)預(yù)測(cè)，得到所述游戲機(jī)器人的獎(jiǎng)勵(lì)；

13、游戲機(jī)器人訓(xùn)練模塊，用于基于所述第二游戲狀態(tài)、所述第二決策數(shù)據(jù)和所述獎(jiǎng)勵(lì)，對(duì)所述游戲機(jī)器人進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練，得到訓(xùn)練好的游戲機(jī)器人。

14、為實(shí)現(xiàn)上述目的，本申請(qǐng)實(shí)施例的第三方面提出了一種計(jì)算機(jī)設(shè)備，所述計(jì)算機(jī)設(shè)備包括存儲(chǔ)器和處理器，所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述第一方面所述的方法。

15、為實(shí)現(xiàn)上述目的，本申請(qǐng)實(shí)施例的第四方面提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述第一方面所述的方法。

16、本申請(qǐng)?zhí)岢龅挠螒驒C(jī)器人的訓(xùn)練方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)，該游戲機(jī)器人的訓(xùn)練方法，獲取目標(biāo)游戲的第一游戲狀態(tài)和第一游戲狀態(tài)下人類玩家的第一決策數(shù)據(jù)；基于第一游戲狀態(tài)和第一決策數(shù)據(jù)，對(duì)預(yù)設(shè)的獎(jiǎng)勵(lì)模型進(jìn)行訓(xùn)練，得到訓(xùn)練好的獎(jiǎng)勵(lì)模型；獲取目標(biāo)游戲的第二游戲狀態(tài)和第二游戲狀態(tài)下游戲機(jī)器人的第二決策數(shù)據(jù)；通過(guò)訓(xùn)練好的獎(jiǎng)勵(lì)模型，基于第二游戲狀態(tài)和第二決策數(shù)據(jù)進(jìn)行獎(jiǎng)勵(lì)預(yù)測(cè)，得到游戲機(jī)器人的獎(jiǎng)勵(lì)；基于第二游戲狀態(tài)、第二決策數(shù)據(jù)和獎(jiǎng)勵(lì)，對(duì)游戲機(jī)器人進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練，得到訓(xùn)練好的游戲機(jī)器人。這樣，通過(guò)第一游戲狀態(tài)和第一游戲狀態(tài)下人類玩家的第一決策數(shù)據(jù)，對(duì)獎(jiǎng)勵(lì)模型進(jìn)行訓(xùn)練，能夠確保獎(jiǎng)勵(lì)模型在訓(xùn)練中接觸到人類玩家真實(shí)面臨的復(fù)雜化、變化多端的決策場(chǎng)景，提高了獎(jiǎng)勵(lì)模型的適應(yīng)能力和泛化能力，從而能夠提高獎(jiǎng)勵(lì)模型的訓(xùn)練效果，使得訓(xùn)練好的獎(jiǎng)勵(lì)模型能夠快速預(yù)測(cè)更準(zhǔn)確的獎(jiǎng)勵(lì)，以便游戲機(jī)器人通過(guò)訓(xùn)練好的獎(jiǎng)勵(lì)模型及時(shí)獲得更準(zhǔn)確的獎(jiǎng)勵(lì)，不僅有助于游戲機(jī)器人在訓(xùn)練中減少無(wú)效的探索，從而提高訓(xùn)練游戲機(jī)器人的訓(xùn)練效率，并且能夠有效地指導(dǎo)游戲機(jī)器人模仿學(xué)習(xí)人類玩家的決策，使得訓(xùn)練好的游戲機(jī)器人的決策能力更加接近人類玩家，增強(qiáng)訓(xùn)練好的游戲機(jī)器人的智能水平，由此提高了訓(xùn)練好的游戲機(jī)器人的決策能力。

技術(shù)特征：

1.一種游戲機(jī)器人的訓(xùn)練方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述基于所述第一游戲狀態(tài)和所述第一決策數(shù)據(jù)，對(duì)預(yù)設(shè)的獎(jiǎng)勵(lì)模型進(jìn)行訓(xùn)練，得到訓(xùn)練好的獎(jiǎng)勵(lì)模型，包括：

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述將所述第一融合特征輸入至所述獎(jiǎng)勵(lì)模型進(jìn)行訓(xùn)練，得到所述訓(xùn)練好的獎(jiǎng)勵(lì)模型，包括：

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述通過(guò)所述訓(xùn)練好的獎(jiǎng)勵(lì)模型，基于所述第二游戲狀態(tài)和所述第二決策數(shù)據(jù)進(jìn)行獎(jiǎng)勵(lì)預(yù)測(cè)，得到所述游戲機(jī)器人的獎(jiǎng)勵(lì)，包括：

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述基于所述第二游戲狀態(tài)、所述第二決策數(shù)據(jù)和所述獎(jiǎng)勵(lì)，對(duì)所述游戲機(jī)器人進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練，得到訓(xùn)練好的游戲機(jī)器人，包括：

6.根據(jù)權(quán)利要求1至5任一項(xiàng)所述的方法，其特征在于，還包括：

7.根據(jù)權(quán)利要求1至5任一項(xiàng)所述的方法，其特征在于，還包括：

8.一種游戲機(jī)器人的訓(xùn)練裝置，其特征在于，所述裝置包括：

9.一種計(jì)算機(jī)設(shè)備，其特征在于，所述計(jì)算機(jī)設(shè)備包括存儲(chǔ)器和處理器，所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至7任一項(xiàng)所述的游戲機(jī)器人的訓(xùn)練方法。

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的游戲機(jī)器人的訓(xùn)練方法。

技術(shù)總結(jié)
本申請(qǐng)實(shí)施例提供了一種游戲機(jī)器人的訓(xùn)練方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)，屬于人工智能技術(shù)領(lǐng)域。該方法包括：獲取目標(biāo)游戲的第一游戲狀態(tài)和第一游戲狀態(tài)下人類玩家的第一決策數(shù)據(jù)；基于第一游戲狀態(tài)和第一決策數(shù)據(jù)，對(duì)預(yù)設(shè)的獎(jiǎng)勵(lì)模型進(jìn)行訓(xùn)練，得到訓(xùn)練好的獎(jiǎng)勵(lì)模型；獲取目標(biāo)游戲的第二游戲狀態(tài)和第二游戲狀態(tài)下游戲機(jī)器人的第二決策數(shù)據(jù)；通過(guò)訓(xùn)練好的獎(jiǎng)勵(lì)模型，基于第二游戲狀態(tài)和第二決策數(shù)據(jù)進(jìn)行獎(jiǎng)勵(lì)預(yù)測(cè)，得到游戲機(jī)器人的獎(jiǎng)勵(lì)；基于第二游戲狀態(tài)、第二決策數(shù)據(jù)和獎(jiǎng)勵(lì)，對(duì)游戲機(jī)器人進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練，得到訓(xùn)練好的游戲機(jī)器人。本申請(qǐng)實(shí)施例能夠提高訓(xùn)練效率，提供具有更高決策能力的游戲機(jī)器人。

技術(shù)研發(fā)人員：紀(jì)曉龍,季興,張正生
受保護(hù)的技術(shù)使用者：超參數(shù)科技（深圳）有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/4/7

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：紀(jì)曉龍,季興,張正生
技術(shù)所有人：超參數(shù)科技（深圳）有限公司
我是此專利的發(fā)明人

上一篇：一種定日鏡清洗裝置的制作方法
上一篇：一種墻板安裝調(diào)節(jié)結(jié)構(gòu)的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

游戲機(jī)器人的訓(xùn)練方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

游戲機(jī)器人的訓(xùn)練方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程