深度強(qiáng)化學(xué)習(xí)的演算系統(tǒng)及其演算方法與流程

文檔序號(hào)：41959283發(fā)布日期：2025-05-20 16:53閱讀：1來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

深度強(qiáng)化學(xué)習(xí)的演算系統(tǒng)及其演算方法與流程

本公開涉及一種演算技術(shù)，且特別涉及一種深度強(qiáng)化學(xué)習(xí)的演算系統(tǒng)及其演算方法。

背景技術(shù)：

1、目前人工智能的深度強(qiáng)化學(xué)習(xí)算法在機(jī)器視覺、工業(yè)機(jī)器手臂的應(yīng)用廣泛。強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí)技術(shù)，其特點(diǎn)為能在未知的環(huán)境內(nèi)自主探索，并訓(xùn)練出一個(gè)可完成多步驟決策問題的智能體模型。智能體會(huì)根據(jù)對(duì)目前環(huán)境狀態(tài)的觀察做出動(dòng)作，并獲得獎(jiǎng)勵(lì)的回饋。智能體會(huì)依據(jù)獲得的獎(jiǎng)勵(lì)信息逐漸更新選擇動(dòng)作的策略，以最大化在環(huán)境中所獲得的獎(jiǎng)勵(lì)。

2、其中，強(qiáng)化學(xué)習(xí)牽涉到兩個(gè)不同的步驟：經(jīng)驗(yàn)收集與網(wǎng)絡(luò)更新。在經(jīng)驗(yàn)收集步驟當(dāng)中，需要依據(jù)目前的策略去評(píng)估環(huán)境的輸入信息，以決定在環(huán)境中下一步所要執(zhí)行的動(dòng)作；而在網(wǎng)絡(luò)更新步驟當(dāng)中，則根據(jù)過去在環(huán)境中所收集到的數(shù)據(jù)進(jìn)行運(yùn)算，以更新目前模型的策略。其中經(jīng)驗(yàn)收集步驟需進(jìn)行推論運(yùn)算、網(wǎng)絡(luò)更新步驟需進(jìn)行訓(xùn)練運(yùn)算。

3、目前現(xiàn)有的深度強(qiáng)化學(xué)習(xí)加速器，通常采取同一套運(yùn)算資源支持訓(xùn)練與推論的方法，但同一時(shí)間只能處理訓(xùn)練或推論中的其中一種，這使得深度強(qiáng)化學(xué)習(xí)的兩個(gè)部分又必須輪流進(jìn)行。其中推論階段因?yàn)榕螖?shù)量少、需等待環(huán)境響應(yīng)而面臨硬件利用率低、延遲時(shí)間長(zhǎng)的問題，使現(xiàn)有的架構(gòu)在整體的強(qiáng)化學(xué)習(xí)算法執(zhí)行的時(shí)間較長(zhǎng)。因此，如何解決現(xiàn)有深度強(qiáng)化學(xué)習(xí)加速器只能單獨(dú)處理訓(xùn)練或推論使延遲較長(zhǎng)的問題，將是需要突破的課題。

技術(shù)實(shí)現(xiàn)思路

1、本公開提供一種深度強(qiáng)化學(xué)習(xí)的演算系統(tǒng)，包括：內(nèi)存、輸入/輸出接口以及處理器。內(nèi)存用以存儲(chǔ)環(huán)境的之前狀態(tài)、模型的之前策略、推論程序以及訓(xùn)練程序。處理器耦接內(nèi)存以及輸入/輸出接口，用以執(zhí)行通過輸入/輸出接口對(duì)環(huán)境和模型進(jìn)行初始化；自內(nèi)存讀取推論程序以及訓(xùn)練程序，其中推論程序?qū)?yīng)于經(jīng)驗(yàn)收集流程，訓(xùn)練程序?qū)?yīng)于網(wǎng)絡(luò)更新流程；并行執(zhí)行經(jīng)驗(yàn)收集流程以及網(wǎng)絡(luò)更新流程，并判斷經(jīng)驗(yàn)收集流程以及網(wǎng)絡(luò)更新流程是否達(dá)到終止條件；響應(yīng)于經(jīng)驗(yàn)收集流程以及網(wǎng)絡(luò)更新流程均未達(dá)終止條件，持續(xù)并行執(zhí)行經(jīng)驗(yàn)收集流程以及網(wǎng)絡(luò)更新流程；以及響應(yīng)于經(jīng)驗(yàn)收集流程以及網(wǎng)絡(luò)更新流程當(dāng)中的一個(gè)已達(dá)終止條件，結(jié)束執(zhí)行經(jīng)驗(yàn)收集流程以及網(wǎng)絡(luò)更新流程。其中經(jīng)驗(yàn)收集流程包括通過輸入/輸出接口獲取環(huán)境的當(dāng)前狀態(tài)，當(dāng)前狀態(tài)包括當(dāng)前獎(jiǎng)勵(lì)數(shù)值以及當(dāng)前觀察數(shù)值；根據(jù)模型的當(dāng)前策略，基于當(dāng)前觀察數(shù)值運(yùn)算以決定當(dāng)前動(dòng)作；以及通過輸入/輸出接口回傳當(dāng)前動(dòng)作至環(huán)境。其中網(wǎng)絡(luò)更新流程包括自內(nèi)存獲取環(huán)境的之前狀態(tài)以及模型的之前策略，之前狀態(tài)包括之前動(dòng)作、之前獎(jiǎng)勵(lì)數(shù)值以及之前觀察數(shù)值；基于之前狀態(tài)運(yùn)算以決定當(dāng)前數(shù)據(jù)；以及基于當(dāng)前數(shù)據(jù)將模型的之前策略更新為當(dāng)前策略。

2、在一實(shí)施例中，處理器還包括推論處理模塊以及訓(xùn)練處理模塊。推論處理模塊用以自內(nèi)存讀取推論程序，并執(zhí)行經(jīng)驗(yàn)收集流程；訓(xùn)練處理模塊用以自內(nèi)存讀取訓(xùn)練程序，并執(zhí)行網(wǎng)絡(luò)更新流程。

3、在一實(shí)施例中，當(dāng)處理器執(zhí)行經(jīng)驗(yàn)收集流程時(shí)還用以執(zhí)行：判斷經(jīng)驗(yàn)收集流程的執(zhí)行次數(shù)是否達(dá)到執(zhí)行次數(shù)閾值；以及響應(yīng)于執(zhí)行次數(shù)達(dá)到執(zhí)行次數(shù)閾值，判定經(jīng)驗(yàn)收集流程達(dá)到終止條件。

4、在一實(shí)施例中，當(dāng)處理器執(zhí)行網(wǎng)絡(luò)更新流程時(shí)還用以執(zhí)行：判斷網(wǎng)絡(luò)更新流程的執(zhí)行次數(shù)是否達(dá)到執(zhí)行次數(shù)閾值；以及響應(yīng)于執(zhí)行次數(shù)達(dá)到執(zhí)行次數(shù)閾值，判定網(wǎng)絡(luò)更新流程達(dá)到終止條件。

5、在一實(shí)施例中，當(dāng)處理器執(zhí)行經(jīng)驗(yàn)收集流程時(shí)還用以執(zhí)行：當(dāng)環(huán)境通過該輸入/輸出接口接收當(dāng)前動(dòng)作后，判斷環(huán)境的當(dāng)前狀態(tài)所對(duì)應(yīng)的成功率是否達(dá)到成功率閾值；以及響應(yīng)于成功率達(dá)到成功率閾值，判定經(jīng)驗(yàn)收集流程達(dá)到終止條件。

6、在一實(shí)施例中，當(dāng)處理器執(zhí)行網(wǎng)絡(luò)更新流程時(shí)還用以：根據(jù)模型的當(dāng)前策略，基于之前觀察數(shù)值運(yùn)算以決定當(dāng)前動(dòng)作；當(dāng)環(huán)境通過輸入/輸出接口接收當(dāng)前動(dòng)作后，判斷環(huán)境的當(dāng)前狀態(tài)所對(duì)應(yīng)的成功率是否達(dá)到成功率閾值；以及響應(yīng)于成功率達(dá)到成功率閾值，判定經(jīng)驗(yàn)收集流程達(dá)到終止條件。

7、本公開提供一種深度強(qiáng)化學(xué)習(xí)的演算方法，包括對(duì)環(huán)境和模型進(jìn)行初始化；并行執(zhí)行經(jīng)驗(yàn)收集流程以及網(wǎng)絡(luò)更新流程，并判斷經(jīng)驗(yàn)收集流程以及網(wǎng)絡(luò)更新流程是否達(dá)到終止條件；響應(yīng)于經(jīng)驗(yàn)收集流程以及網(wǎng)絡(luò)更新流程均未達(dá)終止條件，持續(xù)并行執(zhí)行經(jīng)驗(yàn)收集流程以及網(wǎng)絡(luò)更新流程；以及響應(yīng)于經(jīng)驗(yàn)收集流程以及該網(wǎng)絡(luò)更新流程當(dāng)中的一個(gè)已達(dá)終止條件，結(jié)束執(zhí)行經(jīng)驗(yàn)收集流程以及網(wǎng)絡(luò)更新流程。經(jīng)驗(yàn)收集流程包括獲取環(huán)境的當(dāng)前狀態(tài)，當(dāng)前狀態(tài)包括當(dāng)前獎(jiǎng)勵(lì)數(shù)值以及當(dāng)前觀察數(shù)值；根據(jù)模型的當(dāng)前策略，基于當(dāng)前觀察數(shù)值運(yùn)算以決定當(dāng)前動(dòng)作；以及回傳當(dāng)前動(dòng)作至環(huán)境。網(wǎng)絡(luò)更新流程包括獲取環(huán)境的之前狀態(tài)以及模型的之前策略，之前狀態(tài)包括之前動(dòng)作、之前獎(jiǎng)勵(lì)數(shù)值以及之前觀察數(shù)值；基于之前狀態(tài)運(yùn)算以決定當(dāng)前數(shù)據(jù)；以及基于當(dāng)前數(shù)據(jù)將模型的之前策略更新為當(dāng)前策略。

8、基于上述，本發(fā)明所述的深度強(qiáng)化學(xué)習(xí)的演算系統(tǒng)及其演算方法提供一種訓(xùn)練與推論一體的解決方案，通過并行處理的方式同時(shí)進(jìn)行經(jīng)驗(yàn)收集和網(wǎng)絡(luò)更新，有效提高硬件利用率和減少延遲時(shí)間。

技術(shù)特征：

1.一種深度強(qiáng)化學(xué)習(xí)的演算系統(tǒng)，包括：

2.根據(jù)權(quán)利要求1所述的深度強(qiáng)化學(xué)習(xí)的演算系統(tǒng)，其中該處理器還包括：

3.根據(jù)權(quán)利要求1所述的深度強(qiáng)化學(xué)習(xí)的演算系統(tǒng)，其中當(dāng)該處理器執(zhí)行該經(jīng)驗(yàn)收集流程時(shí)還用以執(zhí)行：

4.根據(jù)權(quán)利要求1所述的深度強(qiáng)化學(xué)習(xí)的演算系統(tǒng)，其中當(dāng)該處理器執(zhí)行該網(wǎng)絡(luò)更新流程時(shí)還用以執(zhí)行：

5.根據(jù)權(quán)利要求1所述的深度強(qiáng)化學(xué)習(xí)的演算系統(tǒng)，其中當(dāng)該處理器執(zhí)行該經(jīng)驗(yàn)收集流程時(shí)還用以執(zhí)行：

6.根據(jù)權(quán)利要求1所述的深度強(qiáng)化學(xué)習(xí)的演算系統(tǒng)，其中當(dāng)該處理器執(zhí)行該網(wǎng)絡(luò)更新流程時(shí)還用以：

7.一種深度強(qiáng)化學(xué)習(xí)的演算方法，包括：

8.根據(jù)權(quán)利要求7所述的深度強(qiáng)化學(xué)習(xí)的演算方法，其中所述判斷該經(jīng)驗(yàn)收集流程是否達(dá)到終止條件的步驟還包括：

9.根據(jù)權(quán)利要求7所述的深度強(qiáng)化學(xué)習(xí)的演算方法，其中所述判斷該經(jīng)驗(yàn)收集流程是否達(dá)到終止條件的步驟還包括：

10.根據(jù)權(quán)利要求7所述的深度強(qiáng)化學(xué)習(xí)的演算方法，其中所述判斷該網(wǎng)絡(luò)更新流程是否達(dá)到終止條件的步驟還包括：

11.根據(jù)權(quán)利要求7所述的深度強(qiáng)化學(xué)習(xí)的演算方法，其中所述判斷該網(wǎng)絡(luò)更新流程是否達(dá)到終止條件的步驟還包括：

技術(shù)總結(jié)
一種深度強(qiáng)化學(xué)習(xí)的演算系統(tǒng)及其演算方法。該演算方法包括對(duì)環(huán)境和模型進(jìn)行初始化；并行執(zhí)行經(jīng)驗(yàn)收集流程以及網(wǎng)絡(luò)更新流程，并判斷經(jīng)驗(yàn)收集流程以及網(wǎng)絡(luò)更新流程是否達(dá)到終止條件；響應(yīng)于經(jīng)驗(yàn)收集流程以及網(wǎng)絡(luò)更新流程均未達(dá)終止條件，持續(xù)并行執(zhí)行經(jīng)驗(yàn)收集流程以及網(wǎng)絡(luò)更新流程；以及響應(yīng)于經(jīng)驗(yàn)收集流程以及該網(wǎng)絡(luò)更新流程當(dāng)中的一個(gè)已達(dá)終止條件，結(jié)束執(zhí)行經(jīng)驗(yàn)收集流程以及網(wǎng)絡(luò)更新流程。經(jīng)驗(yàn)收集流程包括獲取環(huán)境的當(dāng)前狀態(tài)；根據(jù)模型的當(dāng)前策略，基于當(dāng)前觀察數(shù)值運(yùn)算以決定當(dāng)前動(dòng)作；以及回傳當(dāng)前動(dòng)作至環(huán)境。網(wǎng)絡(luò)更新流程包括獲取環(huán)境的之前狀態(tài)以及模型的之前策略；基于之前狀態(tài)運(yùn)算以決定當(dāng)前數(shù)據(jù)；以及基于當(dāng)前數(shù)據(jù)將模型的之前策略更新為當(dāng)前策略。

技術(shù)研發(fā)人員：楊家驤,陳世豪,劉志尉
受保護(hù)的技術(shù)使用者：財(cái)團(tuán)法人工業(yè)技術(shù)研究院
技術(shù)研發(fā)日：
技術(shù)公布日：2025/5/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊家驤,陳世豪,劉志尉
技術(shù)所有人：財(cái)團(tuán)法人工業(yè)技術(shù)研究院
我是此專利的發(fā)明人

上一篇：一種大視角高清監(jiān)控?cái)z像機(jī)的制作方法
上一篇：延展的服裝設(shè)計(jì)板的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

深度強(qiáng)化學(xué)習(xí)的演算系統(tǒng)及其演算方法與流程