本發(fā)明涉及資源調(diào)度?,尤其涉及一種基于深度強化學習的無人車規(guī)劃方法及裝置。
背景技術(shù):
1、在現(xiàn)代智能制造的工業(yè)生產(chǎn)環(huán)境中,尤其是精密制造車間,無人搬運車agv(automatic?guided?vehicle)對網(wǎng)絡(luò)的時延、吞吐量、誤碼率等參數(shù)有著嚴格的要求。這些設(shè)備不僅需要實時的數(shù)據(jù)傳輸以確保操作精度,而且它們的工作模式通常是動態(tài)變化的,這意味著對網(wǎng)絡(luò)的需求也會隨之波動。傳統(tǒng)的靜態(tài)網(wǎng)絡(luò)配置往往無法滿足這種動態(tài)需求,并可能導致資源浪費或者關(guān)鍵任務(wù)執(zhí)行的不連續(xù)性。為了提高網(wǎng)絡(luò)調(diào)度的靈活性,一些研究提出了基于啟發(fā)式算法的動態(tài)調(diào)度方法,如遺傳算法(ga)和模擬退火(sa)。這些算法能夠在一定程度上適應(yīng)網(wǎng)絡(luò)條件的變化,但計算復(fù)雜度較高,響應(yīng)速度較慢,不適合實時性要求高的工業(yè)環(huán)境。近年來,強化學習(reinforcement?learning,?rl)作為一種有效的決策制定工具,在網(wǎng)絡(luò)調(diào)度領(lǐng)域得到了廣泛的應(yīng)用,特別是q學習(q-learning),它通過與環(huán)境的交互來學習最優(yōu)策略,已經(jīng)在一些網(wǎng)絡(luò)調(diào)度問題中展示了潛力,例如優(yōu)化無線傳感器網(wǎng)絡(luò)中的能量消耗和數(shù)據(jù)傳輸路徑。然而,傳統(tǒng)的q學習方法在處理大規(guī)模狀態(tài)空間和動作空間時存在收斂速度慢和存儲開銷大的問題。
2、隨著深度學習的發(fā)展,深度強化學習(deep?reinforcement?learning,?drl)結(jié)合了神經(jīng)網(wǎng)絡(luò)的強大表示能力和強化學習的決策能力,為解決復(fù)雜的調(diào)度問題提供了新的途徑。例如,深度q學習網(wǎng)絡(luò)(deep?q-network,?dqn)通過使用兩個神經(jīng)網(wǎng)絡(luò)分別估計當前值函數(shù)和目標值函數(shù),提高了q學習的穩(wěn)定性和效率,對于復(fù)雜的調(diào)度問題具有重要意義。盡管dqn泛用性很高,已經(jīng)用于自動駕駛和游戲ai等領(lǐng)域,但在工業(yè)生產(chǎn)中的機器人網(wǎng)絡(luò)參數(shù)實時調(diào)度這一領(lǐng)域的應(yīng)用尚屬空白。同時,傳統(tǒng)dqn在解決網(wǎng)絡(luò)參數(shù)調(diào)度方面依舊存在一些問題,如收斂速度慢、低效探索、缺少對多目標的優(yōu)化等問題。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供一種基于深度強化學習的無人車規(guī)劃方法及裝置,用以解決現(xiàn)有技術(shù)中多無人搬運車協(xié)同工作場景中網(wǎng)絡(luò)參數(shù)實時調(diào)度時收斂速度慢、低效探索以及缺少多目標優(yōu)化的缺陷,提高模型的泛化能力和全局優(yōu)化能力。
2、本發(fā)明提供一種基于深度強化學習的無人車規(guī)劃方法,包括:獲取待測觀測狀態(tài)信息;將待測觀測狀態(tài)信息輸入至無人車調(diào)度預(yù)測模型中,得到無人車調(diào)度預(yù)測模型輸出的無人搬運車的動作預(yù)測結(jié)果;其中,無人車調(diào)度預(yù)測模型是基于經(jīng)驗回放池中的訓練樣本數(shù)量達到第一預(yù)設(shè)數(shù)量后、從經(jīng)驗回放池中選擇第二預(yù)設(shè)數(shù)量的訓練樣本進行優(yōu)化訓練得到的,經(jīng)驗回放池中的訓練樣本是根據(jù)對應(yīng)時間步數(shù)的歷史觀測狀態(tài)、歷史網(wǎng)絡(luò)性能信息、基于歷史觀測狀態(tài)選擇的歷史動作以及執(zhí)行所選歷史動作后基于歷史網(wǎng)絡(luò)性能信息得到的下一歷史觀測狀態(tài)和歷史獎勵得到的。
3、根據(jù)本發(fā)明提供的一種基于深度強化學習的無人車規(guī)劃方法,無人車調(diào)度預(yù)測模型包括評估網(wǎng)絡(luò)和目標網(wǎng)絡(luò),在將待測觀測狀態(tài)信息輸入至無人車調(diào)度預(yù)測模型中之前,包括:基于經(jīng)驗回放池中的訓練樣本數(shù)量達到第一預(yù)設(shè)數(shù)量,從經(jīng)驗回放池中選擇第二預(yù)設(shè)數(shù)量的訓練樣本,訓練樣本包括歷史觀測狀態(tài)、歷史網(wǎng)絡(luò)性能信息、基于觀測狀態(tài)選擇的歷史動作以及執(zhí)行所選歷史動后基于歷史網(wǎng)絡(luò)性能信息作得到的下一歷史觀測狀態(tài)和歷史獎勵;利用評估網(wǎng)絡(luò),根據(jù)各訓練樣本中的歷史觀測狀態(tài)和歷史動作,得到各訓練樣本對應(yīng)的預(yù)估q值;利用目標網(wǎng)絡(luò),根據(jù)各訓練樣本中的歷史觀測狀態(tài)和歷史動作,得到各訓練樣本對應(yīng)的目標q值;根據(jù)各訓練樣本對應(yīng)的預(yù)估q值和各訓練樣本對應(yīng)的目標q值,構(gòu)建損失函數(shù),并基于損失函數(shù),更新評估網(wǎng)絡(luò)參數(shù),并根據(jù)更新后的評估網(wǎng)絡(luò)參數(shù),更新目標網(wǎng)絡(luò)參數(shù),得到優(yōu)化訓練后的無人車調(diào)度預(yù)測模型。
4、根據(jù)本發(fā)明提供的一種基于深度強化學習的無人車規(guī)劃方法,歷史獎勵包括位置誤差獎勵和速度誤差獎勵;利用目標網(wǎng)絡(luò),根據(jù)各訓練樣本中的歷史觀測狀態(tài)和歷史動作,得到各訓練樣本對應(yīng)的目標q值,還包括:根據(jù)各訓練樣本對應(yīng)的時間步數(shù),依次選擇對應(yīng)訓練樣本,并利用目標網(wǎng)絡(luò),得到對應(yīng)訓練樣本的位置目標q值和速度目標q值;根據(jù)在后一訓練樣本的位置目標q值、在先一訓練樣本中的位置誤差獎勵以及第一預(yù)設(shè)折扣因子,對在先一訓練樣本的位置目標q值進行更新,以及,根據(jù)在后一訓練樣本的速度目標q值、在先一訓練樣本中的速度誤差獎勵以及第二預(yù)設(shè)折扣因子,對在先一訓練樣本的速度目標q值進行更新;根據(jù)更新后的在先一訓練樣本的位置目標q值和更新后的在先一訓練樣本的速度目標q值,得到對應(yīng)在先一訓練樣本的目標q值。
5、根據(jù)本發(fā)明提供的一種基于深度強化學習的無人車規(guī)劃方法,根據(jù)各訓練樣本對應(yīng)的預(yù)估q值和各訓練樣本對應(yīng)的目標q值,構(gòu)建損失函數(shù),包括:根據(jù)各訓練樣本對應(yīng)的預(yù)估q值和各訓練樣本對應(yīng)的目標q值,構(gòu)建第一損失函數(shù);根據(jù)訓練樣本的位置目標q值和更新后的訓練樣本的位置目標q值,構(gòu)建第二損失函數(shù);根據(jù)訓練樣本的速度目標q值和更新后的訓練樣本的速度目標q值,構(gòu)建第三損失函數(shù);根據(jù)第一損失函數(shù)、第二損失函數(shù)和第三損失函數(shù),得到損失函數(shù)。
6、根據(jù)本發(fā)明提供的一種基于深度強化學習的無人車規(guī)劃方法,在從經(jīng)驗回放池中選擇第二預(yù)設(shè)數(shù)量的訓練樣本之后,包括:遍歷所有訓練樣本,若存在訓練樣本未被訪問,則利用貪心策略,對訓練樣本中的歷史動作進行尋優(yōu),得到最優(yōu)動作,并將訓練樣本狀態(tài)標記為已訪問;根據(jù)最優(yōu)動作,更新對應(yīng)訓練樣本。
7、根據(jù)本發(fā)明提供的一種基于深度強化學習的無人車規(guī)劃方法,基于損失函數(shù),更新評估網(wǎng)絡(luò)參數(shù),包括:通過反向傳播算法,確定損失函數(shù)對評估網(wǎng)絡(luò)參數(shù)的梯度;根據(jù)損失函數(shù)對評估網(wǎng)絡(luò)參數(shù)的梯度,利用梯度下降算法,更新評估網(wǎng)絡(luò)參數(shù)。
8、根據(jù)本發(fā)明提供的一種基于深度強化學習的無人車規(guī)劃方法,在得到無人車調(diào)度預(yù)測模型輸出的無人搬運車的動作預(yù)測結(jié)果之后,包括:獲取待測觀測狀態(tài)信息對應(yīng)的待測網(wǎng)絡(luò)性能信息;利用無人車調(diào)度預(yù)測模型訓練的智能體agent執(zhí)行動作預(yù)測結(jié)果對應(yīng)的預(yù)測動作,并基于待測網(wǎng)絡(luò)性能信息環(huán)境,得到下一待測觀測狀態(tài)和即時獎勵;根據(jù)待測觀測狀態(tài)、待測網(wǎng)絡(luò)性能信息、預(yù)測動作、下一待測觀測狀態(tài)和即時獎勵,得到對應(yīng)時間步數(shù)的訓練樣本并存儲至經(jīng)驗回放池中。
9、本發(fā)明還提供一種基于深度強化學習的無人車規(guī)劃裝置,包括:信息獲取模塊,獲取待測觀測狀態(tài)信息;動作預(yù)測模塊,將待測觀測狀態(tài)信息輸入至無人車調(diào)度預(yù)測模型中,得到無人車調(diào)度預(yù)測模型輸出的無人搬運車的動作預(yù)測結(jié)果;其中,無人車調(diào)度預(yù)測模型是基于經(jīng)驗回放池中的訓練樣本數(shù)量達到第一預(yù)設(shè)數(shù)量后、從經(jīng)驗回放池中選擇第二預(yù)設(shè)數(shù)量的訓練樣本進行優(yōu)化訓練得到的,經(jīng)驗回放池中的訓練樣本是根據(jù)對應(yīng)時間步數(shù)的歷史觀測狀態(tài)、歷史網(wǎng)絡(luò)性能信息、基于歷史觀測狀態(tài)選擇的歷史動作以及執(zhí)行所選歷史動作后基于歷史網(wǎng)絡(luò)性能信息得到的下一歷史觀測狀態(tài)和歷史獎勵得到的。
10、本發(fā)明還提供一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如上述任一種所述基于深度強化學習的無人車規(guī)劃方法。
11、本發(fā)明還提供一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述基于深度強化學習的無人車規(guī)劃方法。
12、本發(fā)明還提供一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述基于深度強化學習的無人車規(guī)劃方法。
13、本發(fā)明提供的基于深度強化學習的無人車規(guī)劃方法及裝置,通過獲取觀測狀態(tài)信息,以對無人搬運車所處的場景有一個全面的了解,確保及時捕捉狀態(tài)變化,便于后續(xù)更準確地預(yù)測無人車應(yīng)該采取的動作;另外,無人車調(diào)度預(yù)測模型基于經(jīng)驗回放池中的訓練樣本數(shù)量達到第一預(yù)設(shè)數(shù)量時選擇第二預(yù)設(shè)數(shù)量的訓練樣本進行優(yōu)化訓練,以充分利用經(jīng)驗回放池中的歷史數(shù)據(jù),打破數(shù)據(jù)之間的相關(guān)性,讓模型學習到數(shù)據(jù)中更普遍的規(guī)律,學習到不同場景下的有效動作策略,有效防止過擬合,提高模型的泛化能力和全局優(yōu)化能力。