1.基于深度強(qiáng)化學(xué)習(xí)的多關(guān)鍵字覆蓋下最優(yōu)路徑查詢方法,其特征在于,包括如下步驟,
2.如權(quán)利要求1所述的基于深度強(qiáng)化學(xué)習(xí)的多關(guān)鍵字覆蓋下最優(yōu)路徑查詢方法,其特征在于,在編碼器中,采用注意力機(jī)制來(lái)傳遞每個(gè)興趣點(diǎn)的關(guān)鍵字信息,并采用多層感知機(jī)來(lái)處理興趣點(diǎn)之間的距離信息;在解碼器中,利用注意力機(jī)制得到每個(gè)時(shí)間步下應(yīng)訪問的興趣點(diǎn);同時(shí)基于gpu的并行計(jì)算來(lái)同時(shí)生成多條路徑來(lái)提高結(jié)果質(zhì)量,最后將多條路徑的距離均值作為基線參與到強(qiáng)化學(xué)習(xí)的策略梯度計(jì)算得到全局最優(yōu)路徑。
3.按照權(quán)利要求1所述的基于深度強(qiáng)化學(xué)習(xí)的多關(guān)鍵字覆蓋下最優(yōu)路徑查詢方法,其特征在于:步驟1中,結(jié)合ig-tree結(jié)構(gòu)與h2h算法得到過濾篩選候選集具體包括步驟如下:
4.按照權(quán)利要求1所述的基于深度強(qiáng)化學(xué)習(xí)的多關(guān)鍵字覆蓋下最優(yōu)路徑查詢方法,其特征在于:步驟2中,基于編碼器-解碼器的深度學(xué)習(xí)模型得到最優(yōu)的興趣點(diǎn)組合方法如下:
5.如權(quán)利要求4所述的基于深度強(qiáng)化學(xué)習(xí)的多關(guān)鍵字覆蓋下最優(yōu)路徑查詢方法,其特征在于:在步驟2.3中,模型將第一個(gè)訪問的興趣點(diǎn)、上一個(gè)訪問的興趣點(diǎn),以及起點(diǎn)和終點(diǎn)對(duì)應(yīng)的行節(jié)點(diǎn)向量進(jìn)行拼接,構(gòu)造出當(dāng)前狀態(tài)的向量表示,并將其作為query令牌;該query令牌與列節(jié)點(diǎn)中每個(gè)興趣點(diǎn)的向量進(jìn)行注意力分?jǐn)?shù)計(jì)算,所得的分?jǐn)?shù)反映了當(dāng)前時(shí)間步下每個(gè)興趣點(diǎn)作為下一個(gè)訪問節(jié)點(diǎn)的概率;