本發(fā)明涉及深度神經(jīng)網(wǎng)絡(luò)在金融投資領(lǐng)域的應(yīng)用,特別是涉及一種長(zhǎng)短期記憶與注意力機(jī)制結(jié)合的q網(wǎng)絡(luò)投資組合方法。
背景技術(shù):
1、金融市場(chǎng)中的資產(chǎn)價(jià)格走勢(shì)預(yù)測(cè)問(wèn)題一直是困擾投資者和相關(guān)研究人員的一大難題,合理的預(yù)測(cè)能夠幫助投資者合理配置資產(chǎn),獲得更高收益。但是資產(chǎn)價(jià)格會(huì)受到公司經(jīng)營(yíng),投資者心態(tài)以及宏觀經(jīng)濟(jì)政策等多因素原因的影響,呈現(xiàn)出波動(dòng)性、非平穩(wěn)性、周期性、非線性和長(zhǎng)期依賴性等特征。
2、傳統(tǒng)的投資方案主要基于時(shí)間序列相關(guān)方法,例如arima(自回歸移動(dòng)模型),garch(廣義條件回歸自方差模型),它們能夠捕捉到金融時(shí)間序列的波動(dòng)性以及周期性,但難以分析非平穩(wěn)序列并捕捉金融時(shí)間序列的非線性關(guān)系。rnn(循環(huán)神經(jīng)網(wǎng)絡(luò))等基于深度學(xué)習(xí)的方法能夠很好的解決這個(gè)問(wèn)題。
3、為了模擬交易環(huán)境以實(shí)現(xiàn)當(dāng)前模型的最大收益,可以借鑒強(qiáng)化學(xué)習(xí)中的方法來(lái)構(gòu)建和優(yōu)化這一過(guò)程。強(qiáng)化學(xué)習(xí)的目標(biāo)在環(huán)境中取得最大收益,這與在股票市場(chǎng)中交易的目標(biāo)異曲同工。強(qiáng)化學(xué)習(xí)中在股票市場(chǎng)中與其他算法的結(jié)合已被廣泛研究。
4、股票的價(jià)格數(shù)據(jù)存在數(shù)量多,維度大的問(wèn)題,采用q網(wǎng)絡(luò)學(xué)習(xí)有更高的效率。例如q學(xué)習(xí)和rnn結(jié)合的方法已經(jīng)在交通取得了不錯(cuò)的效果。但rnn存在著一些難以解決的問(wèn)題,例如梯度消失,通過(guò)引入長(zhǎng)短期記憶機(jī)制能夠解決這個(gè)問(wèn)題,它可以替代rnn對(duì)于原始特征的輸入進(jìn)行處理,能夠更好地保存長(zhǎng)時(shí)間的信息。而注意力機(jī)制可以給予不同時(shí)間維度下的數(shù)據(jù)以不同的預(yù)測(cè)權(quán)重,使得預(yù)測(cè)結(jié)果更加準(zhǔn)確。
5、一種基于深度強(qiáng)化學(xué)習(xí)的投資組合生成方法,該方法將市場(chǎng)狀況作為獨(dú)立的利潤(rùn)風(fēng)險(xiǎn)平衡模塊加以考慮,同時(shí)通過(guò)學(xué)習(xí)和使用圖結(jié)構(gòu)來(lái)表征股票之間的相互關(guān)系,增強(qiáng)了對(duì)跨資產(chǎn)相互關(guān)系的提取,最后通過(guò)深度強(qiáng)化學(xué)習(xí)算法進(jìn)行優(yōu)化,以確定對(duì)某只股票進(jìn)行做多,做空或者不參與投資操作。該方法未利用q網(wǎng)絡(luò)進(jìn)行動(dòng)作值函數(shù)估計(jì)。
6、既有技術(shù)將個(gè)股信息與市場(chǎng)信息分開(kāi)輸入網(wǎng)絡(luò)之中,并且未對(duì)個(gè)股信息進(jìn)行長(zhǎng)短期記憶和注意力編碼處理,可能會(huì)使得個(gè)股與市場(chǎng)的關(guān)聯(lián)信息損失,并且個(gè)股的編碼網(wǎng)絡(luò)中可能較長(zhǎng)時(shí)間的信息會(huì)損失,注意力機(jī)制的缺失,也會(huì)使不同時(shí)間維度的信息難以以合理的權(quán)重進(jìn)行利用。同時(shí),行業(yè)信息未被考慮進(jìn)股票預(yù)測(cè)的因素,可能會(huì)造成股票走勢(shì)預(yù)測(cè)的誤差。
7、需要說(shuō)明的是,在上述背景技術(shù)部分公開(kāi)的信息僅用于對(duì)本技術(shù)的背景的理解,因此可以包括不構(gòu)成對(duì)本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的主要目的在于克服上述背景技術(shù)中存在的缺陷,提供一種長(zhǎng)短期記憶與注意力機(jī)制結(jié)合的q網(wǎng)絡(luò)投資組合方法。
2、為實(shí)現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:
3、一種長(zhǎng)短期記憶與注意力機(jī)制結(jié)合的q網(wǎng)絡(luò)投資組合方法,包括以下步驟:
4、s1:構(gòu)建基于個(gè)股、行業(yè)和市場(chǎng)信號(hào)的馬爾科夫鏈模型,定義智能體、環(huán)境、狀態(tài)、行為和獎(jiǎng)勵(lì),將個(gè)股、行業(yè)和市場(chǎng)信息融合為多維度輸入向量,狀態(tài)包括多日特征,行為包括做空、做多和不投資,獎(jiǎng)勵(lì)基于股票漲跌幅和操作計(jì)算;
5、s2:構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),將每日特征按時(shí)間順序輸入,通過(guò)卷積層和全連接層將信號(hào)特征編碼為長(zhǎng)短期記憶網(wǎng)絡(luò)的輸入;
6、s3:構(gòu)建長(zhǎng)短期記憶網(wǎng)絡(luò),將卷積神經(jīng)網(wǎng)絡(luò)的輸出轉(zhuǎn)化為隱狀態(tài),利用遺忘門、輸入門、單元狀態(tài)和輸出門機(jī)制更新記憶,輸出隱狀態(tài)作為注意力網(wǎng)絡(luò)的輸入;
7、s4:構(gòu)建注意力網(wǎng)絡(luò),利用余弦相似度和歸一化指數(shù)函數(shù)計(jì)算注意力權(quán)重,對(duì)隱狀態(tài)進(jìn)行加權(quán)求和,通過(guò)神經(jīng)網(wǎng)絡(luò)線性變換輸出q值;
8、s5:采用深度q網(wǎng)絡(luò)訓(xùn)練方法,初始化經(jīng)驗(yàn)回放和q網(wǎng)絡(luò)參數(shù),每個(gè)回合初始化狀態(tài),每個(gè)時(shí)間步選擇動(dòng)作、執(zhí)行動(dòng)作、存儲(chǔ)經(jīng)驗(yàn)、采樣經(jīng)驗(yàn)、計(jì)算目標(biāo)q值并優(yōu)化q網(wǎng)絡(luò)參數(shù),定期更新目標(biāo)q網(wǎng)絡(luò)參數(shù)。
9、進(jìn)一步地:
10、步驟s1具體包括:構(gòu)建市場(chǎng)、行業(yè)與個(gè)股信號(hào)的馬爾科夫鏈模型,定義智能體、環(huán)境、狀態(tài)、行為和獎(jiǎng)勵(lì);狀態(tài)由多日的個(gè)股、行業(yè)和市場(chǎng)信息融合的多維度特征向量組成,行為包括對(duì)每只股票的做空、做多和不投資操作;獎(jiǎng)勵(lì)基于股票漲跌幅和操作行為計(jì)算,收益為所有投資股票收益率的等權(quán)平均值。
11、步驟s2具體包括:將每日的多維度特征向量按時(shí)間順序輸入卷積神經(jīng)網(wǎng)絡(luò),通過(guò)卷積層對(duì)特征進(jìn)行編碼處理,卷積層輸出經(jīng)過(guò)全連接層進(jìn)一步轉(zhuǎn)化為一維向量,作為長(zhǎng)短期記憶網(wǎng)絡(luò)的輸入。
12、步驟s3具體包括:將卷積神經(jīng)網(wǎng)絡(luò)的輸出輸入長(zhǎng)短期記憶網(wǎng)絡(luò),通過(guò)遺忘門、輸入門、單元狀態(tài)和輸出門機(jī)制更新記憶狀態(tài),輸出當(dāng)前時(shí)間步的隱狀態(tài);隱狀態(tài)作為注意力網(wǎng)絡(luò)的輸入,并傳遞至下一時(shí)間步進(jìn)行計(jì)算。
13、步驟s4具體包括:利用余弦相似度和歸一化指數(shù)函數(shù)計(jì)算不同時(shí)間步隱狀態(tài)的注意力權(quán)重,對(duì)長(zhǎng)短期記憶網(wǎng)絡(luò)輸出的隱狀態(tài)進(jìn)行加權(quán)求和,得到加權(quán)后的隱狀態(tài);將加權(quán)后的隱狀態(tài)通過(guò)神經(jīng)網(wǎng)絡(luò)線性變換,輸出最終的q值。
14、步驟s5具體包括:采用深度q網(wǎng)絡(luò)訓(xùn)練方法,初始化經(jīng)驗(yàn)回放池和q網(wǎng)絡(luò)參數(shù);每個(gè)回合初始化狀態(tài),每個(gè)時(shí)間步根據(jù)ε-greedy策略選擇動(dòng)作并執(zhí)行,執(zhí)行動(dòng)作后獲得新的狀態(tài)和獎(jiǎng)勵(lì),將經(jīng)驗(yàn)存儲(chǔ)于回放池中;從回放池中隨機(jī)采樣經(jīng)驗(yàn),計(jì)算目標(biāo)q值并優(yōu)化q網(wǎng)絡(luò)參數(shù);定期更新目標(biāo)q網(wǎng)絡(luò)參數(shù)以穩(wěn)定訓(xùn)練過(guò)程。
15、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序由處理器執(zhí)行時(shí)實(shí)現(xiàn)所述的長(zhǎng)短期記憶與注意力機(jī)制結(jié)合的q網(wǎng)絡(luò)投資組合方法。
16、一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序由處理器執(zhí)行時(shí)實(shí)現(xiàn)所述的長(zhǎng)短期記憶與注意力機(jī)制結(jié)合的q網(wǎng)絡(luò)投資組合方法。
17、一種用于q網(wǎng)絡(luò)投資組合的計(jì)算設(shè)備,包括
18、存儲(chǔ)器,用于存儲(chǔ)計(jì)算機(jī)程序;
19、處理器,用于執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)所述的方法。
20、一種長(zhǎng)短期記憶與注意力機(jī)制結(jié)合的q網(wǎng)絡(luò)投資組合設(shè)備,包括:
21、馬爾科夫鏈模型構(gòu)建模塊,用于構(gòu)建基于個(gè)股、行業(yè)和市場(chǎng)信號(hào)的馬爾科夫鏈模型,定義智能體、環(huán)境、狀態(tài)、行為和獎(jiǎng)勵(lì),將個(gè)股、行業(yè)和市場(chǎng)信息融合為多維度輸入向量,狀態(tài)包括多日特征,行為包括做空、做多和不投資,獎(jiǎng)勵(lì)基于股票漲跌幅和操作計(jì)算;
22、卷積神經(jīng)網(wǎng)絡(luò)模塊,用于將每日特征按時(shí)間順序輸入,通過(guò)卷積層和全連接層將信號(hào)特征編碼為長(zhǎng)短期記憶網(wǎng)絡(luò)的輸入;
23、長(zhǎng)短期記憶網(wǎng)絡(luò)模塊,用于將卷積神經(jīng)網(wǎng)絡(luò)的輸出轉(zhuǎn)化為隱狀態(tài),利用遺忘門、輸入門、單元狀態(tài)和輸出門機(jī)制更新記憶,輸出隱狀態(tài)作為注意力網(wǎng)絡(luò)的輸入;
24、注意力網(wǎng)絡(luò)模塊,用于利用余弦相似度和歸一化指數(shù)函數(shù)計(jì)算注意力權(quán)重,對(duì)隱狀態(tài)進(jìn)行加權(quán)求和,通過(guò)神經(jīng)網(wǎng)絡(luò)線性變換輸出q值;
25、深度q網(wǎng)絡(luò)訓(xùn)練模塊,用于初始化經(jīng)驗(yàn)回放和q網(wǎng)絡(luò)參數(shù),每個(gè)回合初始化狀態(tài),每個(gè)時(shí)間步選擇動(dòng)作、執(zhí)行動(dòng)作、存儲(chǔ)經(jīng)驗(yàn)、采樣經(jīng)驗(yàn)、計(jì)算目標(biāo)q值并優(yōu)化q網(wǎng)絡(luò)參數(shù),定期更新目標(biāo)q網(wǎng)絡(luò)參數(shù)。
26、本發(fā)明具有如下有益效果:
27、本發(fā)明提出一種基于深度q學(xué)習(xí)以及長(zhǎng)短期記憶注意力模型的股票投資方法。該方法創(chuàng)新性地融合了個(gè)股、行業(yè)以及市場(chǎng)信息,并利用q網(wǎng)絡(luò)來(lái)建立針對(duì)股市操作問(wèn)題的動(dòng)作值函數(shù),最終實(shí)現(xiàn)預(yù)測(cè)股票走勢(shì)來(lái)確定最佳投資方案。特別的,本方案首次結(jié)合了q網(wǎng)絡(luò),長(zhǎng)短期記憶網(wǎng)絡(luò)注意力機(jī)制,實(shí)現(xiàn)對(duì)已知信號(hào)的高效匹配。本發(fā)明的主要優(yōu)點(diǎn)體現(xiàn)在:
28、1、本發(fā)明的輸入向量融入了個(gè)股,市場(chǎng),行業(yè)等多維度信息,相比已有方法,能夠更全面描述股票狀態(tài),進(jìn)而獲得效果更佳的綜合投資策略。
29、2、本發(fā)明提出的基于長(zhǎng)短期記憶和注意力機(jī)制的q網(wǎng)絡(luò)股票投資策略算法,將兩種利于處理時(shí)序輸入的網(wǎng)絡(luò)結(jié)構(gòu)融入傳統(tǒng)q網(wǎng)絡(luò)之中,相比已有方法,能夠更好地處理時(shí)序輸出,給予不同時(shí)序的數(shù)據(jù)以不同權(quán)重。
30、本發(fā)明實(shí)施例中的其他有益效果將在下文中進(jìn)一步述及。