本公開的實施例涉及生物信息分析,具體涉及dna序列處理模型預(yù)訓(xùn)練與序列處理方法及相關(guān)產(chǎn)品。
背景技術(shù):
1、隨著基因組學(xué)和生物信息學(xué)的快速發(fā)展,dna序列的分析與解讀對生物醫(yī)學(xué)、遺傳學(xué)和生物技術(shù)等領(lǐng)域產(chǎn)生了深遠(yuǎn)的影響。傳統(tǒng)的dna序列分析方法通?;诤唵蔚慕y(tǒng)計學(xué)模型(比如:隱馬爾可夫模型、編碼區(qū)統(tǒng)計特性分析、主成分分析與fisher判別等),難以有效提取序列中的深層次信息。近年來,深度學(xué)習(xí)技術(shù)的引入為提升dna分析的準(zhǔn)確性和效率提供了新的可能性。
2、然而,現(xiàn)有的深度學(xué)習(xí)模型在處理dna序列時往往沒有充分利用dna特有的序列性質(zhì)和結(jié)構(gòu)特點,導(dǎo)致特征表達(dá)不充分。
技術(shù)實現(xiàn)思路
1、本公開的實施例提出了dna序列處理模型預(yù)訓(xùn)練與編碼方法、裝置、電子設(shè)備、存儲介質(zhì)和計算機程序產(chǎn)品。
2、第一方面,本公開的實施例提供了一種dna序列處理模型預(yù)訓(xùn)練方法,該方法包括:
3、基于預(yù)設(shè)融合結(jié)構(gòu)特征提取模塊,分別對第一正向鏈嵌入向量序列和第一反向鏈嵌入向量序列進行結(jié)構(gòu)特征提取,得到第一正向鏈結(jié)構(gòu)特征序列和第一反向鏈結(jié)構(gòu)特征序列,其中,所述第一正向鏈嵌入向量序列和所述第一反向鏈嵌入向量序列分別為基于第一dna正向鏈序列和與所述第一dna正向鏈序列反向互補的第一dna反向鏈序列進行嵌入表示得到的向量序列;
4、基于預(yù)設(shè)序列編碼模塊,分別對所述第一正向鏈結(jié)構(gòu)特征序列和所述第一反向鏈結(jié)構(gòu)特征序列進行特征編碼,得到第一正向鏈輸出特征序列和第一反向鏈輸出特征序列;
5、融合所述第一正向鏈輸出特征序列和所述第一反向鏈輸出特征序列,得到第一融合正向鏈特征序列;
6、將所述第一融合正向鏈特征序列輸入預(yù)設(shè)序列特征解碼器,得到第一解碼正向鏈序列;
7、基于所述第一解碼正向鏈序列與所述第一dna正向鏈序列對應(yīng)的原始正向鏈序列之間的差異調(diào)整所述預(yù)設(shè)融合結(jié)構(gòu)特征提取模塊、所述預(yù)設(shè)序列編碼模塊和所述預(yù)設(shè)序列特征解碼器的模型參數(shù)。
8、在一些可選的實施方式中,在基于預(yù)設(shè)融合結(jié)構(gòu)特征提取模塊,分別對第一正向鏈嵌入向量序列和第一反向鏈嵌入向量序列進行結(jié)構(gòu)特征提取之前,所述方法還包括:
9、獲取樣本dna的原始正向鏈序列;
10、基于所述原始正向鏈序列生成第一dna正向鏈序列,其中,所述第一dna正向鏈序列中包括與所述原始正向鏈序列相同的原始詞元和與所述原始正向鏈序列不同的待預(yù)測詞元;
11、生成與所述第一dna正向鏈序列之間反向互補的第一dna反向鏈序列;
12、基于預(yù)設(shè)詞元嵌入表示模塊分別對所述第一dna正向鏈序列和所述第一dna反向鏈序列進行嵌入表示,得到第一正向鏈嵌入向量序列和第一反向鏈嵌入向量序列。
13、在一些可選的實施方式中,所述基于所述原始正向鏈序列生成第一dna正向鏈序列,包括:
14、生成與所述原始正向鏈序列相同的第一dna正向鏈序列;
15、隨機選擇所述第一dna正向鏈序列中的部分核苷酸標(biāo)識作為待預(yù)測詞元;
16、將所述第一dna正向鏈序列中第一預(yù)設(shè)比例的待預(yù)測詞元替換為隨機詞元;
17、將所述第一dna正向鏈序列中小于或等于第二預(yù)設(shè)比例的待預(yù)測詞元替換為預(yù)設(shè)掩膜詞元,其中,所述第一預(yù)設(shè)比例與所述第二預(yù)設(shè)比例之和小于或等于100%。
18、在一些可選的實施方式中,所述將所述第一dna正向鏈序列中小于或等于第二預(yù)設(shè)比例的待預(yù)測詞元替換為預(yù)設(shè)掩膜詞元,包括:
19、按照預(yù)設(shè)小概率對所述第二預(yù)設(shè)比例進行隨機減小,得到掩膜比例;
20、將所述第一dna正向鏈序列中所述掩膜比例的待預(yù)測詞元替換為所述預(yù)設(shè)掩膜詞元。
21、在一些可選的實施方式中,所述預(yù)設(shè)融合結(jié)構(gòu)特征提取模塊包括至少一個預(yù)設(shè)dna結(jié)構(gòu)特征提取子模塊;以及
22、所述基于預(yù)設(shè)融合結(jié)構(gòu)特征提取模塊,分別對第一正向鏈嵌入向量序列和第一反向鏈嵌入向量序列進行結(jié)構(gòu)特征提取,得到第一正向鏈結(jié)構(gòu)特征序列和第一反向鏈結(jié)構(gòu)特征序列,包括:
23、利用每個所述預(yù)設(shè)dna結(jié)構(gòu)特征提取子模塊,分別對所述第一正向鏈嵌入向量序列和所述第一反向鏈嵌入向量序列進行結(jié)構(gòu)特征提取,得到與該預(yù)設(shè)dna結(jié)構(gòu)特征提取子模塊對應(yīng)的正向鏈dna結(jié)構(gòu)特征序列和反向鏈dna結(jié)構(gòu)特征序列;
24、分別基于與各所述預(yù)設(shè)dna結(jié)構(gòu)特征提取子模塊對應(yīng)的正向鏈dna結(jié)構(gòu)特征序列和反向鏈dna結(jié)構(gòu)特征序列,生成第一正向鏈結(jié)構(gòu)特征序列和第一反向鏈結(jié)構(gòu)特征序列。
25、在一些可選的實施方式中,所述至少一個預(yù)設(shè)dna結(jié)構(gòu)特征提取子模塊包括以下至少一項:第一dna結(jié)構(gòu)特征圖提取子模塊,第二dna結(jié)構(gòu)特征圖提取子模塊和第三dna結(jié)構(gòu)特征圖提取子模塊,其中,所述第一dna結(jié)構(gòu)特征圖提取子模塊包括由至少一個1*3的卷積核組成的第一卷積層,所述第二dna結(jié)構(gòu)特征圖提取子模塊包括由至少一個1*5的卷積核組成的第二卷積層,所述第三dna結(jié)構(gòu)特征圖提取子模塊包括由至少一個1*7的卷積核組成的第三卷積層,其中,所述第一卷積層用于提取密碼子結(jié)構(gòu)和/或dna小溝結(jié)構(gòu),所述第二卷積層用于提取dna小溝結(jié)構(gòu)和/或dna大溝結(jié)構(gòu),所述第三卷積層用于提取dna大溝結(jié)構(gòu)。
26、在一些可選的實施方式中,所述預(yù)設(shè)序列編碼模塊包括順序連接的滑動窗口注意力層和前饋神經(jīng)網(wǎng)絡(luò)層,所述滑動窗口注意力層用于利用至少兩個不同大小的注意力窗口分別對所述第一正向鏈結(jié)構(gòu)特征序列和所述第一反向鏈結(jié)構(gòu)特征序列進行注意力權(quán)重提取,得到與相應(yīng)注意力窗口對應(yīng)的窗口內(nèi)正向鏈注意力特征圖和窗口內(nèi)反向鏈注意力特征圖,以及分別基于各注意力窗口提取得到的窗口內(nèi)正向鏈注意力特征圖和窗口內(nèi)反向鏈注意力特征圖,生成正向鏈注意力特征圖和反向鏈注意力特征圖,所述前饋神經(jīng)網(wǎng)絡(luò)層用于分別基于所述正向鏈注意力特征圖和所述反向鏈注意力特征圖進行處理得到所述第一正向鏈輸出特征序列和所述第一反向鏈輸出特征序列。
27、在一些可選的實施方式中,所述融合所述第一正向鏈輸出特征序列和所述第一反向鏈輸出特征序列,得到第一融合正向鏈特征序列,包括:
28、將所述第一反向鏈輸出特征序列進行反向處理,得到第一反向鏈反向后特征序列;
29、基于預(yù)設(shè)互補線性變換模塊,對所述第一反向鏈反向后特征序列進行線性變換,得到第一反向鏈反向互補后特征序列;
30、融合所述第一正向鏈輸出特征序列和所述第一反向鏈反向互補后特征序列,得到所述第一融合正向鏈特征序列。
31、在一些可選的實施方式中,所述基于所述第一解碼正向鏈序列與所述第一dna正向鏈序列對應(yīng)的原始正向鏈序列之間的差異調(diào)整所述預(yù)設(shè)融合結(jié)構(gòu)特征提取模塊、所述預(yù)設(shè)序列編碼模塊和所述預(yù)設(shè)序列特征解碼器的模型參數(shù),包括:
32、基于所述第一解碼正向鏈序列與所述第一dna正向鏈序列對應(yīng)的原始正向鏈序列之間的差異調(diào)整所述預(yù)設(shè)融合結(jié)構(gòu)特征提取模塊、所述預(yù)設(shè)序列編碼模塊、所述預(yù)設(shè)互補線性變換模塊和所述預(yù)設(shè)序列特征解碼器的模型參數(shù)。
33、在一些可選的實施方式中,所述基于所述第一解碼正向鏈序列與所述第一dna正向鏈序列對應(yīng)的原始正向鏈序列之間的差異調(diào)整所述預(yù)設(shè)融合結(jié)構(gòu)特征提取模塊、所述預(yù)設(shè)序列編碼模塊和所述預(yù)設(shè)序列特征解碼器的模型參數(shù),包括:
34、所述基于所述第一解碼正向鏈序列和所述第一dna正向鏈序列對應(yīng)的原始正向鏈序列中待預(yù)測詞元對應(yīng)的部分之間的差異,調(diào)整所述預(yù)設(shè)融合結(jié)構(gòu)特征提取模塊、所述預(yù)設(shè)序列編碼模塊和所述預(yù)設(shè)序列特征解碼器的模型參數(shù)。
35、第二方面,本公開的實施例提供了一種dna序列處理方法,該方法包括:
36、基于預(yù)設(shè)融合結(jié)構(gòu)特征提取模塊,分別對第二正向鏈嵌入向量序列和第二反向鏈嵌入向量序列進行結(jié)構(gòu)特征提取,得到第二正向鏈結(jié)構(gòu)特征序列和第二反向鏈結(jié)構(gòu)特征序列,其中,所述第二正向鏈嵌入向量序列和所述第二反向鏈嵌入向量序列分別為基于第二dna正向鏈序列和與第二dna正向鏈序列反向互補的第二dna反向鏈序列進行嵌入表示得到的向量序列;
37、基于預(yù)設(shè)序列編碼模塊,分別對所述第二正向鏈結(jié)構(gòu)特征序列和所述第二反向鏈結(jié)構(gòu)特征序列進行特征編碼,得到第二正向鏈輸出特征序列和第二反向鏈輸出特征序列,其中,所述預(yù)設(shè)融合結(jié)構(gòu)特征提取模塊和所述預(yù)設(shè)序列編碼模塊是通過如第一方面中任一實現(xiàn)方式描述的方法預(yù)先訓(xùn)練得到的;
38、融合所述第二正向鏈輸出特征序列和所述第二反向鏈輸出特征序列,得到第二融合正向鏈特征序列。
39、在一些可選的實施方式中,在所述基于預(yù)設(shè)融合結(jié)構(gòu)特征提取模塊,分別對第二正向鏈嵌入向量序列和第二反向鏈嵌入向量序列進行結(jié)構(gòu)特征提取之前,所述方法還包括:
40、獲取待編碼dna正向鏈序列;
41、確定與所述待編碼dna正向鏈序列之間反向互補的待編碼dna反向鏈序列;
42、基于預(yù)設(shè)詞元嵌入表示模塊分別對所述待編碼dna正向鏈序列和所述待編碼dna反向鏈序列進行嵌入表示,得到第二正向鏈嵌入向量序列和第二反向鏈嵌入向量序列。
43、在一些可選的實施方式中,所述方法還包括:
44、獲取所述待編碼dna正向鏈序列針對目標(biāo)dna序列分析任務(wù)的dna序列分析結(jié)果標(biāo)簽;
45、將所述第二融合正向鏈特征序列輸入目標(biāo)dna序列分析任務(wù)解碼器,得到dna序列分析結(jié)果;
46、基于所述dna序列分析結(jié)果與所述dna序列分析結(jié)果標(biāo)簽之間的差異調(diào)整所述目標(biāo)dna序列分析任務(wù)解碼器的模型參數(shù)。
47、在一些可選的實施方式中,所述融合所述第二正向鏈輸出特征序列和所述第二反向鏈輸出特征序列,得到第二融合正向鏈特征序列,包括:
48、拼接所述第二正向鏈輸出特征序列和所述第二反向鏈輸出特征序列,得到所述第二融合正向鏈特征序列;或者,將所述第二正向鏈輸出特征序列與所述第二反向鏈反向互補后特征序列之和確定為所述第二融合正向鏈特征序列。
49、第三方面,本公開的實施例提供了一種dna序列處理模型預(yù)訓(xùn)練裝置,該裝置包括:
50、第一結(jié)構(gòu)特征融合模塊,被配置為基于預(yù)設(shè)融合結(jié)構(gòu)特征提取模塊,分別對第一正向鏈嵌入向量序列和第一反向鏈嵌入向量序列進行結(jié)構(gòu)特征提取,得到第一正向鏈結(jié)構(gòu)特征序列和第一反向鏈結(jié)構(gòu)特征序列,其中,所述第一正向鏈嵌入向量序列和所述第一反向鏈嵌入向量序列分別為基于第一dna正向鏈序列和與所述第一dna正向鏈序列反向互補的第一dna反向鏈序列進行嵌入表示得到的向量序列;
51、第一序列編碼模塊,被配置為基于預(yù)設(shè)序列編碼模塊,分別對所述第一正向鏈結(jié)構(gòu)特征序列和所述第一反向鏈結(jié)構(gòu)特征序列進行特征編碼,得到第一正向鏈輸出特征序列和第一反向鏈輸出特征序列;
52、第一雙向序列融合模塊,被配置為融合所述第一正向鏈輸出特征序列和所述第一反向鏈輸出特征序列,得到第一融合正向鏈特征序列;
53、第一序列解碼模塊,被配置為將所述第一融合正向鏈特征序列輸入預(yù)設(shè)序列特征解碼器,得到第一解碼正向鏈序列;
54、第一模型訓(xùn)練模塊,被配置為基于所述第一解碼正向鏈序列與所述第一dna正向鏈序列對應(yīng)的原始正向鏈序列之間的差異調(diào)整所述預(yù)設(shè)融合結(jié)構(gòu)特征提取模塊、所述預(yù)設(shè)序列編碼模塊和所述預(yù)設(shè)序列特征解碼器的模型參數(shù)。
55、在一些可選的實施方式中,所述dna序列處理模型預(yù)訓(xùn)練裝置還包括第一雙向序列生成模塊,被配置為在基于預(yù)設(shè)融合結(jié)構(gòu)特征提取模塊,分別對第一正向鏈嵌入向量序列和第一反向鏈嵌入向量序列進行結(jié)構(gòu)特征提取之前:
56、獲取樣本dna的原始正向鏈序列;
57、基于所述原始正向鏈序列生成第一dna正向鏈序列,其中,所述第一dna正向鏈序列中包括與所述原始正向鏈序列相同的原始詞元和與所述原始正向鏈序列不同的待預(yù)測詞元;
58、生成與所述第一dna正向鏈序列之間反向互補的第一dna反向鏈序列;
59、基于預(yù)設(shè)詞元嵌入表示模塊分別對所述第一dna正向鏈序列和所述第一dna反向鏈序列進行嵌入表示,得到第一正向鏈嵌入向量序列和第一反向鏈嵌入向量序列。
60、在一些可選的實施方式中,所述基于所述原始正向鏈序列生成第一dna正向鏈序列,包括:
61、生成與所述原始正向鏈序列相同的第一dna正向鏈序列;
62、隨機選擇所述第一dna正向鏈序列中的部分核苷酸標(biāo)識作為待預(yù)測詞元;
63、將所述第一dna正向鏈序列中第一預(yù)設(shè)比例的待預(yù)測詞元替換為隨機詞元;
64、將所述第一dna正向鏈序列中小于或等于第二預(yù)設(shè)比例的待預(yù)測詞元替換為預(yù)設(shè)掩膜詞元,其中,所述第一預(yù)設(shè)比例與所述第二預(yù)設(shè)比例之和小于或等于100%。
65、在一些可選的實施方式中,所述將所述第一dna正向鏈序列中小于或等于第二預(yù)設(shè)比例的待預(yù)測詞元替換為預(yù)設(shè)掩膜詞元,包括:
66、按照預(yù)設(shè)小概率對所述第二預(yù)設(shè)比例進行隨機減小,得到掩膜比例;
67、將所述第一dna正向鏈序列中所述掩膜比例的待預(yù)測詞元替換為所述預(yù)設(shè)掩膜詞元。
68、在一些可選的實施方式中,所述預(yù)設(shè)融合結(jié)構(gòu)特征提取模塊包括至少一個預(yù)設(shè)dna結(jié)構(gòu)特征提取子模塊;以及
69、所述第一結(jié)構(gòu)特征融合模塊包括:
70、子結(jié)構(gòu)特征提取單元,被配置為利用每個所述預(yù)設(shè)dna結(jié)構(gòu)特征提取子模塊,分別對所述第一正向鏈嵌入向量序列和所述第一反向鏈嵌入向量序列進行結(jié)構(gòu)特征提取,得到與該預(yù)設(shè)dna結(jié)構(gòu)特征提取子模塊對應(yīng)的正向鏈dna結(jié)構(gòu)特征序列和反向鏈dna結(jié)構(gòu)特征序列;
71、子結(jié)構(gòu)特征融合單元,被配置為分別基于與各所述預(yù)設(shè)dna結(jié)構(gòu)特征提取子模塊對應(yīng)的正向鏈dna結(jié)構(gòu)特征序列和反向鏈dna結(jié)構(gòu)特征序列,生成第一正向鏈結(jié)構(gòu)特征序列和第一反向鏈結(jié)構(gòu)特征序列。
72、在一些可選的實施方式中,所述至少一個預(yù)設(shè)dna結(jié)構(gòu)特征提取子模塊包括以下至少一項:第一dna結(jié)構(gòu)特征圖提取子模塊,第二dna結(jié)構(gòu)特征圖提取子模塊和第三dna結(jié)構(gòu)特征圖提取子模塊,其中,所述第一dna結(jié)構(gòu)特征圖提取子模塊包括由至少一個1*3的卷積核組成的第一卷積層,所述第二dna結(jié)構(gòu)特征圖提取子模塊包括由至少一個1*5的卷積核組成的第二卷積層,所述第三dna結(jié)構(gòu)特征圖提取子模塊包括由至少一個1*7的卷積核組成的第三卷積層,其中,所述第一卷積層用于提取密碼子結(jié)構(gòu)和/或dna小溝結(jié)構(gòu),所述第二卷積層用于提取dna小溝結(jié)構(gòu)和/或dna大溝結(jié)構(gòu),所述第三卷積層用于提取dna大溝結(jié)構(gòu)。
73、在一些可選的實施方式中,所述預(yù)設(shè)序列編碼模塊包括順序連接的滑動窗口注意力層和前饋神經(jīng)網(wǎng)絡(luò)層,所述滑動窗口注意力層用于利用至少兩個不同大小的注意力窗口分別對所述第一正向鏈結(jié)構(gòu)特征序列和所述第一反向鏈結(jié)構(gòu)特征序列進行注意力權(quán)重提取,得到與相應(yīng)注意力窗口對應(yīng)的窗口內(nèi)正向鏈注意力特征圖和窗口內(nèi)反向鏈注意力特征圖,以及分別基于各注意力窗口提取得到的窗口內(nèi)正向鏈注意力特征圖和窗口內(nèi)反向鏈注意力特征圖,生成正向鏈注意力特征圖和反向鏈注意力特征圖,所述前饋神經(jīng)網(wǎng)絡(luò)層用于分別基于所述正向鏈注意力特征圖和所述反向鏈注意力特征圖進行處理得到所述第一正向鏈輸出特征序列和所述第一反向鏈輸出特征序列。
74、在一些可選的實施方式中,所述第一雙向序列融合模塊包括:
75、反向單元,被配置為將所述第一反向鏈輸出特征序列進行反向處理,得到第一反向鏈反向后特征序列;
76、互補單元,被配置為基于預(yù)設(shè)互補線性變換模塊,對所述第一反向鏈反向后特征序列進行線性變換,得到第一反向鏈反向互補后特征序列;
77、雙向融合單元,被配置為融合所述第一正向鏈輸出特征序列和所述第一反向鏈反向互補后特征序列,得到所述第一融合正向鏈特征序列。
78、在一些可選的實施方式中,所述第一模型訓(xùn)練模塊進一步被配置為:
79、基于所述第一解碼正向鏈序列與所述第一dna正向鏈序列對應(yīng)的原始正向鏈序列之間的差異調(diào)整所述預(yù)設(shè)融合結(jié)構(gòu)特征提取模塊、所述預(yù)設(shè)序列編碼模塊、所述預(yù)設(shè)互補線性變換模塊和所述預(yù)設(shè)序列特征解碼器的模型參數(shù)。
80、在一些可選的實施方式中,所述第一模型訓(xùn)練模塊進一步被配置為:
81、所述基于所述第一解碼正向鏈序列和所述第一dna正向鏈序列對應(yīng)的原始正向鏈序列中待預(yù)測詞元對應(yīng)的部分之間的差異,調(diào)整所述預(yù)設(shè)融合結(jié)構(gòu)特征提取模塊、所述預(yù)設(shè)序列編碼模塊和所述預(yù)設(shè)序列特征解碼器的模型參數(shù)。
82、第四方面,本公開的實施例提供了一種dna序列編碼裝置,該裝置包括:
83、第二結(jié)構(gòu)特征融合模塊,被配置為基于預(yù)設(shè)融合結(jié)構(gòu)特征提取模塊,分別對第二正向鏈嵌入向量序列和第二反向鏈嵌入向量序列進行結(jié)構(gòu)特征提取,得到第二正向鏈結(jié)構(gòu)特征序列和第二反向鏈結(jié)構(gòu)特征序列,其中,所述第二正向鏈嵌入向量序列和所述第二反向鏈嵌入向量序列分別為基于第二dna正向鏈序列和與第二dna正向鏈序列反向互補的第二dna反向鏈序列進行嵌入表示得到的向量序列;
84、第二序列編碼模塊,被配置為基于預(yù)設(shè)序列編碼模塊,分別對所述第二正向鏈結(jié)構(gòu)特征序列和所述第二反向鏈結(jié)構(gòu)特征序列進行特征編碼,得到第二正向鏈輸出特征序列和第二反向鏈輸出特征序列,其中,所述預(yù)設(shè)融合結(jié)構(gòu)特征提取模塊和所述預(yù)設(shè)序列編碼模塊是通過如第一方面中任一實現(xiàn)方式描述的方法預(yù)先訓(xùn)練得到的;
85、第二雙向序列融合模塊,被配置為融合所述第二正向鏈輸出特征序列和所述第二反向鏈輸出特征序列,得到第二融合正向鏈特征序列。
86、在一些可選的實施方式中,所述dna序列編碼裝置還包括第二雙向序列生成模塊,被配置為在所述基于預(yù)設(shè)融合結(jié)構(gòu)特征提取模塊,分別對第二正向鏈嵌入向量序列和第二反向鏈嵌入向量序列進行結(jié)構(gòu)特征提取之前:
87、獲取待編碼dna正向鏈序列;
88、確定與所述待編碼dna正向鏈序列之間反向互補的待編碼dna反向鏈序列;
89、基于預(yù)設(shè)詞元嵌入表示模塊分別對所述待編碼dna正向鏈序列和所述待編碼dna反向鏈序列進行嵌入表示,得到第二正向鏈嵌入向量序列和第二反向鏈嵌入向量序列。
90、在一些可選的實施方式中,所述dna序列編碼裝置還包括:
91、標(biāo)簽獲取模塊,被配置為獲取所述待編碼dna正向鏈序列針對目標(biāo)dna序列分析任務(wù)的dna序列分析結(jié)果標(biāo)簽;
92、序列分析模塊,被配置為將所述第二融合正向鏈特征序列輸入目標(biāo)dna序列分析任務(wù)解碼器,得到dna序列分析結(jié)果;
93、第二模型訓(xùn)練模塊,被配置為基于所述dna序列分析結(jié)果與所述dna序列分析結(jié)果標(biāo)簽之間的差異調(diào)整所述目標(biāo)dna序列分析任務(wù)解碼器的模型參數(shù)。
94、在一些可選的實施方式中,所述第二雙向序列融合模塊進一步被配置為:
95、拼接所述第二正向鏈輸出特征序列和所述第二反向鏈輸出特征序列,得到所述第二融合正向鏈特征序列;或者,將所述第二正向鏈輸出特征序列與所述第二反向鏈反向互補后特征序列之和確定為所述第二融合正向鏈特征序列。
96、第五方面,本公開的實施例提供了一種電子設(shè)備,包括:一個或多個處理器;存儲裝置,其上存儲有一個或多個程序,當(dāng)上述一個或多個程序被上述一個或多個處理器執(zhí)行時,使得上述一個或多個處理器實現(xiàn)如第一方面和/或第二方面中任一實現(xiàn)方式描述的方法。
97、第六方面,本公開的實施例提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其中,該計算機程序被一個或多個處理器執(zhí)行時實現(xiàn)如第一方面和/或第二方面中任一實現(xiàn)方式描述的方法。
98、第七方面,本公開的實施例提供了計算機程序產(chǎn)品,包括計算機程序/指令,上述計算機程序/指令被處理器執(zhí)行時實現(xiàn)第一方面和/或第二方面中任一實現(xiàn)方式描述的方法。
99、為了解決現(xiàn)有深度學(xué)習(xí)模型在處理dna序列時往往沒有充分利用dna特有的序列性質(zhì)和結(jié)構(gòu)特點,導(dǎo)致特征表達(dá)不充分的問題,本公開的實施例提供的dna序列處理模型預(yù)訓(xùn)練與編碼方法、裝置、電子設(shè)備、存儲介質(zhì)和計算機程序產(chǎn)品,通過基于預(yù)設(shè)融合結(jié)構(gòu)特征提取模塊,分別對第一正向鏈嵌入向量序列和第一反向鏈嵌入向量序列進行結(jié)構(gòu)特征提取,得到第一正向鏈結(jié)構(gòu)特征序列和第一反向鏈結(jié)構(gòu)特征序列,其中,第一正向鏈嵌入向量序列和第一反向鏈嵌入向量序列分別為基于第一dna正向鏈序列和與第一dna正向鏈序列反向互補的第一dna反向鏈序列進行嵌入表示得到的向量序列;再基于預(yù)設(shè)序列編碼模塊,分別對第一正向鏈結(jié)構(gòu)特征序列和第一反向鏈結(jié)構(gòu)特征序列進行特征編碼,得到第一正向鏈輸出特征序列和第一反向鏈輸出特征序列;接著,基于第一正向鏈輸出特征序列和第一反向鏈輸出特征序列,確定第一融合正向鏈特征序列;而后將第一融合正向鏈特征序列輸入預(yù)設(shè)序列特征解碼器,得到第一解碼正向鏈序列;最后基于第一解碼正向鏈序列與第一dna正向鏈序列對應(yīng)的原始正向鏈序列之間的差異調(diào)整預(yù)設(shè)融合結(jié)構(gòu)特征提取模塊、預(yù)設(shè)序列編碼模塊和預(yù)設(shè)序列特征解碼器的模型參數(shù)。采用上述方法可以實現(xiàn)包括但不限于以下技術(shù)效果:
100、第一,通過將第一正向鏈嵌入向量序列和第一反向鏈嵌入向量序列利用參數(shù)共享的預(yù)設(shè)融合結(jié)構(gòu)特征提取模塊和預(yù)設(shè)序列編碼模塊分別進行特征編碼,體現(xiàn)了dna的雙螺旋核苷酸鏈之間反向互補的性質(zhì),使得dna序列特征的提取更為全面,提升dna序列處理模型的表現(xiàn);
101、第二,通過利用預(yù)設(shè)融合結(jié)構(gòu)特征提取模塊提取結(jié)構(gòu)特征,可以融合dna序列的各種結(jié)構(gòu)特征;
102、第三,通過將第一正向鏈輸出特征序列和第一反向鏈輸出特征序列融合后得到第一融合正向鏈特征序列,可以在特征層面對dna的雙螺旋核苷酸鏈之間反向互補的性質(zhì)進行特征表達(dá),豐富了dna序列特征表達(dá)信息的多樣性。
103、第四,采用上述針對dna序列特點進行預(yù)訓(xùn)練得到的dna序列處理模型,可以提高下游dna序列分析任務(wù)的準(zhǔn)確率。