本發(fā)明涉及深度學(xué)習(xí)和動(dòng)植物分子育種,更具體地說(shuō),它涉及一種基于深度學(xué)習(xí)的全基因組選擇方法。
背景技術(shù):
1、全基因組預(yù)測(cè)(genomic?prediction,gp)最初由meuwissen等人(2001)提出,通過(guò)全基因組單核苷酸多態(tài)性(single?nucleotide?polymorphism,snp)基因型標(biāo)記預(yù)測(cè)育種/預(yù)測(cè)群體的育種值,從而加速優(yōu)良基因型的識(shí)別并推進(jìn)育種進(jìn)程(li等,2023;meuwissen等,2001)。隨著snp基因分型成本的大幅下降,過(guò)去十年中g(shù)p得以廣泛應(yīng)用,在各類(lèi)植物和動(dòng)物育種項(xiàng)目中取得了顯著的進(jìn)展。gp研究主要集中于優(yōu)化標(biāo)記密度、訓(xùn)練群體規(guī)模、親緣關(guān)系以及gp模型的選擇。全基因組最優(yōu)線性無(wú)偏預(yù)測(cè)(genomic?best?linear?unbiasedprediction,gblup)是常見(jiàn)的gp模型,基于標(biāo)記基因型構(gòu)建的親緣關(guān)系矩陣進(jìn)行預(yù)測(cè)。相比之下,貝葉斯模型則融入了先驗(yàn)分布,不同性狀需采用不同模型。例如,bayes?b采用高斯混合模型,假設(shè)并非所有標(biāo)記都對(duì)遺傳方差有貢獻(xiàn)(pérez和de?los?campos,2014)。貝葉斯lasso(bl)則通過(guò)雙指數(shù)先驗(yàn)進(jìn)行連續(xù)收縮和變量選擇,并采用長(zhǎng)尾的student-t分布描述標(biāo)記效應(yīng)(li等,2010)。然而,實(shí)習(xí)情況中,單個(gè)snp的確切影響仍難以明確,且并不一定符合特定分布。此外,這些參數(shù)化模型往往無(wú)法捕捉snp之間的復(fù)雜相互作用,尤其是在由基因互作引起的復(fù)雜性狀中。
2、深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個(gè)分支,借助具有多層非線性變換的復(fù)雜神經(jīng)網(wǎng)絡(luò),使其非常適合應(yīng)對(duì)gp的挑戰(zhàn)。dnngp模型整合了三個(gè)卷積神經(jīng)網(wǎng)絡(luò)(cnn)層、一個(gè)用于防止過(guò)擬合的批量歸一化(bn)層和兩個(gè)dropout層(wang等,2023)。該模型高效處理復(fù)雜的組學(xué)數(shù)據(jù),優(yōu)于gblup、lightgbm、svr、deepgs和dlgwas等常用gp方法(wang等,2023)。soydngp是一種包含12個(gè)卷積塊和一個(gè)全連接層的深度網(wǎng)絡(luò),在第一和最后一個(gè)卷積層后引入坐標(biāo)注意力(ca)機(jī)制以增強(qiáng)空間信息提取(gao等,2023)。在分類(lèi)任務(wù)中,soydngp的表現(xiàn)優(yōu)于adaboost、決策樹(shù)、樸素貝葉斯和隨機(jī)森林;在回歸任務(wù)中,其表現(xiàn)優(yōu)于deepgs和dnngp,展示了其在gp中的多功能性和優(yōu)勢(shì)(gao等,2023)。
3、盡管深度學(xué)習(xí)在gp中取得了顯著進(jìn)展,但仍有廣闊的探索空間。首先,在p>>n問(wèn)題中,特征數(shù)(p)遠(yuǎn)超個(gè)體數(shù)(n),這已成為gp深度學(xué)習(xí)模型發(fā)展的限制因素之一。其次,大多數(shù)現(xiàn)有g(shù)p深度學(xué)習(xí)模型使用one-hot表示snp,將每個(gè)snp獨(dú)立對(duì)待,忽略了其間的相互關(guān)系。此外,這對(duì)模型識(shí)別具有相同基因型的snp之間的功能(語(yǔ)義)差異提出了極大挑戰(zhàn)。第三,多數(shù)gp模型采用傳統(tǒng)的最大池化和平均池化方法,這可能導(dǎo)致信息丟失,且無(wú)法動(dòng)態(tài)優(yōu)化特征。
技術(shù)實(shí)現(xiàn)思路
1、為了克服現(xiàn)有技術(shù)中所存在的上述缺陷,本發(fā)明提供了一種基于深度學(xué)習(xí)的全基因組選擇方法ebmgp(joint?elastic?net?feature?selection,bidirectional?encoderrepresentations?from?transformers?embedding?and?multi-head?attentionpoolingfor?genomic?prediction),應(yīng)用elastic?net預(yù)選出重要snp。通過(guò)利用bert嵌入,將snp概念化為類(lèi)似人類(lèi)自然語(yǔ)言的形式,從而能夠在snp和連鎖不平衡(linkagedisequilibrium,ld)區(qū)塊層面動(dòng)態(tài)檢測(cè)交互作用。提出了多頭注意力池化,該方法為特征分配自適應(yīng)權(quán)重,并通過(guò)多個(gè)頭部捕捉不同子空間的特征。
2、本發(fā)明的上述技術(shù)目的是通過(guò)以下技術(shù)方案得以實(shí)現(xiàn)的:一種基于深度學(xué)習(xí)的全基因組選擇方法,包括以下步驟:
3、s1、特征選擇:
4、訓(xùn)練前應(yīng)用elastic?net預(yù)選出重要性排名前n的特征,減少噪聲并降低計(jì)算成本;
5、s2、bert嵌入層搭建:
6、經(jīng)特征選擇后,采用bert嵌入表示snps,每個(gè)snp由兩個(gè)字母表示,第一個(gè)字母對(duì)應(yīng)snp的基因型,其中主要等位基因標(biāo)記為“h”,雜合態(tài)為“m”,次要等位基因?yàn)椤發(fā)”;第二個(gè)字母表示相鄰snps之間的連鎖不平衡系數(shù)r2,當(dāng)ld值為0.8或更高時(shí),第二個(gè)字母標(biāo)為“y”;反之,若ld值低于0.8,則標(biāo)為“j”;
7、s3、卷積層搭建:
8、卷積層由5個(gè)conv-map模塊組成,每個(gè)conv-map模塊包括批量歸一化(batchnormalization)、卷積塊(convblock)、map模塊和dropout。五個(gè)conv-map模塊中有三個(gè)使用較大卷積核(30),另外兩個(gè)使用較小卷積核(3),通過(guò)策略性地交叉堆疊,以有效捕捉細(xì)粒度的局部變化和更廣泛的高層次概念模式。
9、s4、全連接層搭建;
10、s5、模型訓(xùn)練:
11、ebmgp用五折交叉法劃分訓(xùn)練集(訓(xùn)練群體)和測(cè)試集(育種/測(cè)試群體),模型訓(xùn)練超參數(shù)設(shè)置如下:
12、 batch_size 32 learning_rate 0.0005 epoch 100 optimizer adamw(weight_decay=0.00002) scheduler cosineannealinglr(max_epoch=train_epoch)
13、進(jìn)一步的,步驟s1中所述的elastic?net結(jié)合了l1和l2懲罰項(xiàng),通過(guò)參數(shù)調(diào)節(jié)控制二者的比例,確保非零系數(shù)標(biāo)記數(shù)分別超過(guò)500、3000、6000、9000和12000個(gè)。
14、進(jìn)一步的,步驟s1中所述的特征選擇僅在訓(xùn)練集上進(jìn)行,避免人為提高預(yù)測(cè)準(zhǔn)確性。
15、進(jìn)一步的,步驟s3中所述的池化策略multi-head?attentionpooling具體包括以下步驟:
16、(1)使用展開(kāi)函數(shù)將特征拆分為多個(gè)子特征;
17、(2)每個(gè)子特征通過(guò)多個(gè)1d卷積以獲得多空間特征,所有多空間特征被拼接以捕捉更廣泛的潛在語(yǔ)義關(guān)聯(lián);僅當(dāng)多頭設(shè)置為1或更高時(shí)執(zhí)行此步驟;若設(shè)為0,則跳過(guò)此步驟;
18、通過(guò)softmax對(duì)這些子特征進(jìn)行加權(quán)求和,并通過(guò)修改多頭超參數(shù),靈活控制模型架構(gòu)。
19、綜上所述,本發(fā)明具有以下有益效果:
20、(1)本技術(shù)引入了一種用于全基因組預(yù)測(cè)的深度學(xué)習(xí)模型——ebmgp;該模型結(jié)合了en特征選擇、新穎的snp表示方法以及多頭注意力池化機(jī)制;通過(guò)en進(jìn)行特征選擇,ebmgp有效地精簡(jiǎn)了特征空間。
21、(2)本技術(shù)采用bert嵌入將snp視為自然語(yǔ)言,ebmgp在snp和ld區(qū)塊層面捕捉到復(fù)雜的關(guān)聯(lián)關(guān)系。這種snp表示方法在ebmgp和soydngp的多種應(yīng)用中都展現(xiàn)了其有效性。
22、(3)本技術(shù)中的多頭注意力池化方法在小數(shù)據(jù)集上表現(xiàn)出色,并且在大數(shù)據(jù)集中與頂尖的池化方法相當(dāng)。
23、(4)本技術(shù)中ebmgp的有效性已在水稻數(shù)據(jù)集的5個(gè)預(yù)測(cè)任務(wù)中得到驗(yàn)證,我們相信它在推動(dòng)動(dòng)物和植物育種計(jì)劃中的數(shù)據(jù)驅(qū)動(dòng)決策方面具有巨大潛力。