本發(fā)明屬于計算機生物信息學(xué)領(lǐng)域,尤其涉及一種基于多元特征的液-液相分離蛋白質(zhì)預(yù)測方法及系統(tǒng)。
背景技術(shù):
1、液-液相分離(llps)是指細(xì)胞內(nèi)的某些生物大分子(如蛋白質(zhì)和rna)通過相互作用,形成具有不同組分和性質(zhì)的相分離液滴。這些液滴類似于油滴在水中的分離狀態(tài),形成了細(xì)胞內(nèi)的一種獨特的亞結(jié)構(gòu)。對液-液相分離蛋白質(zhì)進(jìn)行識別在疾病的研究和治療中具有重要意義?,F(xiàn)有的液-液相分離蛋白質(zhì)識別方法包括傳統(tǒng)實驗方法(熒光顯微鏡、原子力顯微鏡以及核磁共振等)、第一代預(yù)測工具(plaac、larks、catgranule、pscore等)、第二代預(yù)測工具(fuzdrop等)。
2、傳統(tǒng)實驗方法通過直接觀察相分離行為來識別與llps相關(guān)的關(guān)鍵蛋白質(zhì),然而,盡管實驗手段能夠提供精確的定性和定量信息,但實驗操作的高成本和低通量使得在大規(guī)模數(shù)據(jù)篩選上存在明顯的局限性。
3、第一代預(yù)測工具采用計算方法,大多最初并非專門為預(yù)測相分離傾向而開發(fā),后來被證明可以預(yù)測相分離蛋白質(zhì),但這些方法所采用的特征簡單,無法捕捉復(fù)雜的相分離驅(qū)動因素,預(yù)測精度較低,僅適用于初步篩選。
4、第二代預(yù)測工具基于大量實驗數(shù)據(jù)和復(fù)雜的理化特征,結(jié)合機器學(xué)習(xí)算法,能夠?qū)lps蛋白質(zhì)進(jìn)行大規(guī)模預(yù)測,但這些方法局限于有限的序列特征,預(yù)測的準(zhǔn)確性和穩(wěn)定性仍有待提高。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是針對現(xiàn)有技術(shù)存在的問題提出一種基于多元特征的液-液相分離蛋白質(zhì)預(yù)測方法及系統(tǒng)。
2、為達(dá)到上述目的,本發(fā)明采用了下列技術(shù)方案:
3、一種基于多元特征的液-液相分離蛋白質(zhì)預(yù)測方法,該方法包括:
4、準(zhǔn)備正負(fù)樣本數(shù)據(jù)集;
5、獲取各正負(fù)樣本的序列數(shù)據(jù)和結(jié)構(gòu)數(shù)據(jù);
6、基于序列數(shù)據(jù)提取序列特征;
7、基于序列數(shù)據(jù)生成序列嵌入;
8、基于結(jié)構(gòu)數(shù)據(jù)構(gòu)建殘基接觸圖,基于殘基接觸圖和序列嵌入得到空間結(jié)構(gòu)圖,并通過三層堆疊的圖注意力網(wǎng)絡(luò)基于所述的空間結(jié)構(gòu)圖提取蛋白質(zhì)的空間結(jié)構(gòu)特征;
9、基于結(jié)構(gòu)數(shù)據(jù)提取二級結(jié)構(gòu)特征;
10、拼接所述的序列特征、空間結(jié)構(gòu)特征和二級結(jié)構(gòu)特征得到拼接特征集;
11、使用所述的拼接特征集訓(xùn)練由基學(xué)習(xí)器和元學(xué)習(xí)器構(gòu)成的集成學(xué)習(xí)器,基學(xué)習(xí)器以拼接特征為輸入,輸出次級特征,元學(xué)習(xí)器以所述次級特征為輸入,輸出蛋白質(zhì)液-液相分離行為預(yù)測結(jié)果。
12、在上述的基于多元特征的液-液相分離蛋白質(zhì)預(yù)測方法中,從液-液相分離數(shù)據(jù)庫獲取具有液-液相分離行為且未經(jīng)修飾的蛋白質(zhì)作為正樣本數(shù)據(jù)集;
13、以多種生物中從未報告過具有液-液相分離行為的蛋白質(zhì)作為負(fù)樣本數(shù)據(jù)集。
14、在上述的基于多元特征的液-液相分離蛋白質(zhì)預(yù)測方法中,根據(jù)數(shù)據(jù)集中蛋白質(zhì)的uniprot?id從uniprot數(shù)據(jù)庫中獲得所有蛋白質(zhì)的序列數(shù)據(jù),從alphafold數(shù)據(jù)庫中獲得所有蛋白質(zhì)的結(jié)構(gòu)數(shù)據(jù)。
15、在上述的基于多元特征的液-液相分離蛋白質(zhì)預(yù)測方法中,基于序列數(shù)據(jù)提取序列特征具體包括:
16、使用espritz和seg算法分別計算內(nèi)在無序區(qū)域和低復(fù)雜度區(qū)域的分?jǐn)?shù);
17、通過catgranule算法計算蛋白質(zhì)的顆粒形成傾向性分?jǐn)?shù);
18、使用plaac算法計算蛋白質(zhì)的朊病毒樣傾向性分?jǐn)?shù);
19、通過localcider工具包計算每個蛋白質(zhì)序列的長度、帶電殘基比例、每個殘基凈電荷、kappa值、omega值、多脯氨酸ii螺旋傾向、平均疏水性、等電點、有助于鏈擴(kuò)展的殘基的比例、促進(jìn)無序區(qū)域的殘基比例;
20、使用pscore計算π-π相互作用的頻率;
21、通過protein-sol軟件包獲取蛋白質(zhì)溶解度。
22、在上述的基于多元特征的液-液相分離蛋白質(zhì)預(yù)測方法中,基于結(jié)構(gòu)數(shù)據(jù)提取二級結(jié)構(gòu)特征具體包括,通過dssp軟件包直接獲取蛋白質(zhì)的α-螺旋、β-折疊、β-轉(zhuǎn)角等二級結(jié)構(gòu)特征。
23、在上述的基于多元特征的液-液相分離蛋白質(zhì)預(yù)測方法中,基于結(jié)構(gòu)數(shù)據(jù)構(gòu)建殘基接觸圖,基于殘基接觸圖和序列嵌入得到空間結(jié)構(gòu)圖,并通過三層堆疊的圖注意力網(wǎng)絡(luò)基于所述的空間結(jié)構(gòu)圖提取蛋白質(zhì)的空間結(jié)構(gòu)特征,具體包括:
24、根據(jù)結(jié)構(gòu)數(shù)據(jù)構(gòu)建殘基接觸圖,長度為l的蛋白質(zhì)的接觸圖表示為一個l階方陣c={cij},?i,j=1,2,…,l:
25、?(1)
26、如果兩個殘基i,j的α碳原子之間的歐幾里得距離小于8?,則定義這兩個殘基相互接觸,表示為1,否則為0;
27、定義蛋白質(zhì)的空間結(jié)構(gòu)圖為g=(v,e),其中,v表示節(jié)點集合,每個節(jié)點對應(yīng)于蛋白質(zhì)的一個殘基,初始節(jié)點特征是使用seqvec模型以序列數(shù)據(jù)為輸入得到的序列嵌入,e是一個鄰接矩陣,?來源于殘基接觸圖;
28、即,空間結(jié)構(gòu)圖由序列嵌入和鄰接矩陣(即殘基接觸圖)兩部分構(gòu)成;
29、三層堆疊的圖注意力網(wǎng)絡(luò)以具有初始節(jié)點特征的空間結(jié)構(gòu)圖為輸入,并通過如下公式進(jìn)行節(jié)點特征的更新輸出空間結(jié)構(gòu)特征:
30、?(2)
31、其中,k表示多頭注意力機制的頭數(shù),?為可學(xué)習(xí)的線性變換矩陣,?為節(jié)點i的1階鄰居集合,||表示特征拼接操作,?為激活函數(shù),?是通過第k個注意力機制計算的標(biāo)準(zhǔn)化注意力系數(shù)。
32、先對圖注意力網(wǎng)絡(luò)單獨訓(xùn)練好固定參數(shù),然后使用訓(xùn)練好的圖注意力網(wǎng)絡(luò)提取空間結(jié)構(gòu)特征用于后續(xù)的基學(xué)習(xí)器和元學(xué)習(xí)器的訓(xùn)練。
33、在上述的基于多元特征的液-液相分離蛋白質(zhì)預(yù)測方法中,所述的基學(xué)習(xí)器包括隨機森林、xgboost?和?lightgbm,隨機森林、xgboost和?lightgbm分別基于輸入的空間結(jié)構(gòu)圖進(jìn)行概率預(yù)測,分別輸出概率值?,概率值?,概率值?,拼接三種基學(xué)習(xí)器的輸出結(jié)果得到所述的次級特征:
34、
35、其中?,?分別表示第i個樣本在三個基學(xué)習(xí)器中的預(yù)測概率,n為樣本總數(shù);
36、所述的元學(xué)習(xí)器包括邏輯回歸。
37、在上述的基于多元特征的液-液相分離蛋白質(zhì)預(yù)測方法中,本方法還包括,使用過采樣技術(shù)增加正樣本數(shù)量以平衡正負(fù)樣本數(shù)目。
38、一種基于多元特征的液-液相分離蛋白質(zhì)預(yù)測方法,該方法包括:
39、獲取待預(yù)測蛋白質(zhì)的序列數(shù)據(jù)和結(jié)構(gòu)數(shù)據(jù);
40、基于序列數(shù)據(jù)提取序列特征;
41、基于序列數(shù)據(jù)生成序列嵌入;
42、基于結(jié)構(gòu)數(shù)據(jù)構(gòu)建殘基接觸圖,基于殘基接觸圖和序列嵌入得到空間結(jié)構(gòu)圖,并使用經(jīng)過訓(xùn)練的三層堆疊的圖注意力網(wǎng)絡(luò)基于所述的空間結(jié)構(gòu)圖提取蛋白質(zhì)的空間結(jié)構(gòu)特征;
43、基于結(jié)構(gòu)數(shù)據(jù)提取二級結(jié)構(gòu)特征;
44、拼接所述的序列特征、空間結(jié)構(gòu)特征和二級結(jié)構(gòu)特征得到拼接特征集;
45、以拼接特征集為輸入,使用經(jīng)過訓(xùn)練的集成學(xué)習(xí)器輸出待預(yù)測蛋白質(zhì)的液-液相分離行為預(yù)測結(jié)果。
46、一種基于多元特征的液-液相分離蛋白質(zhì)預(yù)測系統(tǒng),包括第一類特征提取模塊、第二類特征提取模塊、特征拼接模塊和預(yù)測模塊;
47、所述的第一類特征提取模塊用于基于序列數(shù)據(jù)提取序列特征;
48、所述的第二類特征提取模塊用于基于結(jié)構(gòu)數(shù)據(jù)提取二級結(jié)構(gòu)特征,基于結(jié)構(gòu)數(shù)據(jù)構(gòu)建殘基接觸圖,基于殘基接觸圖和基于序列數(shù)據(jù)生成的序列嵌入得到空間結(jié)構(gòu)圖,并通過圖注意力模塊基于所述的空間結(jié)構(gòu)圖提取蛋白質(zhì)的空間結(jié)構(gòu)特征;
49、所述的特征拼接模塊,用于拼接所述的序列特征、空間結(jié)構(gòu)特征和二級結(jié)構(gòu)特征得到拼接特征集;
50、所述的預(yù)測模塊,用于基于所述的拼接特征集輸出蛋白質(zhì)液-液相分離行為預(yù)測結(jié)果。
51、本發(fā)明的優(yōu)點在于:
52、本方案同時提取了序列特征、二級結(jié)構(gòu)特征和空間結(jié)構(gòu)特征,此外,根據(jù)空間結(jié)構(gòu)構(gòu)建了殘基接觸圖,并采用圖注意力網(wǎng)絡(luò)來提取根據(jù)殘基接觸圖和序列嵌入構(gòu)建的空間結(jié)構(gòu)圖進(jìn)行深層次結(jié)構(gòu)特征的挖掘,基于蛋白質(zhì)相分離行為與其結(jié)構(gòu)密切相關(guān)的特性,可有效提高預(yù)測性能;
53、本方案采用三層堆疊的圖注意力網(wǎng)絡(luò)來提取蛋白質(zhì)的結(jié)構(gòu)特征,并結(jié)合序列中提取的物理化學(xué)特征,通過堆疊式的集成學(xué)習(xí)模型對液-液相分離蛋白進(jìn)行預(yù)測,可進(jìn)一步提升模型預(yù)測性能。