本技術(shù)涉及生物學,尤其涉及一種蛋白與配體的結(jié)合模式預測方法、系統(tǒng)、設(shè)備及介質(zhì)。
背景技術(shù):
1、嗅覺是生物感知外界環(huán)境中氣味分子的重要感官功能,包括人類在內(nèi)的哺乳動物識別各種氣味的核心在于存在于鼻腔粘膜上的嗅覺受體(olfactory?receptors,ors)對氣味分子的特異性識別和結(jié)合。嗅覺受體是屬于g蛋白偶聯(lián)受體(gpcr)家族的一類蛋白,其與氣味分子的結(jié)合觸發(fā)了細胞內(nèi)一系列信號轉(zhuǎn)導過程,最終產(chǎn)生嗅覺感知。然而,由于氣味分子的種類繁多、結(jié)構(gòu)多樣,以及嗅覺受體序列的復雜性和高度多樣性,嗅覺分子與受體之間的特異性匹配機制尚未完全被解析。
2、現(xiàn)有技術(shù)中,diffdock模型將擴散模型應(yīng)用于蛋白-配體相互作用預測領(lǐng)域,將蛋白與配體之間的結(jié)合過程描述為基于配體構(gòu)象的非歐幾里得變換,包括平移、旋轉(zhuǎn)和扭轉(zhuǎn)。然而在大多數(shù)情況下,蛋白并非靜態(tài),而是具有顯著的構(gòu)象柔性,能夠通過局部或全局的結(jié)構(gòu)調(diào)整適應(yīng)不同配體的結(jié)合。針對這一問題,現(xiàn)有技術(shù)中提出了dynamicbind模型,進一步拓展了擴散模型的應(yīng)用范圍,將其用于建模蛋白的構(gòu)象變化,從而預測蛋白與配體之間的誘導契合過程。然而,主要集中在開發(fā)通用的蛋白質(zhì)-配體結(jié)合模式預測模型。作為gpcr家族的成員,嗅覺受體與氣味分子的結(jié)合具有獨特的多樣性和復雜性。與其他受體不同,嗅覺受體和配體之間的結(jié)合是一種多對多的關(guān)系,即每個氣味分子可與多個嗅覺受體結(jié)合,每個嗅覺受體也能識別多種氣味分子。此外,在氣味結(jié)合的整個過程中,嗅覺受體會經(jīng)歷顯著但規(guī)律的構(gòu)象變化,這種動態(tài)的構(gòu)象調(diào)整進一步增加了其結(jié)合模式的復雜性。現(xiàn)有技術(shù)存在以下技術(shù)缺陷:
3、數(shù)據(jù)規(guī)模與質(zhì)量不足,盡管已有研究構(gòu)建了部分蛋白-配體配對數(shù)據(jù)集,但由于嗅覺受體的多樣性和實驗驗證的復雜性,目前可用數(shù)據(jù)集的規(guī)模和覆蓋范圍有限。這對傳統(tǒng)機器學習模型的泛化能力形成了約束;配體特征的忽略,現(xiàn)有研究側(cè)重于受體的結(jié)構(gòu)特征,但對氣味分子(配體)的特征描述和建模常常較為簡化。氣味分子本身在與嗅覺受體的結(jié)合中起著至關(guān)重要的作用,其化學結(jié)構(gòu)、空間布局以及與受體結(jié)合的動態(tài)變化都對預測結(jié)果有著重要影響?,F(xiàn)有模型大多忽略了氣味分子的這些細節(jié)特征,使得模型在準確預測分子-受體相互作用時的表現(xiàn)受限;受體構(gòu)象變化的有效性的評估方式缺失,氣味分子與嗅覺受體的結(jié)合不僅涉及靜態(tài)結(jié)構(gòu)的配對,還伴隨著規(guī)律的受體構(gòu)象動態(tài)變化,這些變化通常分為非激活態(tài)、中間態(tài)和激活態(tài)三個順序遞進的階段。每個階段的構(gòu)象變化對于受體的功能激活和結(jié)合親和力具有重要影響。然而,現(xiàn)有研究大多以與參考配體的貼合程度作為評判標準,缺乏針對受體構(gòu)象變化的有效評估。
技術(shù)實現(xiàn)思路
1、基于此,有必要針對上述技術(shù)問題,提供一種蛋白與配體的結(jié)合模式預測方法、系統(tǒng)、設(shè)備及介質(zhì),通過數(shù)據(jù)優(yōu)化、多維特征建模和動態(tài)評估,實現(xiàn)了更高的結(jié)合模式預測精度和可靠性。
2、第一方面,提供一種蛋白與配體的結(jié)合模式預測方法,包括:
3、獲得嗅覺蛋白和氣味分子;
4、將所述嗅覺蛋白和所述氣味分子輸入結(jié)合預測模型,得到所述嗅覺蛋白和所述氣味分子的結(jié)合模式預測結(jié)果,
5、其中,所述結(jié)合預測模型是基于數(shù)據(jù)樣本預先訓練好的,所述數(shù)據(jù)樣本包括來自第一數(shù)據(jù)源中的蛋白結(jié)構(gòu)數(shù)據(jù)、以第二數(shù)據(jù)源和第三數(shù)據(jù)源為基礎(chǔ)數(shù)據(jù)進行擴增的蛋白結(jié)構(gòu)數(shù)據(jù),其中,所述擴增的蛋白結(jié)構(gòu)數(shù)據(jù)包括根據(jù)蛋白結(jié)構(gòu)和參考配體的三維結(jié)構(gòu)匹配確定的,以及基于分子動力學模擬軌跡確定的。
6、在一些示例中,所述第一數(shù)據(jù)源中的蛋白結(jié)構(gòu)數(shù)據(jù)的獲取方式包括:
7、從所述第一數(shù)據(jù)源中獲得gpcr三維結(jié)構(gòu);
8、對所述gpcr三維結(jié)構(gòu)進行結(jié)構(gòu)切割、基礎(chǔ)篩選、序列對比以及復篩選,得到所述第一數(shù)據(jù)源中的蛋白結(jié)構(gòu)數(shù)據(jù)。
9、在一些示例中,所述對所述gpcr三維結(jié)構(gòu)進行結(jié)構(gòu)切割、基礎(chǔ)篩選、序列對比以及復篩選,得到所述第一數(shù)據(jù)源中的蛋白結(jié)構(gòu)數(shù)據(jù),包括:
10、將蛋白結(jié)構(gòu)按照結(jié)構(gòu)鏈進行切割;
11、判斷是否滿足如下條件:蛋白序列長度大于預定長度、結(jié)構(gòu)分辨率大于預定、helix蛋白二級結(jié)構(gòu)的數(shù)量不小于第一預定數(shù)量且sheet蛋白二級結(jié)構(gòu)的數(shù)量不大于第二預定數(shù)量;
12、如果是,則將gpcr三維結(jié)構(gòu)與對應(yīng)的標準基因序列進行序列比對,以去除不滿足一致性要求的gpcr三維結(jié)構(gòu);
13、刪除gpcr三維結(jié)構(gòu)的多余結(jié)構(gòu)以及非復合物數(shù)據(jù),得到所述第一數(shù)據(jù)源中的蛋白結(jié)構(gòu)數(shù)據(jù)。
14、在一些示例中,根據(jù)蛋白結(jié)構(gòu)和參考配體的三維結(jié)構(gòu)匹配確定出擴增的蛋白結(jié)構(gòu)數(shù)據(jù),包括:
15、從第二數(shù)據(jù)源中獲得與第三數(shù)據(jù)源中相同的蛋白結(jié)構(gòu);
16、從所述第二數(shù)據(jù)源中獲得同一靶點下結(jié)構(gòu)相似性大于預定閾值的匹配;
17、生成所述配體的三維結(jié)構(gòu);
18、根據(jù)所述三維結(jié)構(gòu)匹配到參考配體上,以得到擴增的蛋白結(jié)構(gòu)數(shù)據(jù)。
19、在一些示例中,還包括:構(gòu)建復合物體系的拓撲,并對復合物體系中的重原子進行優(yōu)化和升溫操作;
20、基于分子動力學模擬軌跡確定出擴增的蛋白結(jié)構(gòu)數(shù)據(jù),包括:
21、以第三數(shù)據(jù)源中的復合物體系作為初始結(jié)構(gòu),對每個復合物體系進行分子動力學模擬;
22、對每個復合物體系進行分子動力學模擬的軌跡進行構(gòu)象分類;
23、根據(jù)分類結(jié)果,抽取出目標構(gòu)象,以根據(jù)所述目標構(gòu)象擴增蛋白結(jié)構(gòu)數(shù)據(jù)。
24、在一些示例中,對結(jié)合預測模型訓練,包括:
25、對蛋白結(jié)構(gòu)數(shù)據(jù)進行特征編碼;
26、對配體進行特征編碼,其中,所述配體的特征包括原子性質(zhì)、分子指紋、分子性質(zhì)和三維結(jié)構(gòu);
27、將所述蛋白結(jié)構(gòu)數(shù)據(jù)的編碼和所述配體的編碼輸入結(jié)合預測模型,并根據(jù)所述結(jié)合預測模型的輸出與標簽之間的損失,訓練所述結(jié)合預測模型。
28、在一些示例中,還包括:
29、根據(jù)結(jié)合預測模型輸出的配體與參考配體之間的原子距離的均方根誤差進行配體預測評估;
30、根據(jù)跨膜螺旋區(qū)域6距離和跨膜螺旋區(qū)域6角度對結(jié)合預測模型輸出的蛋白進行蛋白預測評估。
31、第二方面,提供了一種蛋白與配體的結(jié)合模式預測系統(tǒng),包括:
32、獲取模塊,用于獲得嗅覺蛋白和氣味分子;
33、預測模塊,用于將所述嗅覺蛋白和所述氣味分子輸入結(jié)合預測模型,得到所述嗅覺蛋白和所述氣味分子的結(jié)合模式預測結(jié)果,其中,所述結(jié)合預測模型是基于數(shù)據(jù)樣本預先訓練好的,所述數(shù)據(jù)樣本包括來自第一數(shù)據(jù)源中的蛋白結(jié)構(gòu)數(shù)據(jù)、以第二數(shù)據(jù)源和第三數(shù)據(jù)源為基礎(chǔ)數(shù)據(jù)進行擴增的蛋白結(jié)構(gòu)數(shù)據(jù),其中,所述擴增的蛋白結(jié)構(gòu)數(shù)據(jù)包括根據(jù)蛋白結(jié)構(gòu)和參考配體的三維結(jié)構(gòu)匹配確定的,以及基于分子動力學模擬軌跡確定的。
34、第三方面,提供了一種計算設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時,實現(xiàn)根據(jù)上述第一方面所述的蛋白與配體的結(jié)合模式預測方法。
35、第四方面,提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時,實現(xiàn)根據(jù)上述第一方面所述的蛋白與配體的結(jié)合模式預測方法。
36、采用本技術(shù)的實施例,將嗅覺蛋白和所述氣味分子輸入結(jié)合預測模型,得到嗅覺蛋白和所述氣味分子的結(jié)合模式預測結(jié)果,由于結(jié)合預測模型是基于數(shù)據(jù)樣本預先訓練好的,而數(shù)據(jù)樣本包括來自第一數(shù)據(jù)源中的蛋白結(jié)構(gòu)數(shù)據(jù)、以第二數(shù)據(jù)源和第三數(shù)據(jù)源為基礎(chǔ)數(shù)據(jù)進行擴增的蛋白結(jié)構(gòu)數(shù)據(jù),擴增的蛋白結(jié)構(gòu)數(shù)據(jù)包括根據(jù)蛋白結(jié)構(gòu)和參考配體的三維結(jié)構(gòu)匹配確定的,以及基于分子動力學模擬軌跡確定的。由此,通過數(shù)據(jù)優(yōu)化、多維特征建模和動態(tài)評估,實現(xiàn)了更高的結(jié)合模式預測精度和可靠性。