本發(fā)明涉及藥物分子生成領域,具體涉及一種基于等變擴散模型的藥物分子生成方法。
背景技術:
1、藥物分子設計和發(fā)現(xiàn)方法多依賴于實驗篩選、理論計算以及化學家們的經(jīng)驗知識,但這些方法在面對龐大的分子空間和復雜的生物系統(tǒng)時往往顯得力不從心。傳統(tǒng)的分子發(fā)現(xiàn)方法本質上時間密集性的,人力無法在有限短暫的時間內(nèi)完成對廣闊的化學空間的探索,從而限制了可以探索的分子的多樣性。
2、深度生成模型為上述的難題提供了一條可行的解決思路。通過深度生成模型學習各種化合物分子的分布,即可從生成模型中采樣出穩(wěn)定健壯的分子,而借助于計算機強大的運算能力,這個過程耗費時間少且無需人力投入,從而使化學研究人員得以從耗時耗力的分子篩選工作中解放出來去進行其他更有價值的研究。分子生成模型有五種流行的建模方法,即自回歸模型,變分自動編碼器,基于流的模型,生成對抗網(wǎng)絡以及擴散模型。
3、近年來,擴散模型作為一種新型的生成式模型,應用了在多種生成任務上。擴散模型定義了一個逐步用噪聲擾動數(shù)據(jù)的過程,并通過一個神經(jīng)網(wǎng)絡學習逐步去噪來扭轉上述過程?,F(xiàn)有的擴散模型仍然存在一些問題,首先,一個分子所包含的必要信息包括原子坐標,類型,原子電荷量,分子的某些物理化學屬性,這意味著一個分子可視為由多種或離散的,或連續(xù)的特征所構成,所以運作在原子特征空間的擴散模型面對多模態(tài)的特征,其學習能力受到了限制,對多種模態(tài)實行統(tǒng)一的高斯擴散框架不是最優(yōu)的。其次,使用何種的網(wǎng)絡參數(shù)化降噪核可以更準確的預測樣本的噪聲,這也是基于擴散的分子生成模型需要解決的問題。
4、因此,現(xiàn)需要一種能夠對潛在表示進行學習的基于等變擴散模型的藥物分子生成方法。
技術實現(xiàn)思路
1、本發(fā)明的主要目的在于提供一種基于等變擴散模型的藥物分子生成方法,以解決現(xiàn)有技術中藥物分子不能夠對潛在表示進行學習的問題。
2、為實現(xiàn)上述目的,本發(fā)明提供了一種基于等變擴散模型的藥物分子生成方法,具體包括如下步驟:
3、s1,將藥物分子結構以圖結構表示。
4、s2,基于幾何完全感知網(wǎng)絡設計改進的旋轉平移鏡像等變自編碼器,對原子坐標進行編碼。
5、s3,基于擴散模型,進行幾何完全潛擴散。
6、s4,將自編碼器的損失和擴散模型損失相加得到總損失,通過梯度下降對總損失進行優(yōu)化。
7、進一步地,s1具體包括如下步驟:
8、s1.1,給定一個圖,分別表示圖的節(jié)點集與邊集;表示圖的節(jié)點個數(shù),表示節(jié)點集在三維空間下的坐標。
9、s1.2,的節(jié)點特征由標量特征與值向量特征構成,的每條邊由標量特征與值向量特征所構成,分別表示每個節(jié)點與每條邊的標量特征的長度,則:,其中,表示第個節(jié)點的標量特征,表示第個節(jié)點的向量特征,表示節(jié)點和節(jié)點之間的邊的標量特征,表示節(jié)點和節(jié)點之間的邊的向量特征。
10、進一步地,s2具體包括如下步驟:
11、s2.1,將幾何完全消息傳遞定義為:
12、;
13、;
14、;
15、;
16、,,;
17、其中,表示節(jié)點和節(jié)點之間的消息,表示幾何完全消息傳遞函數(shù),經(jīng)過層幾何完全感知卷積得到的第個節(jié)點的特征,是可訓練網(wǎng)絡,為聚合函數(shù),表示的鄰居集合,為聚合后節(jié)點的消息,、和為中間變量,為幾何完全幀,為歐幾里得范數(shù)。
18、s2.2,對圖中的原子坐標進行更新:
19、;
20、其中,為幾何完全感知模塊,為更新后的原子特征,為第層第個節(jié)點的原子坐標。
21、s2.3,將幾何完全卷積表示為:
22、;
23、其中,為第層的原子坐標,為第層的節(jié)點標量特征,為幾何完全卷積。
24、幾何完全卷積符合旋轉平移鏡像等變性的約束,即:
25、?and??;
26、其中,表示歐氏空間下的旋轉變化,表示平移變化。
27、進一步地,步驟s2還包括如下步驟:
28、s2.4,改進的旋轉平移鏡像等變自編碼器編碼過程為:
29、;
30、其中,,?分別為原子坐標與節(jié)點標量特征在潛空間下的表現(xiàn)形式,,為重建后的原子坐標與節(jié)點標量特征,為重建前的原子坐標與節(jié)點標量特征,是噪聲。
31、s2.5,改進的旋轉平移鏡像等變自編碼器解碼過程為:
32、。
33、s2.6,自編碼器的損失定義如下:
34、。
35、進一步地,s3具體包括如下步驟:
36、s3.1,擴散模型通過前向擴散逐步向樣本中添加噪聲:
37、;
38、;
39、其中,為預設的超參且;為原子坐標與節(jié)點標量特征拼接后的向量,即潛特征;為條件概率;為標準正態(tài)分布;為噪聲;為單位矩陣。
40、s3.2,擴散模型通過反向擴散,對噪聲變量進行去噪,以逼近干凈的樣本:
41、;
42、其中,為均值,為方差;為擴散模型擬合的分布。
43、s3.3,由貝葉斯公式:
44、;
45、其中,為從標準正態(tài)分布中隨機采樣的噪聲,即。
46、s3.4,擴散模型將潛特征降噪后由解碼器將特征還原到幾何空間,即:
47、;
48、;
49、其中,是噪聲預測網(wǎng)絡的輸出,,?為標準正態(tài)分布中采樣的隨機值,即,為改進的旋轉平移鏡像等變自編碼器的解碼器。
50、s3.5,擴散模型的損失定義為:
51、;
52、其中,為時間。
53、進一步地,s4具體包括如下步驟:
54、s4.1,將自編碼器的損失和擴散模型損失相加得到總損失:
55、。
56、s4.2,通過梯度下降對進行優(yōu)化。
57、本發(fā)明具有如下有益效果:
58、本發(fā)明是滿足旋轉平移鏡像等變約束的模型,與常規(guī)的e(3)等變的模型相比對于手性分子的學習能力更強,e(3)等變的模型幾乎不能分辨分子與其鏡像異構體的差別。
59、本發(fā)明在經(jīng)過與其他模型同樣的數(shù)據(jù)集訓練后,所隨機采樣得到的分子具備更強的健壯性與有效性。其次,通過本發(fā)明隨機采樣得到的分子,其物理性質的數(shù)據(jù)分布與真實數(shù)據(jù)的屬性分布表現(xiàn)出高度的擬合,證明本發(fā)明對真實藥物分子的屬性分布具備充分的學習能力。
1.一種基于等變擴散模型的藥物分子生成方法,其特征在于,具體包括如下步驟:
2.根據(jù)權利要求1所述的一種基于等變擴散模型的藥物分子生成方法,其特征在于,s1具體包括如下步驟:
3.根據(jù)權利要求1所述的一種基于等變擴散模型的藥物分子生成方法,其特征在于,s2具體包括如下步驟:
4.根據(jù)權利要求3所述的一種基于等變擴散模型的藥物分子生成方法,其特征在于,步驟s2還包括如下步驟:
5.根據(jù)權利要求1所述的一種基于等變擴散模型的藥物分子生成方法,其特征在于,s3具體包括如下步驟:
6.根據(jù)權利要求1所述的一種基于等變擴散模型的藥物分子生成方法,其特征在于,s4具體包括如下步驟: