本發(fā)明涉及醫(yī)藥化學(xué),具體涉及一種基于屬性分類的分子從頭設(shè)計方法。
背景技術(shù):
1、分子從頭設(shè)計是一種基于化學(xué)知識和計算方法的策略,旨在設(shè)計和構(gòu)建具有特定性質(zhì)和功能的新穎分子結(jié)構(gòu)。隨著計算機硬件和軟件的不斷進步,分子從頭設(shè)計可以利用更強大的計算能力和更高效的算法進行仿真和優(yōu)化,提高預(yù)測和設(shè)計的準確性和效率。通過機器學(xué)習(xí)和人工智能技術(shù),分子從頭設(shè)計可以從大量的研究數(shù)據(jù)中學(xué)習(xí)并發(fā)現(xiàn)潛在的結(jié)構(gòu)-性質(zhì)關(guān)系,這有助于加速設(shè)計過程,提高設(shè)計的成功率。
2、分子從頭設(shè)計突破了傳統(tǒng)試錯法的限制,可以在理論上和計算上對無限可能的分子空間進行探索。這使得研究者能夠創(chuàng)造出以前從未觸及的化學(xué)結(jié)構(gòu)和功能,為發(fā)現(xiàn)新穎化合物和解決實際問題提供了全新的可能性。傳統(tǒng)藥物發(fā)現(xiàn)通常是通過對已知藥物的修飾和優(yōu)化來實現(xiàn),而分子從頭設(shè)計使得可以直接設(shè)計高度特異性的分子,以滿足特定的藥物目標(biāo)。這無需基于已有化合物庫,能夠更快速地找到藥物候選物,提高藥物發(fā)現(xiàn)的效率。通過分子從頭設(shè)計,可以避免繁瑣的試錯過程和實驗室大量合成,從而節(jié)省時間、資源和資金。通過在計算機上進行模擬和優(yōu)化,可以快速評估各種設(shè)計方案,篩選出最具潛力和經(jīng)濟效益的分子結(jié)構(gòu)。
3、為了更好應(yīng)用在醫(yī)藥分子設(shè)計領(lǐng)域,深度學(xué)習(xí)網(wǎng)絡(luò)需要的分子輸入形式進行有效合理的轉(zhuǎn)化,經(jīng)過深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)發(fā)展,逐漸形成幾種主流的分子表達形式如下:
4、基于分子的線性輸入規(guī)范;基于分子的二維圖像表示基于分子的圖結(jié)構(gòu)表示。簡化分子線性輸入系統(tǒng)(simplified?molecular?input?line?entry?system,簡稱smiles)是一種為現(xiàn)代化學(xué)信息處理而設(shè)計的化學(xué)符號系統(tǒng),是基于分子圖論原理的一種分子文本表示。雖然分子線性輸入規(guī)范能夠保證分子的化學(xué)結(jié)構(gòu)圖被唯一地描述,但smiles語法對于小變化或錯誤并不魯棒,這大大增加了機器學(xué)習(xí)理解分子特征的難度。二維圖像的生成在計算機視覺領(lǐng)域已經(jīng)有深入的發(fā)展,且針對不同種類的圖像生成已有較為成熟的對應(yīng)深度學(xué)習(xí)模型的構(gòu)架。但是,分子與圖像有著本質(zhì)區(qū)別,分子結(jié)構(gòu)是由原子和它們之間的化學(xué)鍵連接組成的,連接數(shù)量和原子種類是可變的,而圖像是二維不可變像素點矩陣,分子可以通過二維平鋪映射成圖像形式,但是同一分子的旋轉(zhuǎn)、位移、分子主鏈的選擇不同都會導(dǎo)致映射成的圖像不同,這導(dǎo)致對分子預(yù)處理十分復(fù)雜,同時也使生成網(wǎng)絡(luò)所需學(xué)習(xí)的信息十分冗余。在近幾年圖神經(jīng)網(wǎng)絡(luò)的發(fā)展下,基于圖結(jié)構(gòu)的網(wǎng)絡(luò)信息傳遞開始進入研究者視野。圖結(jié)構(gòu)是由節(jié)點(頂點)和節(jié)點之間的邊(連接)組成的一種數(shù)據(jù)結(jié)構(gòu),用于表示各種實際現(xiàn)象和問題中的關(guān)系和連接,這種表示與分子結(jié)構(gòu)十分契合,同時結(jié)合圖神經(jīng)網(wǎng)絡(luò),能夠?qū)W習(xí)得到分子的定長特征網(wǎng)絡(luò),大大提高生成分子的有效性。因此,本發(fā)明使用分子圖形表示作為生成網(wǎng)絡(luò)的訓(xùn)練輸入和生成輸出。
5、近幾年以來,根據(jù)國內(nèi)外在醫(yī)藥設(shè)計領(lǐng)域的研究成果,分子生成模型大致可分為以下三類:
6、(1)基于變分自動編碼器的方法,如cvae(chemical?variational?auto-encoder)方法、sd-vae(syntax-direted-vae)方法等;
7、(2)基于生成式對抗網(wǎng)絡(luò)的方法,如mol-cyclegan方法、organ(objectivereinforcedgenerative?adversarial?network)方法等;
8、(3)基于擴散模型的方法,如mdm(molecular?diffusion?model)方法等。
9、在上述介紹的幾類方法中,基于生成式對抗網(wǎng)絡(luò)的方法具有生成樣本逼真、多樣性強、無需先驗知識等特點,相比于其他方法來說在融合效果上具有一定的優(yōu)勢。
10、現(xiàn)有技術(shù)使用生成式對抗網(wǎng)絡(luò)(gan)進行分子從頭設(shè)計時存在一些關(guān)鍵問題,主要為:生成器只學(xué)會生成有限的分子結(jié)構(gòu),無法覆蓋整個分子空間的多樣性。對于復(fù)雜分子,gan的生成器和判別器之間的對抗關(guān)系容易導(dǎo)致訓(xùn)練過程中震蕩甚至不收斂;gan通常無法顯式控制生成結(jié)果,缺乏生成樣本的潛在空間解釋能力。分子設(shè)計中,科學(xué)家希望能夠理解潛在空間的特征并與分子的物理化學(xué)性質(zhì)關(guān)聯(lián),而gan的生成過程較難提供這種清晰的映射,gan生成的分子結(jié)構(gòu)可能不合法或者不具備化學(xué)意義,如分子鍵數(shù)目不正確或原子連接不合理。生成樣本需要進一步的合法性檢測和篩選,導(dǎo)致生成的效率和有效性降低。
11、因此,需要提供一種基于屬性分類的分子從頭設(shè)計方法以解決上述問題。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供一種基于屬性分類的分子從頭設(shè)計方法,以解決現(xiàn)有的問題。
2、本發(fā)明的一種基于屬性分類的分子從頭設(shè)計方法采用如下技術(shù)方案,包括:
3、根據(jù)分子屬性將分子數(shù)據(jù)劃分為不同類別的分子數(shù)據(jù);
4、根據(jù)分子數(shù)據(jù)的基序得到將全部分子映射為樹狀結(jié)構(gòu)的基序詞匯表;
5、構(gòu)建分子從頭設(shè)計模型,分子從頭設(shè)計模型包括:編碼器-解碼器模型以及輔助分類器生成對抗網(wǎng)絡(luò)模型;
6、對編碼器-解碼器模型進行訓(xùn)練得到訓(xùn)練好的目標(biāo)編碼器-解碼器模型,其中,訓(xùn)練過程中:將分子數(shù)據(jù)的分子圖結(jié)構(gòu)和基序作為編碼器-解碼器模型的編碼器的輸入,編碼器基于基序?qū)⒎肿訄D結(jié)構(gòu)編譯為潛在空間中的分子向量,將潛在空間中的分子向量輸入編碼器-解碼器模型的解碼器,解碼器輸出重構(gòu)后的分子圖結(jié)構(gòu);
7、對輔助分類器生成對抗網(wǎng)絡(luò)模型進行訓(xùn)練,其中,輔助分類器生成對抗網(wǎng)絡(luò)模型包括:生成器、判別器以及輔助分類器,訓(xùn)練過程中,生成器用于根據(jù)預(yù)設(shè)的類標(biāo)簽和噪聲生成樣本,并將真實樣本對應(yīng)的潛在空間中的分子向量及其對應(yīng)的類標(biāo)簽一同輸入至判別器中,由判別器進行判別;輔助分類器的分類訓(xùn)練則通過將生成樣本的類標(biāo)簽與真實樣本的類別標(biāo)簽進行比較,并幫助生成器生成多樣性的生成樣本,直至判別器的損失和生成器的損失的交叉熵損失最小,得到訓(xùn)練好的目標(biāo)輔助分類器生成對抗網(wǎng)絡(luò)模型;
8、將訓(xùn)練好的目標(biāo)編碼器-解碼器模型和目標(biāo)輔助分類器生成對抗網(wǎng)絡(luò)模型聯(lián)合得到訓(xùn)練好的目標(biāo)分子從頭設(shè)計模型;
9、將不同類別的分子數(shù)據(jù)的分子圖結(jié)構(gòu)和基序輸入目標(biāo)分子從頭設(shè)計模型,輸出該類別分子數(shù)據(jù)重構(gòu)后的分子圖結(jié)構(gòu)。
10、優(yōu)選地,分子屬性為親脂性、qed或者sas中的任意一種。
11、優(yōu)選地,獲取分子數(shù)據(jù)的基序的步驟為:
12、基序定義為由原子和化學(xué)鍵誘導(dǎo)的分子數(shù)據(jù)的一個子圖;
13、獲取分子數(shù)據(jù)中的所有橋鍵;
14、根據(jù)分子數(shù)據(jù)中的所有橋鍵,將分子數(shù)據(jù)的所有橋連接與相鄰橋分離,得到一組斷開的子圖;
15、提取基序的條件為:子圖在訓(xùn)練集中出現(xiàn)設(shè)定次數(shù),其中,訓(xùn)練集指zinc數(shù)據(jù)集中的一個子集;
16、若子圖在訓(xùn)練集中未出現(xiàn)設(shè)定次數(shù),則將該子圖分解成環(huán)和鍵,并選擇該子圖的環(huán)和鍵作為基序。
17、優(yōu)選地,編碼器-解碼器模型進行訓(xùn)練時的目標(biāo)函數(shù)為:
18、
19、式中,表示編碼器-解碼器模型進行訓(xùn)練時的目標(biāo)函數(shù);表示潛在空間中的分子向量的后驗分布進行的期望運算;表示近似后驗分布,用于近似潛在空間中的分子向量的真實后驗分布;表示潛在空間中的分子向量的真實后驗分布;表示近似后驗分布與先驗分布的kl散度;表示先驗分布;表示先驗分布;表示解碼器的參數(shù),解碼器的參數(shù)用于控制如何從潛在空間z重構(gòu)輸入數(shù)據(jù)?x;表示編碼器的參數(shù),用于控制如何將輸入數(shù)據(jù)x映射到潛在空間z;表示編碼器-解碼器模型的最優(yōu)目標(biāo)函數(shù)(損失函數(shù))。
20、優(yōu)選地,輔助分類器生成對抗網(wǎng)絡(luò)模型的判別器的損失函數(shù)為:
21、
22、式中,表示輔助分類器生成對抗網(wǎng)絡(luò)模型的判別器的損失函數(shù)值;表示對真實數(shù)據(jù)進行訓(xùn)練時判別器希望將其正確分類為“真實”樣本的期望;d(x)表示判別器輸出的概率,即輸入數(shù)據(jù)是“真實”樣本的概率;表示對由生成器生成的樣本數(shù)據(jù)進行訓(xùn)練時,判別器希望將其正確分類為“偽造”樣本的期望;表示在給定真實數(shù)據(jù)的情況下,判別器對類別的概率分布進行建模,正確地預(yù)測數(shù)據(jù)的期望。
23、優(yōu)選地,輔助分類器生成對抗網(wǎng)絡(luò)模型的生成器的損失函數(shù)為:
24、
25、式中,表示輔助分類器生成對抗網(wǎng)絡(luò)模型的生成器的損失函數(shù);表示生成器通過最大化判別器給生成數(shù)據(jù)的“真實性評分”的期望;表示生成器對生成數(shù)據(jù)類別的預(yù)測概率;表示正則化項的超參數(shù);表示生成器的重建損失;表示判別器中真實的數(shù)據(jù);表示生成器的數(shù)據(jù)。
26、優(yōu)選地,采用圖神經(jīng)網(wǎng)絡(luò)與長短期記憶網(wǎng)絡(luò)來構(gòu)建編碼器和解碼器。
27、優(yōu)選地,采用卷積網(wǎng)絡(luò)構(gòu)建的對抗網(wǎng)絡(luò)的生成器和判別器。
28、一種基于屬性分類的分子從頭設(shè)計系統(tǒng),包括:
29、數(shù)據(jù)處理模塊,用于根據(jù)分子屬性將分子數(shù)據(jù)劃分為不同類別的分子數(shù)據(jù);根據(jù)分子數(shù)據(jù)的基序得到將全部分子映射為樹狀結(jié)構(gòu)的基序詞匯表;
30、分子從頭設(shè)計模型構(gòu)建模塊,用于構(gòu)建分子從頭設(shè)計模型,分子從頭設(shè)計模型包括:編碼器-解碼器模型以及輔助分類器生成對抗網(wǎng)絡(luò)模型;
31、分子從頭設(shè)計模型訓(xùn)練模塊,用于對編碼器-解碼器模型進行訓(xùn)練得到訓(xùn)練好的目標(biāo)編碼器-解碼器模型,其中,訓(xùn)練過程中:將分子數(shù)據(jù)的分子圖結(jié)構(gòu)和基序作為編碼器-解碼器模型的編碼器的輸入,編碼器基于基序?qū)⒎肿訄D結(jié)構(gòu)編譯為潛在空間中的分子向量,將潛在空間中的分子向量輸入編碼器-解碼器模型的解碼器,解碼器輸出重構(gòu)后的分子圖結(jié)構(gòu);對輔助分類器生成對抗網(wǎng)絡(luò)模型進行訓(xùn)練,其中,輔助分類器生成對抗網(wǎng)絡(luò)模型包括:生成器、判別器以及輔助分類器,訓(xùn)練過程中,生成器用于根據(jù)預(yù)設(shè)的類標(biāo)簽和噪聲生成樣本,并將真實樣本對應(yīng)的潛在空間中的分子向量及其對應(yīng)的類標(biāo)簽一同輸入至判別器中,由判別器進行判別;輔助分類器的分類訓(xùn)練則通過將生成樣本的類標(biāo)簽與真實樣本的類別標(biāo)簽進行比較,并幫助生成器生成多樣性的生成樣本,直至判別器的損失和生成器的損失的交叉熵損失最小,得到訓(xùn)練好的目標(biāo)輔助分類器生成對抗網(wǎng)絡(luò)模型;將訓(xùn)練好的目標(biāo)編碼器-解碼器模型和目標(biāo)輔助分類器生成對抗網(wǎng)絡(luò)模型聯(lián)合得到訓(xùn)練好的目標(biāo)分子從頭設(shè)計模型;
32、分子重構(gòu)模塊,用于將不同類別的分子數(shù)據(jù)的分子圖結(jié)構(gòu)和基序輸入目標(biāo)分子從頭設(shè)計模型,輸出該類別分子數(shù)據(jù)重構(gòu)后的分子圖結(jié)構(gòu)。
33、本發(fā)明的有益效果是:
34、在本發(fā)明中,分子生成過程中能夠高精度地生成符合屬性類別的分子,主要得益于編碼器-解碼器模型的設(shè)計以及屬性分類任務(wù)的結(jié)合。通過訓(xùn)練,模型能夠從分子數(shù)據(jù)中學(xué)習(xí)到與特定屬性相關(guān)的結(jié)構(gòu)特征,這使得生成的分子不僅滿足結(jié)構(gòu)要求,而且具備所需的生物化學(xué)性質(zhì)。編碼器將分子圖結(jié)構(gòu)映射到潛在空間中,學(xué)習(xí)到潛在變量與屬性之間的隱含關(guān)系,確保潛在空間中的分子表示能夠傳遞足夠的信息給解碼器,后者根據(jù)這些潛在變量生成對應(yīng)的分子結(jié)構(gòu)。與此同時,通過最大化重構(gòu)誤差,模型確保了生成的分子結(jié)構(gòu)能夠精確重建,從而保證了圖結(jié)構(gòu)的有效性和合理性。kl散度項則作為正則化手段,限制了近似后驗分布與先驗分布之間的差異,使得潛在空間中的分子表示保持穩(wěn)定且一致,從而避免了生成不合規(guī)律或無效的分子。這些設(shè)計步驟共同作用,確保了生成的分子不僅在結(jié)構(gòu)上有效,而且能在不同的屬性類別下高效地生成滿足要求的分子。