本發(fā)明屬于人工智能輔助藥物研發(fā)領(lǐng)域,具體涉及多模態(tài)藥物分子預(yù)測方法。
背景技術(shù):
1、了解分子的性質(zhì)和功能對藥物研發(fā)至關(guān)重要,為靶向治療的發(fā)展、疾病機(jī)制的闡明和個性化醫(yī)療的發(fā)展提供了基礎(chǔ)。傳統(tǒng)的藥物發(fā)現(xiàn)依賴于實驗室實驗,需要大量的時間和經(jīng)濟(jì)成本。近年來,人工智能在輔助藥物研發(fā)方面發(fā)揮了越來越重要的作用,在效率和成本效益方面都有了顯著的提高。研究人員已將自我監(jiān)督學(xué)習(xí)策略應(yīng)用于分子表示學(xué)習(xí),訓(xùn)練模型來理解各種分子表示,例如分子smiles字符串和分子圖結(jié)構(gòu)。這些模型旨在從大量未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)預(yù)訓(xùn)練模型,以支持各種分子任務(wù),如分子性質(zhì)預(yù)測和分子生成等。根據(jù)輸入模態(tài)的不同,目前的分子預(yù)訓(xùn)練模型可以分為兩類,即單模態(tài)預(yù)訓(xùn)練模型和多模態(tài)預(yù)訓(xùn)練模型。與單模態(tài)分子預(yù)訓(xùn)練模型相比,多模態(tài)分子預(yù)訓(xùn)練模型能夠融合多種不同模態(tài)的信息,具有更強(qiáng)的泛化能力,適用于更廣泛的下游任務(wù)?,F(xiàn)實中,人類擁有從多個角度理解和學(xué)習(xí)知識的能力,可以通過結(jié)合分子圖結(jié)構(gòu)、分子smiles字符串和分子描述文本來認(rèn)識不同形式的分子。類似地,已有研究工作探索多模態(tài)分子-文本預(yù)訓(xùn)練模型,結(jié)合文本知識學(xué)習(xí)分子表示。
2、然而,現(xiàn)有的多模態(tài)分子預(yù)訓(xùn)練模型在下游任務(wù)上的表現(xiàn)仍存在一定不足。首先,與單模態(tài)分子預(yù)訓(xùn)練數(shù)據(jù)集相比,多模態(tài)分子-文本預(yù)訓(xùn)練數(shù)據(jù)集的規(guī)模很小。主要的挑戰(zhàn)是難以獲得高質(zhì)量的分子描述文本數(shù)據(jù),其原因在于分子注釋過程需要分子化學(xué)方面的專業(yè)知識,這使得大規(guī)模的手動注釋既昂貴又繁瑣。因此,分子描述文本數(shù)據(jù)與分子smiles字符串、分子圖結(jié)構(gòu)在數(shù)據(jù)規(guī)模上存在著顯著的差距。已有研究人員使用大語言模型(llm)生成偽文本數(shù)據(jù)來解決分子描述文本數(shù)據(jù)缺失的挑戰(zhàn)。這種方法雖然取得了一定的效果,但偽文本數(shù)據(jù)的生成效率較低,且需要一定的時間和經(jīng)濟(jì)成本。另一個值得注意的問題是,現(xiàn)有的多模態(tài)分子圖結(jié)構(gòu)-文本預(yù)訓(xùn)練模型要么忽略并浪費了單模態(tài)編碼器不同層中包含的不同級別的語義知識,要么難以實現(xiàn)有效的跨模態(tài)對齊。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是解決多模態(tài)分子-文本預(yù)訓(xùn)練數(shù)據(jù)集規(guī)模受分子描述文本模態(tài)缺失的限制,模型難以充分捕捉分子圖結(jié)構(gòu)和文本之間的復(fù)雜關(guān)系,且現(xiàn)有多模態(tài)分子預(yù)訓(xùn)練模型在下游任務(wù)上的表現(xiàn)存在一定不足的問題,而提出基于缺失模態(tài)生成的多模態(tài)藥物分子預(yù)測方法。
2、基于缺失模態(tài)生成的多模態(tài)藥物分子預(yù)測方法具體過程為:
3、步驟一:構(gòu)建多模態(tài)分子預(yù)訓(xùn)練模型molbt;
4、步驟二:對多模態(tài)分子預(yù)訓(xùn)練模型molbt進(jìn)行預(yù)訓(xùn)練,獲得預(yù)訓(xùn)練好的多模態(tài)分子預(yù)訓(xùn)練模型molbt;
5、步驟三:基于下游任務(wù)類型,對預(yù)訓(xùn)練好的多模態(tài)分子預(yù)訓(xùn)練模型molbt進(jìn)行微調(diào),獲得微調(diào)后的多模態(tài)分子預(yù)訓(xùn)練模型molbt;
6、步驟四:基于微調(diào)后的多模態(tài)分子預(yù)訓(xùn)練模型molbt對下游任務(wù)進(jìn)行預(yù)測。
7、本發(fā)明的有益效果為:
8、本發(fā)明提出了一個基于缺失模態(tài)生成的多模態(tài)分子預(yù)訓(xùn)練模型,molbt。molbt探索了一種解決分子描述文本模態(tài)缺失問題的方法,即利用現(xiàn)有模態(tài)生成缺失文本模態(tài)的淺層特征表示。這種方法顯著擴(kuò)大了多模態(tài)分子預(yù)訓(xùn)練數(shù)據(jù)集的規(guī)模。同時,我們強(qiáng)調(diào)利用單模態(tài)編碼器不同層所包含的不同層次的語義知識。通過bridgelayer,我們在單模態(tài)編碼器的頂部各層和跨模態(tài)編碼器的每一層之間建立了連接,從而優(yōu)化了多種單模態(tài)特征的利用,促進(jìn)了分子圖結(jié)構(gòu)表示、文本表示以及分子smiles字符串三種模態(tài)之間的有效的自底向上的跨模態(tài)交互和融合。molbt在一系列下游任務(wù)中展現(xiàn)了出色的泛化能力。molbt在分子-文本跨模態(tài)檢索中表現(xiàn)出優(yōu)秀的性能。在分子性質(zhì)預(yù)測任務(wù)中,molbt表現(xiàn)出色,凸顯了其在生理學(xué)和生物物理學(xué)相關(guān)分類任務(wù)中的出色表現(xiàn)。
1.基于缺失模態(tài)生成的多模態(tài)藥物分子預(yù)測方法,其特征在于:所述方法具體過程為:
2.根據(jù)權(quán)利要求1所述的基于缺失模態(tài)生成的多模態(tài)藥物分子預(yù)測方法,其特征在于:所述步驟一中構(gòu)建多模態(tài)分子預(yù)訓(xùn)練模型molbt:具體過程為:
3.根據(jù)權(quán)利要求2所述的基于缺失模態(tài)生成的多模態(tài)藥物分子預(yù)測方法,其特征在于:所述步驟一一中將分子圖輸入分子圖結(jié)構(gòu)編碼器,分子圖結(jié)構(gòu)編碼器輸出分子圖結(jié)構(gòu)特征表示;具體過程為:
4.根據(jù)權(quán)利要求3所述的基于缺失模態(tài)生成的多模態(tài)藥物分子預(yù)測方法,其特征在于:所述步驟一二中將分子描述文本輸入分子序列編碼器,分子序列編碼器輸出分子描述文本特征表示;具體過程為:
5.根據(jù)權(quán)利要求4所述的基于缺失模態(tài)生成的多模態(tài)藥物分子預(yù)測方法,其特征在于:所述步驟一三中將分子smiles字符串輸入分子序列編碼器,分子序列編碼器輸出分子smiles特征表示;具體過程為:
6.根據(jù)權(quán)利要求5所述的基于缺失模態(tài)生成的多模態(tài)藥物分子預(yù)測方法,其特征在于:所述步驟一四中建立跨模態(tài)編碼器,將分子圖結(jié)構(gòu)特征表示、分子描述文本特征表示、分子smiles特征表示輸入跨模態(tài)編碼器,跨模態(tài)編碼器輸出分子圖結(jié)構(gòu)跨模態(tài)特征表示和分子描述文本跨模態(tài)特征表示;具體過程為:
7.根據(jù)權(quán)利要求6所述的基于缺失模態(tài)生成的多模態(tài)藥物分子預(yù)測方法,其特征在于:所述步驟一五中構(gòu)建缺失模態(tài)生成模塊,將缺失分子描述文本的分子圖和分子smiles字符串輸入缺失模態(tài)生成模塊,缺失模態(tài)生成模塊輸出對應(yīng)的分子描述文本;具體過程為:
8.根據(jù)權(quán)利要求7所述的基于缺失模態(tài)生成的多模態(tài)藥物分子預(yù)測方法,其特征在于:所述步驟二中對多模態(tài)分子預(yù)訓(xùn)練模型molbt進(jìn)行預(yù)訓(xùn)練,獲得預(yù)訓(xùn)練好的多模態(tài)分子預(yù)訓(xùn)練模型molbt;具體過程為:
9.根據(jù)權(quán)利要求8所述的基于缺失模態(tài)生成的多模態(tài)藥物分子預(yù)測方法,其特征在于:所述步驟三中基于下游任務(wù)類型,對預(yù)訓(xùn)練好的多模態(tài)分子預(yù)訓(xùn)練模型molbt進(jìn)行微調(diào),獲得微調(diào)后的多模態(tài)分子預(yù)訓(xùn)練模型molbt;具體過程為:
10.根據(jù)權(quán)利要求9所述的基于缺失模態(tài)生成的多模態(tài)藥物分子預(yù)測方法,其特征在于:所述步驟四中基于微調(diào)后的多模態(tài)分子預(yù)訓(xùn)練模型molbt對下游任務(wù)進(jìn)行預(yù)測;具體過程為: