本發(fā)明涉及生物信息學和深度學習,具體是一種融合門控機制與對比學習的化合物-蛋白質相互作用(compound-protein?interaction,?cpi)預測模型。該模型旨在解決現有cpi預測方法在特征提取和信息融合方面的局限性,通過引入門控機制和對比學習技術,提高cpi預測的準確性和可靠性,從而加速新藥研發(fā)進程,降低藥物研發(fā)成本。本發(fā)明所涉及的涵蓋了化合物與蛋白質相互作用的計算預測,包括但不限于生物化學實驗方法、基于結構的計算方法以及基于機器學習的預測方法。在此基礎上,本發(fā)明提出了一種新的計算模型,該模型結合了深度學習中的門控機制和對比學習技術,能夠更有效地提取和融合化合物與蛋白質的特征信息,實現對cpi的精確預測。
背景技術:
1、本部分的陳述僅僅是提供了與本發(fā)明相關的背景技術信息,并不必然構成在先技術。在生物醫(yī)藥和藥物研發(fā)領域,化合物-蛋白質相互作用(compound-proteininteraction,?cpi)的預測是藥物發(fā)現過程中的一個關鍵環(huán)節(jié)。cpi的準確預測有助于科研人員快速篩選潛在的藥物候選分子,從而加速新藥研發(fā)進程,提高藥物研發(fā)的成功率。然而,傳統(tǒng)的cpi預測方法存在諸多挑戰(zhàn)。一方面,生物化學實驗方法雖然能夠提供準確的cpi數據,但實驗過程繁瑣、耗時且成本高昂,難以滿足大規(guī)模藥物篩選的需求。另一方面,基于結構的計算方法雖然能夠預測化合物與蛋白質的結合位點,但受限于蛋白質三維結構的獲取難度和計算復雜度,其應用范圍受到限制。近年來,隨著機器學習技術的不斷發(fā)展,基于機器學習的cpi預測方法逐漸嶄露頭角。這些方法通過提取化合物和蛋白質的特征信息,并利用機器學習算法建立預測模型,實現對cpi的預測。然而,現有的基于機器學習的cpi預測方法仍面臨一些技術難題。例如,如何有效地提取和融合化合物與蛋白質的特征信息,以提高預測的準確性和可靠性;如何克服數據稀疏性和不平衡性等問題,以提高模型的泛化能力。
技術實現思路
1、本發(fā)明為了解決上述問題,提出了一種創(chuàng)新的cpi預測模型,該模型融合了門控機制與對比學習技術,旨在提高cpi預測的準確性和可靠性,加速新藥研發(fā)進程。本發(fā)明的核心在于構建了一個基于深度學習的cpi預測模型,該模型由以下幾個關鍵部分組成:特征提取模塊:利用深度學習技術,從化合物和蛋白質的結構信息中自動提取特征。這些特征包括但不限于化合物的化學結構特征、蛋白質的三維結構特征以及它們之間的相互作用界面特征。門控機制模塊:在特征提取的基礎上,引入門控機制,用于動態(tài)地調整不同特征信息的融合比例。門控機制能夠根據上下文信息智能地選擇重要的特征進行融合,從而避免冗余信息的干擾,提高模型的預測性能。對比學習模塊:為了進一步提高模型的泛化能力,本發(fā)明引入了對比學習技術。通過對比不同化合物與蛋白質之間的相互作用模式,模型能夠學習到更加魯棒和泛化的特征表示,從而增強對未知cpi的預測能力。預測輸出模塊:基于上述特征提取、門控機制以及對比學習的結果,模型最終輸出cpi的預測結果。這些結果可以包括化合物與蛋白質是否相互作用、相互作用的強度以及可能的作用位點等信息。通過本發(fā)明的cpi預測模型,研究人員能夠更快速、準確地篩選潛在的藥物候選分子,從而顯著降低新藥研發(fā)的成本和時間成本。此外,該模型還具有廣泛的應用前景,包括但不限于藥物重定位、藥物副作用預測以及生物標志物發(fā)現等領域。與現有技術相比,本發(fā)明的有益效果為:通過融合門控機制與對比學習技術,本發(fā)明能夠更有效地提取和融合化合物與蛋白質的特征信息,從而顯著提高cpi預測的準確性。這一改進對于藥物研發(fā)過程中的化合物篩選和藥物優(yōu)化具有重要意義,有助于科研人員更快地找到具有潛力的藥物候選分子,從而顯著降低新藥研發(fā)的成本和時間成本。本發(fā)明的優(yōu)點以及附加方面的優(yōu)點將在下面的具體實施方法中進行詳細說明。
1.一種融合門控機制與對比學習的化合物-蛋白質相互作用預測方法,其特征是,包括如下過程:
2.如權利要求1所述的一種融合門控機制與對比學習的化合物-蛋白質相互作用預測方法,其特征是,所述編碼層對氨基酸序列進行特征提取時,采用n-gram方法對其進行分割,并通過長短期記憶網絡(lstm)捕捉序列中的有序性和長期依賴性。
3.如權利要求1所述的一種融合門控機制與對比學習的化合物-蛋白質相互作用預測方法,其特征是,所述編碼層對化合物分子進行特征提取時,利用圖神經網絡(gnn)提取其原子特征和分子結構信息,充分捕捉分子圖中的拓撲關系和局部結構。
4.如權利要求1所述的一種融合門控機制與對比學習的化合物-蛋白質相互作用預測方法,其特征是,所述門控機制通過sigmoid激活函數將輸出壓縮到[0,?1]區(qū)間,表示每個特征的重要性,并通過逐元素乘積(hadamard乘積)篩選出重要的特征,同時抑制不必要的噪聲特征。
5.如權利要求1所述的一種融合門控機制與對比學習的化合物-蛋白質相互作用預測方法,其特征是,所述對比學習通過計算錨點樣本與負樣本的余弦相似度來衡量特征間的相似度,并通過優(yōu)化對比損失函數,使模型在學習過程中更好地區(qū)分不同的特征。
6.如權利要求1所述的一種融合門控機制與對比學習的化合物-蛋白質相互作用預測方法,其特征是,所述解碼層對提取和處理之后的蛋白質和化合物特征進行最終的預測任務。采用全連接層對處理后的特征進行融合,最終通過softmax激活函數輸出預測的概率分布,將特征映射到標簽空間,從而輸出藥物-蛋白質相互作用的預測結果。