本發(fā)明涉及生物信息,特別是涉及一種基于特征融合及交叉注意力機制的抗癌肽預測方法及系統。
背景技術:
1、癌癥仍然是現代醫(yī)學面臨的巨大挑戰(zhàn),其種類繁多且具有較強的轉移性,使其成為人類尚未完全征服的惡性疾病。盡管在癌癥治療領域取得了顯著進展,并進行了多種治療嘗試,但尚未找到一種普遍有效且對患者友好的治療方法。目前的癌癥治療方法——包括化療、放療、手術和靶向治療——各有局限性。化療和放療對身體造成了很大負擔,且常伴隨嚴重的副作用,如脫發(fā)和嘔吐。手術干預通常無法清除已轉移到身體其他部位的癌細胞;雖然原發(fā)性腫瘤可以切除,但殘留在周圍組織中的孤立腫瘤細胞可能未被發(fā)現。此外,靶向治療費用高昂,僅對特定類型的癌癥有效。
2、近年來,抗癌肽(acps)引起了研究人員的廣泛關注??拱╇膹V泛存在于各種生物體中,包括哺乳動物、兩棲動物、昆蟲、植物和微生物,并且也可以通過合成方式獲得。它們通過與癌細胞膜的磷脂雙層相互作用,改變細胞膜的通透性,導致細胞內容物泄漏,從而最終引起細胞死亡。抗癌肽在腫瘤治療中具有許多優(yōu)勢:它們分子量低、結構簡單、抗癌活性強、選擇性高;副作用少,可通過多種途徑給藥,且不易誘發(fā)多藥耐藥性。
3、然而,在大量提取的肽中識別和發(fā)現抗癌肽通常依賴于傳統方法,如體外細胞實驗或動物實驗。這些方法既耗時,又需要精心設計實驗方案、選擇合適的對照組,并且需要大量的財力支持。此外,動物實驗因其涉及的倫理和道德問題,逐漸受到越來越多的質疑。隨著人工智能的飛速發(fā)展,大量基于機器學習或深度學習的方法被提出,但這些方法嚴重依賴于傳統的特征編碼技術,需要復雜的特征工程步驟,提取出來的特征之間沒有過多的關聯,側重點較為片面。
4、由此可知,傳統的生物學實驗方法實驗規(guī)模較大,機器學習方法準確性較低。因此,傳統的發(fā)現抗癌肽的方式存在效率低、準確率低且成本較高的問題。
技術實現思路
1、基于此,為了解決上述技術問題,提供一種基于特征融合及交叉注意力機制的抗癌肽預測方法及系統,可以快速、高效、準確進行抗癌肽預測。
2、一種基于特征融合及交叉注意力機制的抗癌肽預測方法,所述方法包括:
3、從數據庫中收集抗癌肽序列、非抗癌肽序列構建為包含有各個蛋白質序列的數據集;
4、將所述蛋白質序列輸入至蛋白質語言模型esm-2中,通過transformer編碼器提取所述蛋白質序列中的肽類結構特征;
5、將所述蛋白質序列輸入至特征提取模型中,通過所述特征提取模型提取出所述蛋白質序列中的肽類物理化學特征;
6、對所述肽類結構特征進行維度變換處理,得到處理后的肽類結構特征;使用bilstm將離散的肽類物理化學特征連續(xù)化,得到連續(xù)化的肽類物理化學特征;
7、使用交叉注意力機制將所述處理后的肽類結構特征、連續(xù)化的肽類物理化學特征進行特征融合,得到目標特征;
8、將所述目標特征輸入至多層感知機mlp中,得到抗癌肽預測結果。
9、在其中一個實施例中,從數據庫中收集抗癌肽序列、非抗癌肽序列構建為包含有各個蛋白質序列的數據集,包括:
10、從數據庫中收集經過試驗驗證的抗癌肽序列,使用cd-hit工具對所述抗癌肽序列進行去冗余處理,并進行過濾得到最終的抗癌肽序列;
11、隨機采集非抗癌肽序列,使用同源性偏差去除和pssm提取標準,從所述非抗癌肽序列中提取出最終的非抗癌肽序列;
12、分別從所述最終的抗癌肽序列、最終的非抗癌肽序列中隨機選擇抗癌肽序列、非抗癌肽序列構建為包含有各個蛋白質序列的數據集。
13、在其中一個實施例中,將所述蛋白質序列輸入至蛋白質語言模型esm-2中,通過transformer編碼器提取所述蛋白質序列中的肽類結構特征,包括:
14、將所述蛋白質序列輸入至蛋白質語言模型esm-2中,通過所述蛋白質語言模型將所述蛋白質序列轉化為數值向量表示;
15、將所述數值向量表示輸入至所述蛋白質語言模型esm-2中的transformer編碼器中;
16、通過所述transformer編碼器中的點乘注意力機制和線性層進行計算,得到肽類結構特征。
17、在其中一個實施例中,將所述蛋白質序列輸入至特征提取模型中,通過所述特征提取模型提取出所述蛋白質序列中的肽類物理化學特征,包括:
18、將所述蛋白質序列輸入至特征提取模型中,使用所述特征提取模型中的獨熱編碼將所述蛋白質序列中的每個氨基酸都通過一熱編碼進行表示,得到與所述蛋白質序列對應的二進制向量;
19、通過所述特征提取模型,計算所述蛋白質序列中各個氨基酸所有元素質量的總和,并將所述元素質量的總和作為分子量;
20、獲取所述蛋白質序列中氨基酸的酸堿值,根據所述酸堿值計算得到等電點;
21、計算所述蛋白質序列中氨基酸疏水基團的數量和性質,基于所述疏水基團的數量和性質確定氨基酸疏水性;
22、將所述二進制向量、分子量、等電點、疏水性作為蛋白質序列中的肽類物理化學特征。
23、在其中一個實施例中,對所述肽類結構特征進行維度變換處理,得到處理后的肽類結構特征;使用bilstm將離散的肽類物理化學特征連續(xù)化,得到連續(xù)化的肽類物理化學特征,包括:
24、將所述肽類結構特征輸入至線性層中進行維度變換處理,得到處理后的肽類結構特征;
25、將所述肽類物理化學特征輸入至雙向長短期記憶網絡bilstm中,通過bilstm捕獲所述肽類物理化學特征中長序列的長距離依賴關系,完成肽類物理化學特征連續(xù)化,得到連續(xù)化的肽類物理化學特征。
26、在其中一個實施例中,使用交叉注意力機制將所述處理后的肽類結構特征、連續(xù)化的肽類物理化學特征進行特征融合,得到目標特征,包括:
27、通過交叉注意力機制使用所述處理后的肽類結構特征、連續(xù)化的肽類物理化學特征分別生成查詢矩陣、鍵矩陣、值矩陣;
28、確定所述處理后的肽類結構特征、連續(xù)化的肽類物理化學特征對應的鍵向量維度;
29、根據所述查詢矩陣、鍵矩陣、值矩陣、鍵向量維度計算出交叉注意力;
30、基于所述交叉注意力完成所述處理后的肽類結構特征、連續(xù)化的肽類物理化學特征的特征融合,得到目標特征。
31、在其中一個實施例中,所述方法還包括:
32、將所述目標特征輸入至transformer架構中,通過所述transformer架構中的多頭自注意力機制為每個位置計算查詢向量、鍵向量、值向量;
33、對所述查詢向量、鍵向量、值向量進行加權平均計算,得到加權特征;
34、使用前饋神經網絡對所述加權特征進行逐位置的非線性轉換。
35、在其中一個實施例中,將所述目標特征輸入至多層感知機mlp中,得到抗癌肽預測結果,包括:
36、將所述目標特征輸入至多層感知機mlp的輸入層中,通過所述多層感知機mlp中的隱藏層和線性層進行結果預測;
37、將預測結果從所述多層感知機mlp的輸出層輸出,得到抗癌肽預測結果。
38、一種基于特征融合及交叉注意力機制的抗癌肽預測系統,所述系統包括:
39、數據收集模塊,用于從數據庫中收集抗癌肽序列、非抗癌肽序列構建為包含有各個蛋白質序列的數據集;
40、結構特征提取模塊,用于將所述蛋白質序列輸入至蛋白質語言模型esm-2中,通過transformer編碼器提取所述蛋白質序列中的肽類結構特征;
41、其他特征提取模塊,用于將所述蛋白質序列輸入至特征提取模型中,通過所述特征提取模型提取出所述蛋白質序列中的肽類物理化學特征;
42、特征處理模塊,用于對所述肽類結構特征進行維度變換處理,得到處理后的肽類結構特征;使用bilstm將離散的肽類物理化學特征連續(xù)化,得到連續(xù)化的肽類物理化學特征;
43、特征融合模塊,用于使用交叉注意力機制將所述處理后的肽類結構特征、連續(xù)化的肽類物理化學特征進行特征融合,得到目標特征;
44、預測模塊,用于將所述目標特征輸入至多層感知機mlp中,得到抗癌肽預測結果。
45、在其中一個實施例中,所述數據收集模塊,還用于從數據庫中收集經過試驗驗證的抗癌肽序列,使用cd-hit工具對所述抗癌肽序列進行去冗余處理,并進行過濾得到最終的抗癌肽序列;隨機采集非抗癌肽序列,使用同源性偏差去除和pssm提取標準,從所述非抗癌肽序列中提取出最終的非抗癌肽序列;分別從所述最終的抗癌肽序列、最終的非抗癌肽序列中隨機選擇抗癌肽序列、非抗癌肽序列構建為包含有各個蛋白質序列的數據集。
46、上述基于特征融合及交叉注意力機制的抗癌肽預測方法及系統,通過使用蛋白質語言模型提取肽類結構特征,使用傳統的特征提取模型提取肽類物理化學特征,使用交叉注意力機制進行特征融合,最后基于多層感知機mlp得到抗癌肽預測結果,無需耗時提供高成本,也不會涉及倫理道德問題,且提取出來的特征相互關聯,可以快速、高效、準確進行抗癌肽預測。