
本發(fā)明屬于生物信息學領(lǐng)域,涉及一種高效、低計算復(fù)雜度的天然無序蛋白質(zhì)的預(yù)測方案。
背景技術(shù):
:天然無序蛋白質(zhì)是指一個蛋白質(zhì)至少有一個缺少唯一的三維結(jié)構(gòu)且具有動態(tài)構(gòu)象的區(qū)域,在藥物設(shè)計、蛋白質(zhì)表達和功能注釋等方面都有重要的作用。因為研究發(fā)現(xiàn)一些天然無序蛋白質(zhì)參與細胞中的重要調(diào)節(jié)功能,對阿爾茨海默病、帕金森病與某些癌癥等疾病有重要影響。由于無序蛋白質(zhì)區(qū)域提純和結(jié)晶困難,通過實驗來測定不但費用高昂且耗時很長。因此,通過計算的方法由蛋白質(zhì)序列來測定無序區(qū)域的研究是十分重要的。在過去的十數(shù)年間,提出了許多無序蛋白質(zhì)預(yù)測方案,大致可分為兩類:第一類利用無序蛋白質(zhì)序列的氨基酸傾向性,第二類利用機器學習的方法。其中,第一類方法十分簡單但是準確度不高。第二類方法主要基于人工神經(jīng)網(wǎng)絡(luò)和支持向量機,可以得到較高的預(yù)測準確度,但是要求計算一系列特征計算復(fù)雜度很高。技術(shù)實現(xiàn)要素:本發(fā)明的目的是克服現(xiàn)有技術(shù)存在的上述不足,設(shè)計一種低復(fù)雜度的天然無序蛋白質(zhì)的預(yù)測方法,可以使用少量的特征和計算,得到較高的預(yù)測準確度、較快的運算速度和魯棒性。本發(fā)明提供的低復(fù)雜度的天然無序蛋白質(zhì)的預(yù)測方法的具體步驟如下:(1)針對學習樣本dis數(shù)據(jù)集,令w表示其中一條蛋白質(zhì)序列,用長度為n的滑動窗口截取n長的連續(xù)殘基片段進行計算。此時假設(shè)w的長度即為n。(2)計算w的香農(nóng)熵,公式為:其中,fk代表第k種氨基酸在w中出現(xiàn)的頻率。(3)計算拓撲熵:將w映射為0-1序列,其中疏水性氨基酸包括異亮氨酸、亮氨酸和纈氨酸,芳香族氨基酸包括苯丙氨酸、色氨酸和酪氨酸被映射為1,其余為0。計算w的拓撲熵:其中pw(n)代表w中長度為n的不同子字的個數(shù),n滿足:代表的從l開始的長度為2n+n-1的連續(xù)符號。(4)對于長度為n的序列w,計算其remark465,deleage/roux以及bfactor(2std)三種傾向性的加權(quán)平均值:其中代表序列w到第p種的傾向性的值。(5)對于一條長度為l>n的序列w,將每個滑動窗口計算得到的五個特征值作為一個矢量分配給窗口的每個殘基;針對每個殘基,累加得到的矢量并除以累加次數(shù),得到最終的特征矢量;截取n長片段wj=w(j)…w(j+n-1),1≤j≤l-n+1,計算其香農(nóng)熵、拓撲熵和三種傾向性的加權(quán)平均值這五種特征,得到一個5×1矢量vj:vj=[hs(wj)htop(wj)m1(wj)m2(wj)m3(wj)]t(5)之后計算序列w的特征矩陣f=[x1x2…xl…xl],其中(6)利用5-fold交叉驗證,訓(xùn)練分類器。將學習樣本中的無序殘基和有序殘基的特征矢量輸入分類器進行學習,得到分類器的參數(shù):投影方向w和分類閾值。計算訓(xùn)練集的特征矩陣:其中ns代表訓(xùn)練集中蛋白質(zhì)序列的個數(shù),fi代表長度為li的第i條蛋白質(zhì)序列的特征矩陣,1≤i≤ns。最佳投影方向為:其中ndis和nord分別代表訓(xùn)練集中無序殘基和有序殘基的總個數(shù),xdis和xord分別代表所有無序殘基和有序殘基的特征矩陣,如公式(7)所定義,和分別代表xdis和xord中的第j個列向量。在w上的投影為y=wtx。通過線性搜索,可以得到在y上的分類閾值。本發(fā)明的優(yōu)點和積極效果:1、本發(fā)明僅使用了5種特征和線性分類器,就使天然無序蛋白質(zhì)的預(yù)測方法具有較高的運算速度和魯棒性。2、仿真結(jié)果表明,在相似的預(yù)測準確度下,本發(fā)明設(shè)計的天然無序蛋白質(zhì)的預(yù)測方法與現(xiàn)有的同類型預(yù)測方法相比,大大減少了特征個數(shù)和計算復(fù)雜度。附圖說明圖1:實現(xiàn)本發(fā)明預(yù)測天然無序蛋白質(zhì)方法的流程圖。圖2:針對pu159數(shù)據(jù)集,本發(fā)明設(shè)計的天然無序蛋白質(zhì)的預(yù)測方法與現(xiàn)有的同類型預(yù)測方法的預(yù)測準確度比較。圖3:針對r80數(shù)據(jù)集,本發(fā)明設(shè)計的天然無序蛋白質(zhì)的預(yù)測方法與現(xiàn)有的同類型預(yù)測方法的預(yù)測準確度比較。具體實施方式實施例1:本發(fā)明提供的天然無序蛋白質(zhì)的預(yù)測方法具體步驟如下:針對一條未判定無序區(qū)域的蛋白質(zhì)序列w(以r80數(shù)據(jù)集中一條標號為1g4m的蛋白質(zhì)序列為例),利用本發(fā)明提供的無序蛋白質(zhì)預(yù)測方案進行預(yù)測的具體步驟如下:步驟一:該序列長度為393,用n=35的滑動窗口對序列進行截取。針對每個窗口區(qū)間計算五種特征的值。序列w=mgdkgtrvfkkaspngkltvylgkrdfvdhidlvepv…針對第一個長度為n的窗口,按照公式(1)(3)(4),計算窗口所截取的序列片段的五種特征的值,并將這五個值分別賦給片段中的每個殘基;之后,滑動窗口,計算從第二個殘基開始的長度為n的序列片段的五種特征的值并累加給片段中每個殘基;重復(fù)上述過程,直至窗口覆蓋到最后一個殘基。統(tǒng)計序列中每個殘基的累加次數(shù),用殘基的各個累加的特征的值除以累加次數(shù),得到其最終的特征矢量。計算得到的序列w的特征矩陣如下,其中每一列為對應(yīng)該位置殘基的特征矢量:步驟二:利用學習樣本計算得到的投影方向和閾值,對x投影和判定,其中35個無序殘基有29個被正確判定為無序,358個有序殘基有314個被正確判定為有序。為了驗證該預(yù)測方法的有效性,利用r80數(shù)據(jù)集和pu159數(shù)據(jù)集對該方法進行了天然無序蛋白質(zhì)的預(yù)測。其中,r80數(shù)據(jù)集中包含80條蛋白質(zhì)序列,每條蛋白質(zhì)序列都含有至少一個無序區(qū)域;pu159數(shù)據(jù)集中包含79條完全無序序列和80條完全有序序列。表1中列出了針對pu159數(shù)據(jù)集,本發(fā)明設(shè)計的天然無序蛋白質(zhì)的預(yù)測方法與現(xiàn)有的同類型預(yù)測方法的預(yù)測準確度比較。表2列出了針對r80數(shù)據(jù)集,本發(fā)明設(shè)計的天然無序蛋白質(zhì)的預(yù)測方法與現(xiàn)有的同類型預(yù)測方法的預(yù)測準確度比較。表3列出了各個預(yù)測準確度參數(shù)的定義,其中tp表示預(yù)測正確的無序殘基個數(shù),tn表示預(yù)測正確的有序殘基個數(shù),fn表示原本是無序殘基被錯判為有序殘基的個數(shù),fp表示原本是有序殘基被錯判為無序殘基的個數(shù)。表1methodssens.spec.prob.ex.mccourmethod0.8120.7830.5960.594dispssmp0.8250.7650.5900.589bvdea0.7960.7850.5810.586ronn0.6750.8880.5630.580foldindex0.7220.8150.5360.540disopred20.4690.9810.4490.543pondr0.6320.7820.4140.420dispro0.3830.9820.3650.467prelink0.3190.9910.3100.430表2methodssens.spec.prob.ex.mccourmethod0.7270.8970.6240.515dispssmp0.7670.8480.6150.463bvdea0.8170.7280.5450.451ronn0.6030.8780.4810.395foldindex0.4880.8110.2990.224disopred20.4050.9720.3770.470pondr0.5570.8160.3730.278dispro0.4180.9930.4110.578prelink0.2370.9470.1830.219表3參考文獻1.jingy,marcinjm,paullf,vladimirnu,lukaszk,rapid:fastandaccuratesequence-basedpredictionofintrinsicdisordercontentonproteomicscale,biochimicaetbiophysicaacta,1671-1680,2013.2.vnuversky,themysteriousunfoldome:structureless,underappreciated,yetvitalpartofanygivenproteome,j.biomed.biotechnol,2010.3.wrightp,dysonh,intrinsicallyunstructuredproteins:re-assessingtheproteinstructure-functionparadigm,j.mol.biol.,293:321-331,1999.4.iremek,turgayi,okanke,predictionofdisorderwithnewcomputationaltool:bvdea.expertsystemswithapplications,38:14451-14459,2011.5.oldfieldcj,ulrichel,chengy,dunkerak,markleyjl,addressingtheintrinsicdisorderbottleneckinstructuralproteomics,proteins,59:444-453,2005.6.jaimep,cliffordef,tzviyazbm,edwinhr,ornam,jacquessb,israelsjls,foldindex:asimpletooltopredictwhetheragivenproteinsequenceisintrinsicallyunfolded,bioinformatics,21(16):3435-3438,2005.7.rlinding,rbrussell,vneduva,tjgibson,globplot:exploringproteinsequencesforglobularityanddisorder.nucleicacidsresearch,31(13):3701-3708,2003.8.ferenco,judito,proteinswithout3dstructure:definition,detectionandbeyond,bioinformatics,27(11):1449-1454,2011.9.kpeng,svucetic,pradivojac,cjbrown,akdunker,zobradovic,optimizinglongintrinsicdisorderpredictorswithproteinevolutionaryinformation,journalofbioinformaticsandcomputationalbiology,3(1):35-60,2005.10.yangzr,thomsonr,mcneilp,esnoufrm,ronn:thebio-basisfunctionneuralnetworktechniqueappliedtothedetectionofnativelydisorderedregionsinproteins.bioinformaticsadvanceaccesspublished9,2005.11.jjward,jssodhi,ljmcguffin,bfbuxton,dtjones,predictionandfunctionalanalysisofnativedisorderinproteinsfromthethreekingdomsoflife.j.mol.biol.,337:635-645,2004.12.suc,chenc,ouy,proteindisorderpredictionbycondensedpssmconsideringpropensityfororderordisorder,bmcbioinformatics,307-319,2006.13.ishidat,kinoshitak,predictionofdisorderedregionsinproteinsbasedonthemetaapproach,bioinformatics24:1344-1348,2008.14.schlessingera,improveddisorderpredictionbycombinationoforthogonalapproaches,plosone,4:4433,2009.15.chengj,sweredoskimj,baldip,accuratepredictionofproteindisorderedregionsbyminingproteinstructuredata,dataminingandknowledgediscovery,11:213-222,2005.16.weathersea,paulaitisme,woolftb,hohjh,reducedaminoacidalphabetissufficienttoaccuratelyrecognizeintrinsicallydisorderedprotein,febsletters,576:348-352,2004.17.davidk,topologicalentropyofdnasequences.bioinformatics,27(8):1061-1067,2011.18.mikas,ratschg,westonj,scholkophb,mullerskr,fisherdiscriminantanalysiswithkernels,neuralnetworksforsignalprocessing,1999.19.kohavi,ron,astudyofcross-validationandbootstrapforaccuracyestimationandmodelselection.proceedingsofthefourteenthinternationaljointconferenceonartificialintelligence,sanmateo,ca:morgankaufmann,2(12):1137-1143,1995.20.uverskyvn,gillespiejr,finkal,whyare"nativelyunfolded"proteinsunstructuredunderphysiologicconditions,proteins41:415-427,2000。當前第1頁12