最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種量化評(píng)估病原體進(jìn)化方向多樣性的方法

文檔序號(hào):41944229發(fā)布日期:2025-05-16 14:01閱讀:3來(lái)源:國(guó)知局
一種量化評(píng)估病原體進(jìn)化方向多樣性的方法

本發(fā)明涉及生物,尤其涉及一種基于聚類質(zhì)量評(píng)價(jià)方法計(jì)算病原體進(jìn)化方向多樣性的方法。


背景技術(shù):

1、病原體在自然界中廣泛存在且種類多樣,是威脅人類生命健康的重要因素之一。不同的病原體存在不同的進(jìn)化特征與傳播規(guī)律,如何快速識(shí)別和感知病原體的進(jìn)化方向是當(dāng)下生物安全防御與疾病控制面臨的重要難題。

2、病原體的進(jìn)化方向往往與其生存?zhèn)鞑キh(huán)境相關(guān)。其中比較重要的影響因素包括病原體地理分布與宿主分布。以地理分布為例,有的病原體可以在多地區(qū)傳播,并發(fā)生跨地域傳播的現(xiàn)象,這說(shuō)明病原體的在地理分布方面進(jìn)化方向趨于多樣化傳播,存在傳播外溢的風(fēng)險(xiǎn),例如禽流感病毒等。有的病原體僅在特定區(qū)域內(nèi)傳播,很少發(fā)生跨地域傳播現(xiàn)象,這說(shuō)明病原體在地理分布方面進(jìn)化方向趨于穩(wěn)定,傳播外溢風(fēng)險(xiǎn)較小,例如埃博拉病毒,拉沙病毒等。

3、對(duì)病原體進(jìn)化方向的量化評(píng)估不僅可以幫助科研人員和醫(yī)護(hù)人員更深入的了解病原體內(nèi)在進(jìn)化規(guī)律,還可以對(duì)病原體未來(lái)傳播外溢風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè),為疫情地區(qū)周邊城市或國(guó)家是否進(jìn)行防御升級(jí)或者降級(jí),提供理論依據(jù)和技術(shù)支持。

4、目前針對(duì)病原體進(jìn)化方向的感知方法一般包括基因數(shù)據(jù)收集,標(biāo)簽信息標(biāo)注,多序列比對(duì),進(jìn)化分析,聚類分析,地理系統(tǒng)發(fā)生學(xué)分析等多個(gè)步驟。分析過(guò)程依賴人工主觀判斷,分析流程復(fù)雜,計(jì)算難度大,存在分析效率低,可分析數(shù)據(jù)量小,結(jié)果準(zhǔn)確性不足等多種問(wèn)題。

5、評(píng)估病原體進(jìn)化方向多樣性,本質(zhì)上是檢測(cè)各地區(qū)(或者宿主)病原體的基因進(jìn)化特征差異是否顯著。若病原體基因進(jìn)化特征差異較大,各地區(qū)(或者宿主)分別有各自的進(jìn)化特征,說(shuō)明病原體的進(jìn)化方向較為穩(wěn)定集中。相反,若病原體基因進(jìn)化特征差異較小,說(shuō)明病原體的進(jìn)化方向較為多樣,存在傳播外溢風(fēng)險(xiǎn)。

6、利用交叉學(xué)科方法,可以將病原體進(jìn)化方向多樣性研究這個(gè)生物學(xué)問(wèn)題轉(zhuǎn)化為樣本分布估計(jì)的計(jì)算問(wèn)題。病原體序列特征為數(shù)據(jù)樣本,病原體的分布屬性(地理信息或者宿主信息)為樣本標(biāo)簽,針對(duì)進(jìn)化方向多樣性的分析可以轉(zhuǎn)化為多類別數(shù)據(jù)分布的混亂程度評(píng)估,分布越混亂則說(shuō)明進(jìn)化方向越多樣,相反則說(shuō)明進(jìn)化方向越穩(wěn)定。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的是提供一種量化評(píng)估病原體進(jìn)化方向多樣性的方法。

2、本發(fā)明提供一種量化評(píng)估病原體進(jìn)化方向多樣性的方法,針對(duì)給定的病原體,收集病原體的基因型數(shù)據(jù),使用相關(guān)方法對(duì)序列進(jìn)行特征提取,再根據(jù)所提取的特征向量和自然聚類結(jié)果生成特征矩陣,利用聚類評(píng)價(jià)方法進(jìn)行病原體進(jìn)化方向多樣性的量化計(jì)算。

3、進(jìn)一步地,包括如下步驟:

4、1)收集目標(biāo)病原體的核心基因序列;

5、2)對(duì)步驟1)得到的每條序列進(jìn)行特征提取,得到核心基因序列的特征向量;

6、3)根據(jù)步驟2)得到的特征向量和自然聚類結(jié)果生成特征矩陣,利用聚類評(píng)價(jià)方法進(jìn)行病原體進(jìn)化方向多樣性的量化計(jì)算,得到病原體的進(jìn)化方向多樣性評(píng)價(jià)指標(biāo)。

7、進(jìn)一步地,所述步驟1)中的核心基因序列為具有病原體核心特征的特定基因序列或者全長(zhǎng)基因組序列,序列類型包括核酸序列或氨基酸序列。

8、4.根據(jù)權(quán)利要求2所述的量化評(píng)估病原體進(jìn)化方向多樣性的方法,其特征在于,所述特征向量的提取方法,包括如下步驟:

9、21)使用基于k元組的距離測(cè)定(distance?measure?based?on?k-tuple,dmk)計(jì)算序列中k元組的位置和出現(xiàn)次數(shù)信息,當(dāng)k=3時(shí),可以將k元組視為密碼子。每次k元組出現(xiàn)的位置記為,其中代表第次出現(xiàn)該k元組的位置,,是該k元組在序列中出現(xiàn)的次數(shù);

10、22)計(jì)算k元組出現(xiàn)的位置之間的間隔,組合所有的間隔為,其數(shù)學(xué)計(jì)算公式如下:

11、;

12、23)根據(jù)k元組的間隔信息序列,計(jì)算其間隔和,組合成一個(gè)序列可以記為,其數(shù)學(xué)計(jì)算公式如下:

13、

14、其中,由k元組出現(xiàn)的次數(shù)和位置決定,同時(shí),k元組出現(xiàn)的次數(shù)和位置也可以通過(guò)間隔和序列來(lái)得到;

15、24)根據(jù)間隔和概率計(jì)算該條序列的香農(nóng)熵,根據(jù)間隔和定義一個(gè)離散概率分布,其中的數(shù)學(xué)計(jì)算公式如下:

16、

17、然后就可以計(jì)算得到香農(nóng)熵:

18、

19、香農(nóng)熵體現(xiàn)了一個(gè)k元組出現(xiàn)的次數(shù)和位置信息,將其作為該條病毒序列中一個(gè)k元組的特征;

20、25)對(duì)每一種k元組重復(fù)步驟21)-24),提取其特征,最終可以得到一個(gè)特征向量,記為,其中,為,這一向量即為從該序列中提取出來(lái)的特征向量。

21、進(jìn)一步地,所述步驟3)中病原體的進(jìn)化方向多樣性評(píng)價(jià)指標(biāo)的計(jì)算方法包括如下步驟:

22、31)將病原體的屬性標(biāo)簽視為自然聚類結(jié)果,將同一類病原體的序列特征組合為類特征矩陣,使用類內(nèi)方差來(lái)計(jì)算特征矩陣的簇內(nèi)緊密度,其計(jì)算公式如下:

23、

24、其中,表示類別數(shù)量,表示第個(gè)類中的所有樣本,表示第個(gè)宿主對(duì)應(yīng)的聚類中心,表示特征向量的維度,表示特征向量的第位的向量值,表示特征向量的第位的向量值;

25、32)使用類間方差來(lái)計(jì)算特征矩陣的簇間分離度,其計(jì)算公式如下:

26、

27、其中,表示類別數(shù)量,表示第個(gè)類中樣本的數(shù)量,表示所有樣本數(shù)量,表示全局中心,表示特征向量的維度,表示全局中心向量的第位的向量值,表示類內(nèi)中心向量的第位的向量值;

28、33)綜合考慮簇內(nèi)緊密度和簇間分離度以及樣本聚類數(shù)量的影響,進(jìn)化方向多樣性評(píng)價(jià)指標(biāo)的計(jì)算公式為:

29、

30、其中,即為病原體的進(jìn)化方向多樣性評(píng)價(jià)指標(biāo)。

31、上述的量化評(píng)估病原體進(jìn)化方向多樣性的方法在制備評(píng)價(jià)病原體傳播外溢風(fēng)險(xiǎn)產(chǎn)品中的應(yīng)用。

32、進(jìn)一步地,所述評(píng)價(jià)病原體傳播外溢風(fēng)險(xiǎn)的標(biāo)準(zhǔn)為病原體的進(jìn)化方向多樣性評(píng)價(jià)指標(biāo)值越大說(shuō)明類別分布越混亂,進(jìn)化方向多樣性越高,病原體傳播外溢風(fēng)險(xiǎn)越高;病原體的進(jìn)化方向多樣性評(píng)價(jià)指標(biāo)值越小說(shuō)明類別之間差異越大,進(jìn)化方向集中,病原體傳播外溢風(fēng)險(xiǎn)越低。

33、一種評(píng)價(jià)病原體傳播外溢風(fēng)險(xiǎn)產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述量化評(píng)估病原體進(jìn)化方向多樣性的方法所述的步驟,得到病原體的進(jìn)化方向多樣性評(píng)價(jià)指標(biāo);并根據(jù)病原體的進(jìn)化方向多樣性評(píng)價(jià)指標(biāo)的大小評(píng)價(jià)病原體傳播外溢風(fēng)險(xiǎn)。

34、進(jìn)一步地,所述評(píng)價(jià)病原體傳播外溢風(fēng)險(xiǎn)的標(biāo)準(zhǔn)為病原體的進(jìn)化方向多樣性評(píng)價(jià)指標(biāo)值越大說(shuō)明類別分布越混亂,進(jìn)化方向多樣性越高,病原體傳播外溢風(fēng)險(xiǎn)越高;病原體的進(jìn)化方向多樣性評(píng)價(jià)指標(biāo)值越小說(shuō)明類別之間差異越大,進(jìn)化方向集中,病原體傳播外溢風(fēng)險(xiǎn)越低。

35、本發(fā)明利用交叉學(xué)科方法將分布屬性(地理或者宿主)標(biāo)簽視為病原體“自然聚類”后的結(jié)果,使用聚類評(píng)價(jià)算法對(duì)“自然聚類”的聚類質(zhì)量進(jìn)行評(píng)估,判斷數(shù)據(jù)分布的混亂程度,進(jìn)而完成對(duì)病原體進(jìn)化方向多樣性的量化評(píng)估。

36、與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)在于:1、計(jì)算簡(jiǎn)潔直觀,可分析數(shù)據(jù)量較大,分析效率高,能有效追蹤量化病原體進(jìn)化方向多樣性程度;2、利用聚類評(píng)價(jià)算法評(píng)估進(jìn)化方向多樣性,具備較強(qiáng)創(chuàng)新性,利用交叉學(xué)科技術(shù)優(yōu)勢(shì),能有效避免因病原體序列質(zhì)量不一致導(dǎo)致的結(jié)果偏差以及計(jì)算難度增大的問(wèn)題,能夠涵蓋更多的數(shù)據(jù)信息,有效處理噪聲和缺失數(shù)據(jù),分析準(zhǔn)確率更高;3、方法具備全流程自動(dòng)化計(jì)算特征,避免因人工度量帶來(lái)的偏差和誤導(dǎo),分析結(jié)果具有較強(qiáng)的穩(wěn)定性和可靠性;4、依據(jù)本方法對(duì)病原體進(jìn)化方向多樣性進(jìn)行量化評(píng)估,可有效對(duì)病原體地理(或宿主)傳播外溢態(tài)勢(shì)進(jìn)行有效感知,為病原識(shí)別與疫情防控提供技術(shù)支持與參考,具有較強(qiáng)的實(shí)用性。

37、綜上所述,本發(fā)明通過(guò)對(duì)病原體的序列收集質(zhì)控,特征提取,聚類評(píng)價(jià)等流程方法,實(shí)現(xiàn)對(duì)病原體進(jìn)化方向多樣性的量化評(píng)估。評(píng)估速度快,方法簡(jiǎn)單有效,可系統(tǒng)全面衡量病原體的傳播外溢態(tài)勢(shì)與風(fēng)險(xiǎn)。該發(fā)明避免了經(jīng)典方法中存在的計(jì)算效率低,可處理數(shù)據(jù)量小,分析結(jié)果解讀難度大等復(fù)雜性問(wèn)題,克服了數(shù)據(jù)噪聲和數(shù)量規(guī)模等干擾因素的影響。該方法主要體現(xiàn)在快速進(jìn)行病原體進(jìn)化方向多樣性評(píng)估,不需要進(jìn)行進(jìn)化樹分析或建模訓(xùn)練即可實(shí)現(xiàn)病原體傳播風(fēng)險(xiǎn)分析。利用該技術(shù)優(yōu)勢(shì),將為病原體預(yù)防和流行風(fēng)險(xiǎn)預(yù)測(cè)提供技術(shù)方法與參考。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1