本發(fā)明涉及生物信息,具體涉及基于pacbio?hifi三代dna測序數(shù)據(jù)進(jìn)行基因?qū)用鎲伪扼w分型的方法。
背景技術(shù):
1、個體單倍體型的研究需求促進(jìn)了單倍體型構(gòu)建方法和工具的不斷發(fā)展和進(jìn)步,不依賴親本數(shù)據(jù)和群體測序、僅從個體全基因組測序數(shù)據(jù)中重構(gòu)出單倍體型儼然已成為該領(lǐng)域的研究熱點(diǎn)。目前的單倍體型構(gòu)建方法主要有兩大類:一種基于比對的單倍體型分型方法,一種是基于組裝的單倍體型分型方法。基于比對的單倍體型分析通常以預(yù)先識別出雜合標(biāo)記位點(diǎn)(主要是snp和indel標(biāo)記)和測序片段作為輸入信息,并將單倍體型組裝過程轉(zhuǎn)化為最小片段去除,最長單倍體型構(gòu)建,最小錯誤糾正等。第三代測序序列的讀長優(yōu)勢在構(gòu)建單倍體型上具有巨大的應(yīng)用潛力,近年來已有多個基于三代序列的基因組分型工具發(fā)表,其中以whathap的方法具有代表性。基于組裝的單倍體型分型方法主要有兩種,一種是有親本數(shù)據(jù),在組裝時參考親本的數(shù)據(jù)進(jìn)行分型,組裝出兩套單倍體型的基因組。另一種是基于參考基因組上的變異位點(diǎn)信息,將組裝的reads分成單倍體型的兩套,再分別進(jìn)行組裝。由于以上的方法是基于整個基因組范圍內(nèi)的單倍體型分型,序列數(shù)量和變異位點(diǎn)數(shù)量相對龐大,需要的時間較多,資源消耗相對較大,同時對數(shù)據(jù)的糾錯也有更高的要求。同時一些分析方法需要依賴已有的數(shù)據(jù),子代的親本數(shù)據(jù)通常較難獲得。
2、基于此,本發(fā)明提供一種高精度的基于基因?qū)用娴膯伪扼w信息檢測方法。
技術(shù)實(shí)現(xiàn)思路
1、基于上述表述,本發(fā)明提供了基于pacbio?hifi三代dna測序數(shù)據(jù)進(jìn)行基因?qū)用鎲伪扼w分型的方法,該方法結(jié)合pacbio?hifi的測序數(shù)據(jù)長讀長、高精確度和高準(zhǔn)確率的優(yōu)點(diǎn),可以根據(jù)人的多態(tài)性位點(diǎn)信息,精確地得到人基因單倍體變異信息。
2、本發(fā)明解決上述技術(shù)問題的技術(shù)方案如下:
3、基于pacbio?hifi三代dna測序數(shù)據(jù)進(jìn)行基因?qū)用鎲伪扼w分型的方法,該方法能進(jìn)行基因?qū)用鎲伪扼w分型,檢測出人的2條單倍體型的突變信息,輸入文件包括:三代pacbiohifi的reads序列、參考基因組;該方法包括以下幾個步驟,
4、過濾短讀長序列:過濾無效短讀長序列小于1000bp;
5、比對:完成過濾操作后,使用比對軟件將三代測序數(shù)據(jù)比對到參考基因組上,生成bam格式文件;
6、變異檢測與過濾:使用變異檢測軟件deepvariant從bam文件中識別出測序基因組數(shù)據(jù)中的原始snp位點(diǎn),并對這些原始snp位點(diǎn)進(jìn)行過濾,過濾剩下的突變位點(diǎn)集合用于下游操作處理的輸入,一條測序片段(read)上包含多個變異位點(diǎn)以及基因型,看作單倍體型序列的一個“局部單倍體型”;
7、構(gòu)建單倍體型:利用基因組reads上的局部單倍體型之間的重疊關(guān)系,構(gòu)建出覆蓋基因組大范圍的單倍體型;
8、分型:將reads比對到參考基因組上,根據(jù)測序的reads上的雜合變異位點(diǎn)對測序的reads進(jìn)行分型,區(qū)分哪些測序片段是來自父方,哪些片段來自母方,然后對兩種基因型的片段分別進(jìn)行組裝,形成兩套基因型;
9、構(gòu)建評價(jià)指標(biāo):分型準(zhǔn)確率=100%-分型結(jié)果中不正確的連續(xù)snp對的比例,分型準(zhǔn)確率的值越大,表明分型的準(zhǔn)確率越高,計(jì)算n50值,n50值越大,說明獲得的單倍體型的連續(xù)性越好。
10、在上述技術(shù)方案的基礎(chǔ)上,本發(fā)明還可以做如下改進(jìn)。
11、進(jìn)一步地,上述的基于pacbio?hifi三代dna測序數(shù)據(jù)進(jìn)行基因?qū)用鎲伪扼w分型的方法,所述比對步驟為:將pacbio?hifi數(shù)據(jù)使用minimap2進(jìn)行比對處理,將hifi數(shù)據(jù)比對到參考基因組上,生成bam格式文件。
12、進(jìn)一步地,上述的基于pacbio?hifi三代dna測序數(shù)據(jù)進(jìn)行基因?qū)用鎲伪扼w分型的方法,所述變異檢測與過濾步驟中,這些原始的變異位點(diǎn)需要經(jīng)過以下步驟進(jìn)行過濾:保留pass位點(diǎn)、過濾純合位點(diǎn)、深度過濾、偏差處理。
13、進(jìn)一步地,上述的基于pacbio?hifi三代dna測序數(shù)據(jù)進(jìn)行基因?qū)用鎲伪扼w分型的方法,所述保留pass位點(diǎn):僅保留filter字段值為“pass”的位點(diǎn),同時剔除距離小于3個堿基的相鄰的兩個snp位點(diǎn)。
14、進(jìn)一步地,上述的基于pacbio?hifi三代dna測序數(shù)據(jù)進(jìn)行基因?qū)用鎲伪扼w分型的方法,所述過濾純合位點(diǎn):deepvariant從bam文件中識別出測序reads數(shù)據(jù)中包含的原始snp位點(diǎn)及其在snp位點(diǎn)上的基因型,并存儲在vcf文件中,在vcf文件中,過濾“gt”字段為“1/1”、“0/0”、“./.”的位點(diǎn),保留雜合變異的位點(diǎn)“0/1”;同時過濾掉兩種基因型的read數(shù)目之比超過80%或者小于20%的位點(diǎn)。
15、進(jìn)一步地,上述的基于pacbio?hifi三代dna測序數(shù)據(jù)進(jìn)行基因?qū)用鎲伪扼w分型的方法,所述深度過濾:如果位點(diǎn)下面的read數(shù)目大于2倍的平均深度或者小于一半的平均深度,則過濾該位點(diǎn),平均深度定義為snp位點(diǎn)下面的read的平均數(shù)目。
16、進(jìn)一步地,上述的基于pacbio?hifi三代dna測序數(shù)據(jù)進(jìn)行基因?qū)用鎲伪扼w分型的方法,所述偏差處理:deepvariant輸出的vcf文件,會記錄每一個snp位點(diǎn)的位置p,以位置p為中心,前后擴(kuò)展200bp,p+200bp、p-200bp區(qū)域的變異位點(diǎn)信息是擴(kuò)增后的變異信號,并判斷是否為符合單倍體分型的基因型,過濾不符合單倍體分型的基因型,保留符合單倍體分型的基因型。
17、進(jìn)一步地,上述的基于pacbio?hifi三代dna測序數(shù)據(jù)進(jìn)行基因?qū)用鎲伪扼w分型的方法,所述構(gòu)建單倍體型步驟中,來自同一個單倍體型的read通過重疊的snp位點(diǎn)能形成連續(xù)的路徑,來自不同單倍體型的read在圖中形成的路徑互不交叉,支持路徑的reads測序深度數(shù)目越高,則表示該路徑越可靠;反之,就可能是錯誤引起的噪音路徑,可靠性較低。
18、與現(xiàn)有技術(shù)相比,本發(fā)明的技術(shù)方案具有以下有益技術(shù)效果:
19、三代pacbio?hifi數(shù)據(jù)能夠覆蓋人類的基因序列,因此也能完整測序人類基因的基因序列。pacbio?hifi數(shù)據(jù)測序長度高達(dá)25kb,對于絕大多數(shù)的基因能夠提供足夠的精確度覆蓋的reads支持,獲取相應(yīng)的結(jié)構(gòu)變異信息。由于pacbio?hifi數(shù)據(jù)精確度高達(dá)99.9%,能夠有效地避免假陽性問題。單倍體可以用于幫助檢測和糾正錯誤或缺失的測序數(shù)據(jù),從醫(yī)學(xué)角度來解釋個體基因組是至關(guān)重要的,尤其是考慮到在醫(yī)學(xué)上有重要影響作用的基因表達(dá)或功能的稀有(或“私有”)變異時。
20、該方法結(jié)合了三代pacbio?hifi測序數(shù)據(jù)的特點(diǎn),先利用hifi數(shù)據(jù)比對上參考基因組,在基因范圍內(nèi),查到對應(yīng)的突變位點(diǎn)信息、進(jìn)行區(qū)分單倍體型信息。通過較長的基因片段,然后利用reads片段上overlap區(qū)域的信息,從而區(qū)分出單倍體型的信息。
1.基于pacbio?hifi三代dna測序數(shù)據(jù)進(jìn)行基因?qū)用鎲伪扼w分型的方法,其特征在于,該方法能進(jìn)行基因?qū)用鎲伪扼w分型,檢測出人的2條單倍體型的突變信息,輸入文件包括:三代pacbio?hifi的reads序列、參考基因組;該方法包括以下幾個步驟,
2.根據(jù)權(quán)利要求1所述的基于pacbio?hifi三代dna測序數(shù)據(jù)進(jìn)行基因?qū)用鎲伪扼w分型的方法,其特征在于,所述比對步驟為:將pacbio?hifi數(shù)據(jù)使用minimap2進(jìn)行比對處理,將hifi數(shù)據(jù)比對到參考基因組上,生成bam格式文件。
3.根據(jù)權(quán)利要求1所述的基于pacbio?hifi三代dna測序數(shù)據(jù)進(jìn)行基因?qū)用鎲伪扼w分型的方法,其特征在于,所述變異檢測與過濾步驟中,這些原始的變異位點(diǎn)需要經(jīng)過以下步驟進(jìn)行過濾:保留pass位點(diǎn)、過濾純合位點(diǎn)、深度過濾、偏差處理。
4.根據(jù)權(quán)利要求3所述的基于pacbio?hifi三代dna測序數(shù)據(jù)進(jìn)行基因?qū)用鎲伪扼w分型的方法,其特征在于,所述保留pass位點(diǎn):僅保留filter字段值為“pass”的位點(diǎn),同時剔除距離小于3個堿基的相鄰的兩個snp位點(diǎn)。
5.根據(jù)權(quán)利要求3所述的基于pacbio?hifi三代dna測序數(shù)據(jù)進(jìn)行基因?qū)用鎲伪扼w分型的方法,其特征在于,所述過濾純合位點(diǎn):deepvariant從bam文件中識別出測序reads數(shù)據(jù)中包含的原始snp位點(diǎn)及其在snp位點(diǎn)上的基因型,并存儲在vcf文件中,在vcf文件中,過濾“gt”字段為“1/1”、“0/0”、“./.”的位點(diǎn),保留雜合變異的位點(diǎn)“0/1”;同時過濾掉兩種基因型的read數(shù)目之比超過80%或者小于20%的位點(diǎn)。
6.根據(jù)權(quán)利要求3所述的基于pacbio?hifi三代dna測序數(shù)據(jù)進(jìn)行基因?qū)用鎲伪扼w分型的方法,其特征在于,所述深度過濾:如果位點(diǎn)下面的read數(shù)目大于2倍的平均深度或者小于一半的平均深度,則過濾該位點(diǎn),平均深度定義為snp位點(diǎn)下面的read的平均數(shù)目。
7.根據(jù)權(quán)利要求3所述的基于pacbio?hifi三代dna測序數(shù)據(jù)進(jìn)行基因?qū)用鎲伪扼w分型的方法,其特征在于,所述偏差處理:deepvariant輸出的vcf文件,會記錄每一個snp位點(diǎn)的位置p,以位置p為中心,前后擴(kuò)展200bp,并判斷是否為符合單倍體分型的基因型,過濾不符合單倍體分型的基因型,保留符合單倍體分型的基因型。
8.根據(jù)權(quán)利要求1所述的基于pacbio?hifi三代dna測序數(shù)據(jù)進(jìn)行基因?qū)用鎲伪扼w分型的方法,其特征在于,所述構(gòu)建單倍體型步驟中,來自同一個單倍體型的read通過重疊的snp位點(diǎn)能形成連續(xù)的路徑,來自不同單倍體型的read在圖中形成的路徑互不交叉,支持路徑的reads測序深度數(shù)目越高,則表示該路徑越可靠;反之,就可能是錯誤引起的噪音路徑,可靠性較低。