最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

簡(jiǎn)化基因組測(cè)序文庫中條碼物及其設(shè)計(jì)方法

文檔序號(hào):3289777閱讀:542來源:國知局
簡(jiǎn)化基因組測(cè)序文庫中條碼物及其設(shè)計(jì)方法
【專利摘要】本發(fā)明屬于基因組學(xué)領(lǐng)域,特別涉及簡(jiǎn)化基因組測(cè)序領(lǐng)域。更具體而言,本發(fā)明提供了一種簡(jiǎn)化基因組測(cè)序文庫中條碼物的設(shè)計(jì)方法。本發(fā)明提供了一種簡(jiǎn)化基因組測(cè)序文庫中條碼物的設(shè)計(jì)方法和通過所述方法得到的設(shè)計(jì)條碼物矩陣M(N×L),所述設(shè)計(jì)條碼物矩陣M(N×L)符合本申請(qǐng)說明書中的標(biāo)準(zhǔn)。
【專利說明】簡(jiǎn)化基因組測(cè)序文庫中條碼物及其設(shè)計(jì)方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于基因組學(xué)領(lǐng)域,特別涉及簡(jiǎn)化基因組測(cè)序領(lǐng)域。

【背景技術(shù)】
[0002] 簡(jiǎn)化基因組測(cè)序(reduced-representation sequencing)技術(shù)是近幾年在二代 測(cè)序基礎(chǔ)上發(fā)展起來的一系列技術(shù)的總稱,主要包括RAD (restriction-site associated DNA)>GBS(genotyping-by-sequencing)>2b-RAD(type IIB restriction-site associated DNA)、雙酶切 GBS (two-enzyme genotyping-by-sequencing)、雙酶切 RAD (double digest restriction-site associated DNA)等技術(shù)。
[0003] 這些技術(shù)的基本原理是樣品DNA經(jīng)酶切處理后,對(duì)其進(jìn)行上機(jī)測(cè)序。測(cè)序都只是 對(duì)樣品酶切位點(diǎn)周邊區(qū)域進(jìn)行測(cè)序而不是對(duì)全基因組進(jìn)行測(cè)序,因此每個(gè)樣本的下機(jī)數(shù)據(jù) 量僅為0.05-0. 4X (不同簡(jiǎn)化基因組測(cè)序技術(shù)之間有差異)。由于簡(jiǎn)化基因組測(cè)序技術(shù)數(shù) 據(jù)量小、且又能夠均勻分布于整個(gè)基因組,所以這些技術(shù)在低成本基因分型方面正得到越 來越廣泛的應(yīng)用,已經(jīng)被大量用于基因分型之后的遺傳連鎖圖構(gòu)建、群體遺傳多樣性評(píng)估、 種群進(jìn)化分析等方面。
[0004] 在目前發(fā)表的文獻(xiàn)中,簡(jiǎn)化基因組測(cè)序技術(shù)主要在Illumina Hiseq平臺(tái)上進(jìn)行。 因?yàn)楹?jiǎn)化基因組測(cè)序技術(shù)單個(gè)樣本數(shù)據(jù)量小,而Illumina Hiseq測(cè)序儀單泳道(lane)容 量較大(例如單泳道的SE50原始數(shù)據(jù)產(chǎn)量在7. 5G左右,PE50的原始數(shù)據(jù)產(chǎn)量在15G左右), 所以Illumina Hiseq測(cè)序儀單個(gè)泳道可容納幾十甚至上百個(gè)簡(jiǎn)化基因組測(cè)序的樣本。面 對(duì)如此多的樣本,目前發(fā)表的文獻(xiàn)都采取混合(pooling)建庫的方式:首先對(duì)樣本DNA進(jìn)行 酶切,之后在酶切粘性末端連上一段含有條碼物(barcode)的接頭(如圖1和圖2),然后將 連好接頭的DNA混合起來作為一個(gè)樣品(即混合物),最后對(duì)這個(gè)樣品進(jìn)行末端修復(fù)、加A、 PCR、切膠純化等其余建庫操作。這種建庫方式,只在酶切、連接接頭這兩步需要對(duì)每個(gè)樣本 進(jìn)行操作(即一樣一庫),而在混合之后,則相當(dāng)于只對(duì)一個(gè)樣本進(jìn)行操作(即多樣一庫),與 常規(guī)Illumina Hiseq建庫的一樣一庫相比,這樣就大大節(jié)省了人力與時(shí)間。
[0005] 簡(jiǎn)化基因組測(cè)序技術(shù)在建庫時(shí)接頭上帶一段條碼物,其作用主要是為了區(qū)分混合 后的樣本。在經(jīng)過二代測(cè)序儀測(cè)序之后的下機(jī)數(shù)據(jù)中,條碼物位于每條讀段(read)的最左 端。不同的樣本帶有不同的條碼物,這樣就能達(dá)到在多樣一庫的建庫方式下還能夠區(qū)分樣 本??梢姡瑮l碼物在簡(jiǎn)化基因組測(cè)序中起著十分重要的作用。
[0006] 之前發(fā)表的文獻(xiàn)中,大多數(shù)都提出了條碼物設(shè)計(jì)的方案并且給出了設(shè)計(jì)好的條碼 物,如表1所示。其中,雙酶切GBS文獻(xiàn)中報(bào)道的條碼物設(shè)計(jì)方案囊括了其他文獻(xiàn)中報(bào)道的 方案并加入了新的指標(biāo),使得結(jié)果更加優(yōu)化,是目前發(fā)表的文獻(xiàn)中報(bào)道最好的方案。
[0007] 表1 :目前發(fā)表文獻(xiàn)中的條碼物設(shè)計(jì)方案
[0008]

【權(quán)利要求】
1. 一種簡(jiǎn)化基因組測(cè)序文庫中條碼物的設(shè)計(jì)方法,所述方法包括根據(jù)所需的條碼物數(shù) 目N和所需的條碼物長度L,形成條碼物矩陣M (NX L), 所述條碼物長度L間存在一定差異,L最長為max,最短為min,通過計(jì)算max和min之 間的差值max-min+1,并將N依次分配給max, max-1,......,min+1,min,根據(jù)各種長度個(gè) 數(shù),將長度從大到小進(jìn)行排列,得到不完整的M,Μ代表不同長度的N個(gè)條碼物,并且各種長 度均勻分布,該矩陣中的每一行代表一個(gè)條碼物; 條碼物滿足如下條件: a) 在所述不完全矩陣中,在任意一列上,其總的堿基ATCG組成是均勻:即Ν為偶數(shù)時(shí), 則任意一列上必定存在A+C=T+G ;N為奇數(shù)時(shí),則任意一列上必定是A+C+/-1=T+G,其中在計(jì) 算時(shí),Μ中由于L的長度不同出現(xiàn)的欠缺部分不得填充;即在得到的所有條碼物中,在它們 的任意同一個(gè)位置上,四種堿基的分布都是均勻的; b) 任意兩個(gè)條碼物都存在3個(gè)以上的錯(cuò)配; c) 條碼物的堿基組成不能出現(xiàn)3個(gè)連續(xù)相同堿基; d) 條碼物中不存在與相應(yīng)內(nèi)切酶位點(diǎn)相同的堿基組合。
2. -種簡(jiǎn)化基因組測(cè)序文庫中條碼物設(shè)計(jì)的矩陣M (NX L) 矩陣Μ中有N行L列,表示Μ中有長度為L的N條條碼物,所述條碼物長度L間存在一 定差異,L最長為max,最短為min,通過計(jì)算max和min之間的差值max-min+1,并將N依次 分配給max,max-1,......,min+1,min,根據(jù)各種長度個(gè)數(shù),將長度從大到小進(jìn)行排列,得到 不完整的M,M代表不同長度的N個(gè)條碼物,并且各種長度均勻分布,該矩陣中的每一行代表 一個(gè)條碼物; 條碼物滿足如下條件: a) 在所述不完全矩陣中,在任意一列上,其總的堿基ATCG組成是均勻:即N為偶數(shù)時(shí), 則任意一列上必定存在A+C=T+G ;N為奇數(shù)時(shí),則任意一列上必定是A+C+/-1=T+G,在計(jì)算 時(shí),Μ中由于L的長度不同出現(xiàn)的欠缺部分不得填充;即在得到的所有條碼物中,在它們的 任意同一個(gè)位置上,四種堿基的分布都是均勻的; b) 任意兩個(gè)條碼物都存在3個(gè)以上的錯(cuò)配; c) 條碼物的堿基組成不能出現(xiàn)3個(gè)連續(xù)相同堿基; d) 條碼物中不存在與相應(yīng)內(nèi)切酶位點(diǎn)相同的堿基組合。
3. 權(quán)利要求1的方法或權(quán)利要求2的設(shè)計(jì)條碼物矩陣M,其中N為3-36,優(yōu)選6-24,優(yōu) 選8-20,更優(yōu)選12。
4. 權(quán)利要求1的方法或權(quán)利要求2的設(shè)計(jì)條碼物矩陣M,其中長度L的下限為2、3、4、 5、6、7、8、9、10、ll、12、13、14、15bp,L 的上限在 5、6、7、8、9、10、11、12、13、14、15、16、17、18、 19、20bp ;例如 5-9bp 之間。
5. 權(quán)利要求1的方法或權(quán)利要求2的設(shè)計(jì)條碼物矩陣M,內(nèi)切酶是EcoRI、ApeKI、 BsaXI、PstI 等。
6. 權(quán)利要求1的方法或權(quán)利要求2的設(shè)計(jì)條碼物矩陣M,其中所述簡(jiǎn)化基因組測(cè)序是 RAD、2b-RAD、雙酶切 GBS、雙酶切 RAD。
7. 權(quán)利要求1的方法或權(quán)利要求2的設(shè)計(jì)條碼物矩陣M,其中所述設(shè)計(jì)條碼物為SEQ ID No.38-49、SEQ ID No.74-85、SEQ ID No. 110-121、SEQ ID No. 146-157、SEQ ID No. 182-193、 SEQ ID No. 194-205,SEQ ID No. 206-217,SEQ ID No. 218-229,SEQ ID No. 230-24USEQ ID No. 242-253 或 SEQ ID No. 254-265。
8. 含有權(quán)利要求1-7任一項(xiàng)的方法得到的設(shè)計(jì)條碼物矩陣M或權(quán)利要求2-7任一項(xiàng)的 設(shè)計(jì)條碼物矩陣Μ的條形碼的條碼物接頭。
9. 權(quán)利要求8的條碼物接頭,所述接頭為SEQ ID No. 14-37、SEQ ID No. 50-73、SEQ ID No. 86-109、SEQ ID No. 122-145 或 SEQ ID No. 158-181。
【文檔編號(hào)】C40B40/06GK104232626SQ201310233343
【公開日】2014年12月24日 申請(qǐng)日期:2013年6月13日 優(yōu)先權(quán)日:2013年6月13日
【發(fā)明者】方東明, 郭鈺, 原輝, 劉勇 申請(qǐng)人:深圳華大基因科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1