最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

測序基因的組裝方法及裝置、電子設(shè)備和存儲(chǔ)介質(zhì)與流程

文檔序號(hào):41958985發(fā)布日期:2025-05-20 16:53閱讀:4來源:國知局
測序基因的組裝方法及裝置、電子設(shè)備和存儲(chǔ)介質(zhì)與流程

本公開涉及基因組裝,尤其涉及一種測序基因的組裝方法及裝置、電子設(shè)備和存儲(chǔ)介質(zhì)。


背景技術(shù):

1、隨著測序技術(shù)進(jìn)步和研究需求的提升,目前可實(shí)現(xiàn)對(duì)端粒到端粒的t2t基因組的組裝了,通過t2t基因,可以使我們更好地理解基因組的結(jié)構(gòu)和功能,助力物種進(jìn)化、農(nóng)業(yè)精準(zhǔn)育種和遺傳改良、疾病變異區(qū)域等方面的研究,市場前景非常大。

2、目前的t2t測序技術(shù),存在以下缺點(diǎn),第一:測序讀長較短,無法跨過高重復(fù)區(qū)域;第二:組裝算法的局限性,導(dǎo)致拼接的連續(xù)性較低;第三:裝策略局限性,最終使得拼接基因組存在空缺區(qū);導(dǎo)致了組裝出的拼接基因組的端粒、著絲粒等稿重復(fù)的區(qū)域無法組裝出正確的結(jié)果。


技術(shù)實(shí)現(xiàn)思路

1、本公開提供了一種測序基因的組裝方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)。其主要目的在于解決拼接基因組的端粒、著絲粒等高重復(fù)的區(qū)域無法組裝出正確的結(jié)果的問題。

2、根據(jù)本公開的第一方面,提供了一種測序基因的組裝方法,其中,包括:

3、對(duì)nanopore數(shù)據(jù)進(jìn)行糾錯(cuò)及根據(jù)糾錯(cuò)后的所述nanopore數(shù)據(jù)進(jìn)行組裝,得到糾錯(cuò)集及第一組裝集;

4、根據(jù)pacbiohifi數(shù)據(jù)與所述糾錯(cuò)集進(jìn)行聯(lián)合組裝,得到第二組裝集;

5、根據(jù)hi-c數(shù)據(jù)對(duì)所述第二組裝集進(jìn)行染色體定位,獲得組裝中斷區(qū)域,得到第三組裝集;

6、根據(jù)所述第一組裝集及所述糾錯(cuò)集對(duì)所述第三組裝集中的所述組裝中斷區(qū)域進(jìn)行填充,得到組裝好的染色體基因組。

7、可選的,在對(duì)nanopore數(shù)據(jù)進(jìn)行糾錯(cuò)及組裝,得到糾錯(cuò)集及第一組裝集之前,所述方法還包括:

8、分別對(duì)所述nanopore數(shù)據(jù)、所述nanopore數(shù)據(jù)及所述hi-c數(shù)據(jù)按照預(yù)設(shè)過濾條件進(jìn)行過濾,其中,不同數(shù)據(jù)對(duì)應(yīng)不同的過濾條件;所述nanopore數(shù)據(jù)、所述nanopore數(shù)據(jù)及所述hi-c數(shù)據(jù)為同一研究對(duì)象的不同測序數(shù)據(jù)。

9、可選的,所述對(duì)nanopore數(shù)據(jù)進(jìn)行糾錯(cuò)及根據(jù)糾錯(cuò)后的所述nanopore數(shù)據(jù)進(jìn)行組裝,得到糾錯(cuò)集及第一組裝集包括:

10、分別對(duì)所述nanopore數(shù)據(jù)中的每條待糾錯(cuò)數(shù)據(jù)進(jìn)行局部比較,確定重復(fù)序列,并根據(jù)所述重疊序列中同一位置重復(fù)率最高的堿基作為該位置的堿基,得到糾錯(cuò)集;

11、根據(jù)所述糾錯(cuò)集進(jìn)行基因組組裝,得到第一組裝集。

12、可選的,所述根據(jù)hi-c數(shù)據(jù)對(duì)所述第二組裝集進(jìn)行染色體定位,獲得組裝中斷區(qū)域,得到第三組裝集還包括:

13、將所述hi-c數(shù)據(jù)與所述第二組裝集進(jìn)行比較,獲得互作信息;

14、根據(jù)所述互作信息對(duì)重疊片段進(jìn)行分類、排序、定向,得到所述第三組裝集;

15、將所述第三組裝集中的組裝中斷區(qū)域,使用預(yù)設(shè)堿基進(jìn)行標(biāo)記,并對(duì)所述組裝中斷區(qū)域進(jìn)行統(tǒng)計(jì)。

16、可選的,所述根據(jù)所述第一組裝集及所述糾錯(cuò)集對(duì)所述第三組裝集中的所述組裝中斷區(qū)域進(jìn)行填充,得到組裝好的染色體基因組包括:

17、根據(jù)所述第一組裝集及所述糾錯(cuò)集與所述第三組裝集進(jìn)行比較,確定所述第三組裝集中的組裝中斷區(qū)域在所述第一組裝集及所述糾錯(cuò)集中對(duì)應(yīng)的基因序列數(shù)據(jù);

18、根據(jù)組裝中斷區(qū)域?qū)?yīng)的基因序列數(shù)據(jù),對(duì)所述組裝中斷區(qū)域進(jìn)行填充,得到組裝好的染色體基因組。

19、可選的,在根據(jù)所述第一組裝集及所述糾錯(cuò)集對(duì)所述第三組裝集中的所述組裝中斷區(qū)域進(jìn)行填充,得到組裝好的染色體基因組之后,所述方法還包括:

20、確定所述組裝好的染色體基因組的兩端預(yù)設(shè)長度區(qū)域內(nèi)是否存在端粒重復(fù)單元;

21、若不存在,則在所述第一組裝集及所述第二組裝集中確定對(duì)應(yīng)的端粒序列,并將確定出的所述端粒序列補(bǔ)充至所述組裝好的染色體基因組的對(duì)應(yīng)位置。

22、可選的,在所述第一組裝集及所述第二組裝集中確定對(duì)應(yīng)的端粒序列,并將確定出的所述端粒序列補(bǔ)充至所述組裝好的染色體基因組的對(duì)應(yīng)位置之后,所述方法還包括:

23、根據(jù)預(yù)設(shè)指標(biāo)對(duì)所述組裝好的染色體基因組的組裝效果進(jìn)行評(píng)估;其中,所述組裝效果至少包括組裝連續(xù)性、組裝完整度及組裝準(zhǔn)確率中的至少一種;所述預(yù)設(shè)指標(biāo)至少包括目標(biāo)基因序列、基因組組裝大小、組裝中斷區(qū)域數(shù)量、染色體程度中的至少一種。

24、根據(jù)本公開的第二方面,提供了一種測序基因的組裝裝置,包括:

25、第一組裝單元,用于對(duì)nanopore數(shù)據(jù)進(jìn)行糾錯(cuò)及根據(jù)糾錯(cuò)后的所述nanopore數(shù)據(jù)進(jìn)行組裝,得到糾錯(cuò)集及第一組裝集;

26、聯(lián)合組裝單元,用于根據(jù)pacbiohifi數(shù)據(jù)與所述糾錯(cuò)集進(jìn)行聯(lián)合組裝,得到第二組裝集;

27、第二組裝單元,用于根據(jù)hi-c數(shù)據(jù)對(duì)所述第二組裝集進(jìn)行染色體定位,獲得組裝中斷區(qū)域,得到第三組裝集;

28、填充單元,用于根據(jù)所述第一組裝集及所述糾錯(cuò)集對(duì)所述第三組裝集中的所述組裝中斷區(qū)域進(jìn)行填充,得到組裝好的染色體基因組。

29、可選的,所述裝置還包括:

30、過濾單元,用于在第一組裝單元對(duì)nanopore數(shù)據(jù)進(jìn)行糾錯(cuò)及組裝,得到糾錯(cuò)集及第一組裝集之前,分別對(duì)所述nanopore數(shù)據(jù)、所述nanopore數(shù)據(jù)及所述hi-c數(shù)據(jù)按照預(yù)設(shè)過濾條件進(jìn)行過濾,其中,不同數(shù)據(jù)對(duì)應(yīng)不同的過濾條件;所述nanopore數(shù)據(jù)、所述nanopore數(shù)據(jù)及所述hi-c數(shù)據(jù)為同一研究對(duì)象的不同測序數(shù)據(jù)。

31、可選的,所述第一組裝單元還用于:

32、分別對(duì)所述nanopore數(shù)據(jù)中的每條待糾錯(cuò)數(shù)據(jù)進(jìn)行局部比較,確定重復(fù)序列,并根據(jù)所述重疊序列中同一位置重復(fù)率最高的堿基作為該位置的堿基,得到糾錯(cuò)集;

33、根據(jù)所述糾錯(cuò)集進(jìn)行基因組組裝,得到第一組裝集。

34、可選的,所述第二組裝單元還用于:

35、將所述hi-c數(shù)據(jù)與所述第二組裝集進(jìn)行比較,獲得互作信息;

36、根據(jù)所述互作信息對(duì)重疊片段進(jìn)行分類、排序、定向,得到所述第三組裝集;

37、將所述第三組裝集中的組裝中斷區(qū)域,使用預(yù)設(shè)堿基進(jìn)行標(biāo)記,并對(duì)所述組裝中斷區(qū)域進(jìn)行統(tǒng)計(jì)。

38、可選的,所述填充單元還用于:

39、根據(jù)所述第一組裝集及所述糾錯(cuò)集與所述第三組裝集進(jìn)行比較,確定所述第三組裝集中的組裝中斷區(qū)域在所述第一組裝集及所述糾錯(cuò)集中對(duì)應(yīng)的基因序列數(shù)據(jù);

40、根據(jù)組裝中斷區(qū)域?qū)?yīng)的基因序列數(shù)據(jù),對(duì)所述組裝中斷區(qū)域進(jìn)行填充,得到組裝好的染色體基因組。

41、可選的,所述裝置還包括:

42、確定單元,用于在填充單元根據(jù)所述第一組裝集及所述糾錯(cuò)集對(duì)所述第三組裝集中的所述組裝中斷區(qū)域進(jìn)行填充,得到組裝好的染色體基因組之后,確定所述組裝好的染色體基因組的兩端預(yù)設(shè)長度區(qū)域內(nèi)是否存在端粒重復(fù)單元;

43、補(bǔ)充單元,用于在所述組裝好的染色體基因組的兩端預(yù)設(shè)長度區(qū)域內(nèi)不存在端粒重復(fù)單元時(shí),在所述第一組裝集及所述第二組裝集中確定對(duì)應(yīng)的端粒序列,并將確定出的所述端粒序列補(bǔ)充至所述組裝好的染色體基因組的對(duì)應(yīng)位置。

44、可選的,所述裝置還包括:

45、評(píng)估單元,用于在補(bǔ)充單元在所述第一組裝集及所述第二組裝集中確定對(duì)應(yīng)的端粒序列,并將確定出的所述端粒序列補(bǔ)充至所述組裝好的染色體基因組的對(duì)應(yīng)位置之后,根據(jù)預(yù)設(shè)指標(biāo)對(duì)所述組裝好的染色體基因組的組裝效果進(jìn)行評(píng)估;其中,所述組裝效果至少包括組裝連續(xù)性、組裝完整度及組裝準(zhǔn)確率中的至少一種;所述預(yù)設(shè)指標(biāo)至少包括目標(biāo)基因序列、基因組組裝大小、組裝中斷區(qū)域數(shù)量、染色體程度中的至少一種。

46、根據(jù)本公開的第三方面,提供了一種電子設(shè)備,包括:

47、至少一個(gè)處理器;以及

48、與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,

49、所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令,所述指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行前述第一方面所述的方法。

50、根據(jù)本公開的第四方面,提供了一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行前述第一方面所述的方法。

51、根據(jù)本公開的第五方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)如前述第一方面所述的方法。

52、本公開提供的測序基因的組裝方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì),主要技術(shù)方案包括:對(duì)nanopore數(shù)據(jù)進(jìn)行糾錯(cuò)及根據(jù)糾錯(cuò)后的所述nanopore數(shù)據(jù)進(jìn)行組裝,得到糾錯(cuò)集及第一組裝集;根據(jù)pacbiohifi數(shù)據(jù)與所述糾錯(cuò)集進(jìn)行聯(lián)合組裝,得到第二組裝集;根據(jù)hi-c數(shù)據(jù)對(duì)所述第二組裝集進(jìn)行染色體定位,確定各組裝中斷區(qū)域,得到第三組裝集;根據(jù)所述第一組裝集及所述糾錯(cuò)集對(duì)所述第三組裝集中的所述組裝中斷區(qū)域進(jìn)行填充,得到組裝好的染色體基因組。與相關(guān)技術(shù)相比,本技術(shù)實(shí)施例通過結(jié)合多種測序數(shù)據(jù),對(duì)測序數(shù)據(jù)進(jìn)行拼接,并對(duì)測序數(shù)據(jù)中的組裝中斷區(qū)進(jìn)行填充,提升拼接基因組的延續(xù)性與長度,提升組裝效果,為后續(xù)的研究提供更準(zhǔn)確的基因組圖譜。

53、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識(shí)本技術(shù)的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本技術(shù)的范圍。本技術(shù)的其它特征將通過以下的說明書而變得容易理解。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1