本發(fā)明涉及hla分型領(lǐng)域,具體而言,涉及一種hla分型的方法及其電子裝置。
背景技術(shù):
1、人類白細(xì)胞抗原(human?leukocyte?antigen,簡稱hla)系統(tǒng),作為人類主要組織相容性復(fù)合體(major?histocompatibility?complex,mhc)的一部分,是基因組中與免疫功能密切相關(guān)的區(qū)域。它位于第6號染色體的短臂上,包含了多個緊密相連的基因座,如hla-a、hla-b、hla-c等,這些基因座編碼了高度多態(tài)性的蛋白質(zhì),對個體間的免疫響應(yīng)及疾病易感性有著至關(guān)重要的影響。
2、傳統(tǒng)的hla分型手段,尤其是基于血清學(xué)和細(xì)胞學(xué)的方法,雖然在早期研究中發(fā)揮了重要作用,但由于其固有的局限性,如分辨率低、操作復(fù)雜且耗時,已逐漸難以滿足當(dāng)前精準(zhǔn)醫(yī)學(xué)的需求。近年來,隨著高通量測序技術(shù)的發(fā)展,尤其是第二代測序技術(shù)的應(yīng)用,使得基于測序數(shù)據(jù)的hla分型成為可能。然而,這種方法仍然存在顯著的缺陷,即分辨率受限于讀長的長度,且在處理復(fù)雜的hla基因區(qū)域時,準(zhǔn)確性往往受到短讀長帶來的拼接錯誤的影響。
3、針對上述限制,第三代測序技術(shù)因其能夠產(chǎn)生長讀長和高準(zhǔn)確度的數(shù)據(jù),被認(rèn)為是克服這些問題的理想選擇。特別是pacbio的hifi測序技術(shù),由于其獨特的長讀長特性,允許直接對整個hla基因區(qū)域進(jìn)行測序,理論上能提高h(yuǎn)la分型的分辨率和準(zhǔn)確性。盡管pacbio官方提供了hifi-hla軟件來處理hifi數(shù)據(jù)并進(jìn)行hla分型,但該方法的性能在一定程度上依賴于聚類算法的效率和準(zhǔn)確性。當(dāng)測序深度不足或聚類效果不佳時,分型結(jié)果的可靠性會大大降低,尤其是在處理低頻率或新型hla等位基因時,這種影響尤為明顯。
技術(shù)實現(xiàn)思路
1、本發(fā)明的主要目的在于提供一種hla分型的方法及其電子裝置,以解決現(xiàn)有技術(shù)中分型結(jié)果準(zhǔn)確性低的問題。
2、為了實現(xiàn)上述目的,根據(jù)本發(fā)明的第一個方面,提供了一種hla分型的方法,該方法包括:s1)將每個樣本基因的測序數(shù)據(jù)與hla基因數(shù)據(jù)庫進(jìn)行比對,獲得第一候選hla基因分型集;s2)將第一候選hla基因分型集中,覆蓋度小于30%或平均測序深度低于30×的分型結(jié)果進(jìn)行過濾,獲得第二候選hla基因分型集;s3)根據(jù)第二候選hla基因分型集中的每個分型結(jié)果中對應(yīng)的樣本基因的一致性序列,過濾樣本基因的編碼區(qū)中與對應(yīng)的一致性序列的編碼區(qū)存在差異的分型結(jié)果,獲得最終的hla分型結(jié)果;其中,樣本基因由三代測序平臺測序獲得。
3、進(jìn)一步地,hla基因數(shù)據(jù)庫包括imgt/hla數(shù)據(jù)。
4、進(jìn)一步地,s2)中,過濾包括:i)將每個第一候選hla基因分型集中的分型結(jié)果中的每一個樣本基因的位點對應(yīng)的覆蓋度與測序深度相乘之和除以所有測序深度之和,獲得平均測序深度;將平均測序深度低于30×的分型結(jié)果進(jìn)行過濾,獲得第一過濾集;ii)按第一過濾集中的樣本基因的位點的平均測序深度的大小,對樣本基因中的每個基因座的分型結(jié)果進(jìn)行排序,保留平均測序深度最大的前兩個基因座的分型結(jié)果,平均測序深度最大的基因座的分型結(jié)果記為第一分型,平均測序深度第二大的基因座的分型結(jié)果記為第二分型;將第一分型的平均測序深度除以第二分型的平均測序深度,獲得平均測序深度比值;當(dāng)平均測序深度比值大于2時,保留第一分型;當(dāng)平均測序深度比值小于等于2時,保留第一分型和第二分型。
5、進(jìn)一步地,s3)中,獲得一致性序列的方法包括:統(tǒng)計第二候選hla分型集的每個分型結(jié)果中,每個樣本基因中的每個位點上,被樣本基因的測序數(shù)據(jù)中的基因片段覆蓋最多的堿基,記為正確堿基;將每個正確堿基進(jìn)行組合,獲得一致性序列。
6、為了實現(xiàn)上述目的,根據(jù)本發(fā)明的第二個方面,提供了一種hla分型的電子裝置,該電子裝置包括:比對單元、過濾單元和校正單元;其中,比對單元,用于將每個樣本基因的測序數(shù)據(jù)與hla基因數(shù)據(jù)庫進(jìn)行比對,獲得第一候選hla基因分型集;過濾單元,用于將第一候選hla基因分型集中,覆蓋度小于30%或平均測序深度低于30×的分型結(jié)果進(jìn)行過濾,獲得第二候選hla基因分型集;校正單元,用于對第二候選hla基因分型集中的分型結(jié)果進(jìn)行校正,獲得最終的hla分型結(jié)果;校正包括:根據(jù)第二候選hla基因分型集中的每個分型結(jié)果中對應(yīng)的樣本基因的一致性序列,過濾樣本基因的編碼區(qū)中與對應(yīng)的一致性序列的編碼區(qū)存在差異的分型結(jié)果;其中,樣本基因由三代測序平臺測序獲得。
7、進(jìn)一步地,hla基因數(shù)據(jù)庫包括imgt/hla數(shù)據(jù)庫。
8、進(jìn)一步地,過濾單元包括第一過濾單元和第二過濾單元;第一過濾單元,用于過濾第一候選hla基因分型集中平均測序深度低于30×的分型結(jié)果,獲得第一過濾集;平均測序深度的計算方法包括:將每個第一候選hla基因分型集中的分型結(jié)果中的每一個樣本基因的位點對應(yīng)的覆蓋度與測序深度相乘之和除以所有測序深度之和,獲得平均測序深度。
9、進(jìn)一步地,第二過濾單元,用于判斷第一過濾集中的分型結(jié)果;判斷包括:按第一過濾集中的樣本基因的位點的平均測序深度的大小,對樣本基因中的每個基因座的分型結(jié)果進(jìn)行排序,保留平均測序深度的值最大的前兩個基因座的分型結(jié)果,平均測序深度最大的基因座的分型結(jié)果記為第一分型,平均測序深度第二大的基因座的分型結(jié)果記為第二分型;將第一分型的平均測序深度除以第二分型的平均測序深度,獲得平均測序深度比值;當(dāng)平均測序深度比值大于2時,保留第一分型;當(dāng)平均測序深度比值小于等于2時,保留第一分型和第二分型。
10、進(jìn)一步地,校正單元包括一致性序列獲取單元;一致性序列獲取單元,用于獲得每個第二候選hla基因分型集中的每個分型結(jié)果的每個樣本基因的一致性序列;一致性序列的獲取方法包括:統(tǒng)計第二候選hla分型集的每個分型結(jié)果中,每個樣本基因中的每個位點上,被樣本基因的測序數(shù)據(jù)中的基因片段覆蓋最多的堿基,記為正確堿基;將每個正確堿基進(jìn)行組合,獲得一致性序列。
11、為了實現(xiàn)上述目的,根據(jù)本發(fā)明的第三個方面,提供了一種計算機(jī)可讀存儲介質(zhì),該存儲介質(zhì)包括存儲的程序,其中,在程序運行時,控制上述的hla分型的方法。
12、為了實現(xiàn)上述目的,根據(jù)本發(fā)明的第四個方面,提供了一種處理器,該處理器用于運行程序,其中,程序運行時執(zhí)行上述的hla分型的方法。
13、應(yīng)用本發(fā)明的技術(shù)方案,將每個樣本基因的測序數(shù)據(jù)與hla基因數(shù)據(jù)庫進(jìn)行比對,初步獲得第一候選hla基因分型集后,對該分型集中的分型結(jié)果中的覆蓋度以及平均測序深度進(jìn)行計算和判斷,過濾掉覆蓋度小于30%或平均測序深度低于30×的分型結(jié)果,并利用分型結(jié)果中的樣本基因序列對應(yīng)的一致性序列進(jìn)行校正,能夠獲得準(zhǔn)確性提高的hla分型結(jié)果,本申請的hla分析方法不需通過聚類,算法簡單,更適宜推廣至hla分型的應(yīng)用中。
1.一種hla分型的方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述hla基因數(shù)據(jù)庫包括imgt/hla數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述s2)中,所述過濾包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述s3)中,獲得所述一致性序列的方法包括:統(tǒng)計所述第二候選hla分型集的每個分型結(jié)果中,每個所述樣本基因中的每個位點上,被所述樣本基因的測序數(shù)據(jù)中的基因片段覆蓋最多的堿基,記為正確堿基;
5.一種hla分型的電子裝置,其特征在于,所述電子裝置包括:比對單元、過濾單元和校正單元;
6.根據(jù)權(quán)利要求5所述的電子裝置,其特征在于,所述hla基因數(shù)據(jù)庫包括imgt/hla數(shù)據(jù)庫。
7.根據(jù)權(quán)利要求5所述的電子裝置,其特征在于,所述過濾單元包括第一過濾單元和第二過濾單元;
8.根據(jù)權(quán)利要求7所述的電子裝置,其特征在于,所述第二過濾單元,用于判斷所述第一過濾集中的分型結(jié)果;
9.根據(jù)權(quán)利要求5所述的電子裝置,其特征在于,所述校正單元包括一致性序列獲取單元;
10.一種計算機(jī)可讀存儲介質(zhì),其特征在于,所述存儲介質(zhì)包括存儲的程序,其中,在所述程序運行時,控制權(quán)利要求1-5中任一項所述的hla分型的方法。
11.一種處理器,其特征在于,所述處理器用于運行程序,其中,所述程序運行時執(zhí)行權(quán)利要求1-5中任一項所述的hla分型的方法。