最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

基于神經(jīng)網(wǎng)絡的細胞類型注釋方法、裝置、介質和設備

文檔序號:41562857發(fā)布日期:2025-04-08 18:16閱讀:23來源:國知局
基于神經(jīng)網(wǎng)絡的細胞類型注釋方法、裝置、介質和設備

本發(fā)明涉及深度神經(jīng)網(wǎng)絡在生物信息學細胞類型注釋領域的應用技術。


背景技術:

1、隨著單細胞測序技術的快速發(fā)展,單細胞rna測序和單細胞atac測序已經(jīng)成為探索個體細胞基因組信息的重要手段。這些技術使得研究人員可以深入分析基因表達模式和染色質可及性,從而揭示細胞在不同狀態(tài)和條件下的功能。在單細胞數(shù)據(jù)分析中,細胞類型注釋是至關重要的步驟,直接影響后續(xù)生物學結論的可靠性。因此對細胞類型進行準確的注釋有助于科學家更深入地理解細胞的功能及其在生理和病理過程中的作用,揭示細胞之間的相互作用及其在復雜系統(tǒng)中的動態(tài)變化。此外,這對于探索疾病的發(fā)生機制、識別潛在的生物標志物以及開發(fā)個性化治療方案具有重要意義。在精準醫(yī)學領域,準確的細胞類型注釋能夠幫助構建更詳細的疾病模型,從而支持藥物研發(fā)和臨床決策,提高診療的精準性和效果。

2、現(xiàn)有的單細胞注釋主要有兩種策略:1)基于表達模式的聚類:將細胞按照基因表達模式進行聚類,再根據(jù)特定標記基因將每個聚類分配到已知的細胞類型;2)基于參考數(shù)據(jù)集的標簽遷移:將標注好的數(shù)據(jù)中的標簽遷移到查詢數(shù)據(jù)集,以實現(xiàn)自動化注釋。目前的單細胞數(shù)據(jù)分析方法如scgpt、scbert、itclust等,多數(shù)聚焦于scrna-seq數(shù)據(jù)的標簽遷移。適用于scatac-seq數(shù)據(jù)的算法,如cellcano和epianno。這些方法在各自的任務上取得了令人滿意的結果,但是由于參考數(shù)據(jù)集與查詢數(shù)據(jù)集之間的異質性,仍存在一些挑戰(zhàn)需要克服,包括來自不同協(xié)議的scrna-seq數(shù)據(jù)集的批效應(scrna-seq的單元類型注釋),導致scrna-seq數(shù)據(jù)通常會出現(xiàn)“零膨脹”現(xiàn)象;來自不同實驗的scatac-seq數(shù)據(jù)集的批效應和模態(tài)差異(scatac-seq的單元類型注釋),是的scatac-seq數(shù)據(jù)則存在稀疏性和高噪聲問題。且當前的細胞類型注釋模型多為“黑箱”模型,使用復雜的機器學習算法生成預測結果,缺乏清晰的解釋性。這導致用戶對結果的可信度產生懷疑,限制了這些模型在科學研究中的廣泛應用,從而削弱了其在研究中的價值。

3、最新的研究表明,深度度量學習通過神經(jīng)網(wǎng)絡將數(shù)據(jù)映射到嵌入空間,在這個空間中相似樣本被拉近,不同類樣本被推遠。領域自適應的目的是把分布不同的源域和目標域的數(shù)據(jù),映射到一個特征空間中,使其在該空間中的距離盡可能近。于是在特征空間中對源域訓練的目標函數(shù),就可以遷移到目標域上,提高目標域上的準確率。在這個背景下開發(fā)出合適的領域適應與深度度量學習模型減少數(shù)據(jù)的模態(tài)差異和批次效應、優(yōu)化嵌入空間結構以及增強可解釋性來提高細胞類型注釋的準確性對于分析單細胞數(shù)據(jù)具有重要的意義。


技術實現(xiàn)思路

1、本發(fā)明所要解決的問題:多樣化數(shù)據(jù)集之間進行標簽遷移時的不足。

2、為解決上述問題,本發(fā)明采用的方案如下:

3、根據(jù)本發(fā)明的基于神經(jīng)網(wǎng)絡的細胞類型注釋方法,該方法包括模型訓練步驟和類型注釋步驟;所述模型訓練步驟用于根據(jù)已知細胞類型的細胞測序數(shù)據(jù)轉換成細胞特征基因向量作為細胞類型注釋模型的輸入對細胞類型注釋模型進行訓練;所述類型注釋步驟用于根據(jù)細胞測序數(shù)據(jù)轉換成細胞特征基因向量作為細胞類型注釋模型的輸入,通過所述細胞類型注釋模型執(zhí)行輸出為細胞類型待定的細胞標記其所屬的細胞類型;

4、所述細胞測序數(shù)據(jù)為rna測序數(shù)據(jù)或atac測序數(shù)據(jù);

5、所述細胞特征基因向量是細胞m個預先設定的特征基因表達量組成的向量;

6、所述rna測序數(shù)據(jù)轉換成細胞特征基因向量:從所述rna測序數(shù)據(jù)中選擇屬于特征基因的表達量組成m維度的細胞特征基因向量;

7、所述atac測序數(shù)據(jù)轉換成細胞特征基因向量:根據(jù)已知的染色質可及性和基因表達的關系,從所述atac測序數(shù)據(jù)中提取特征基因所對應的染色質開放性狀態(tài)數(shù)據(jù)映射成關于特征基因的表達量,從而得到m維度的細胞特征基因向量;

8、所述細胞類型注釋模型包括特征提取器和分類器;所述特征提取器是以所述細胞特征基因向量為輸入、km維向量為輸出的全連接線性層網(wǎng)絡;所述分類器是以所述特征提取器所輸出的km維向量為輸入、以k維向量為輸出的全連接線性層網(wǎng)絡;所述分類器所輸出的k維向量用以表示k種細胞類型的概率值;

9、所述模型訓練步驟包括訓練模型初始化步驟、樣本準備步驟和樣本訓練步驟;

10、所述訓練模型初始化步驟:初始化訓練模型;所述訓練模型包括細胞類型注釋模型和注意力機制網(wǎng)絡;

11、所述注意力機制網(wǎng)絡是以所述特征提取器所輸出的km維向量為輸入、以km維向量為輸出的全連接線性層網(wǎng)絡;所述注意力機制網(wǎng)絡所輸出的km維向量為注意力權重向量;

12、所述樣本準備步驟:根據(jù)已知細胞類型的細胞測序數(shù)據(jù)集合和未知細胞類型的細胞測序數(shù)據(jù)集合,通過細胞測序數(shù)據(jù)轉換成細胞特征基因向量,分別組成訓練樣本集合和測驗樣本集合;

13、所述樣本訓練步驟包括批次樣本準備步驟、批次模型執(zhí)行步驟以及損失計算和模型優(yōu)化調整步驟;

14、所述批次樣本準備步驟:從所述訓練樣本集合和測驗樣本集合中隨機選擇sizeb個訓練樣本和sizeb個測驗樣本組成訓練樣本批次集合和測驗樣本批次集合;然后為測驗樣本批次集合中的每個細胞特征基因向量計算其對應的正樣本和負樣本;其中,

15、訓練樣本批次集合表示為xr={{xr(i),yr(xr(i))}|i∈[1..sizeb]};

16、測驗樣本批次集合表示為xq={xq(i)|i∈[1..sizeb]};其中,

17、xr(i)表示訓練樣本批次集合中第i個細胞特征基因向量;

18、xq(i)表示測驗樣本批次集合中第i個細胞特征基因向量;

19、yr(xr(i))表示細胞特征基因向量xr(i)所對應的已知細胞類型的數(shù)值標簽,取值1至k;

20、所述正樣本是細胞特征基因向量xq(i)近鄰中最為接近的細胞特征基因向量;

21、所述負樣本是細胞特征基因向量xq(i)近鄰中除最為接近外隨機的細胞特征基因向量;

22、所述細胞特征基因向量xq(i)近鄰是通過最近鄰算法從測驗樣本批次集合中所找出的k個細胞特征基因向量xq(i)的鄰居細胞特征基因向量;

23、所述批次模型執(zhí)行步驟:將所述訓練樣本批次集合和測驗樣本批次集合中的各細胞特征基因向量輸入至所述細胞類型注釋模型執(zhí)行,并采集所述細胞類型注釋模型執(zhí)行過程中產生的中間數(shù)據(jù)和輸出;

24、所述損失計算和模型優(yōu)化調整步驟:根據(jù)所述細胞類型注釋模型執(zhí)行過程中所采集的中間數(shù)據(jù)和輸出,結合訓練樣本已知細胞類型的數(shù)值標簽,計算損失系數(shù),然后通過梯度下降和反向傳播調整所述細胞類型注釋模型的模型參數(shù);其中,

25、所述損失系數(shù)根據(jù)如下公式計算:

26、l_total=lce+0.1*lpr+a1*lcl+a2*lfa+a3*lsc;其中,

27、l_total為損失系數(shù);a1、a2、a3為不同損失值的平衡系數(shù);

28、lce為交叉熵損失值,lpr為正則化損失值,lcl為對比學習損失值,lfa?為模態(tài)對齊損失值,lsc為稀疏中心損失值;其中,

29、lce=avg({ln(mo(xr(i),yr(xr(i))))|i∈[1..sizeb]});

30、lpr=mulinv(avg({sum({abs((to(xq(i),j)-avgto(xq,j))|j∈[1..km]})|i∈[1..sizeb]})

31、+avg({abs(corr(to(xq(i)),to(xq(j))))|i∈[1..sizeb],j∈[1..sizeb],i≠j})

32、+avg({abs(corr(to(xr(i)),to(xr(j))))|i∈[1..sizeb],j∈[1..sizeb],i≠j})

33、+avg({abs(avgto(xr,j))|j∈[1..km]})+avg({abs(avgto(xq,j))|j∈[1..km]});

34、lcl=﹣avg({ln(epos(xq(j))/(epos(xq(j))+sum({eneg(xq(i))|i∈[1..sizeb]})))?|?j∈[1..sizeb]});

35、lfa=?﹣avg({cos(to(xr(i)),to(xq(j)))|i∈[1..sizeb],j∈[1..sizeb],cos(to(xr(i)),to(xq(j)))>hc});

36、lsc?=?avg({sum({aw(xb(i),j)*square(to(xb(i),j)-cx(y(xb(i)),j)))|j∈[1..km]})|i∈[1..2*sizeb]});

37、其中,

38、epos(xq(j))=exp(sim(to(xq(j)),to(pos(xq(j))))/tv);

39、eneg(xq(i))=exp(sim(to(xq(i)),to(neg(xq(i))))/tv);

40、cx(y(i),j)=avg({to(xb(k),j)|mo(xb(k))=y(xb(i)),k∈[1..2*sizeb]});其中,

41、xb(i)表示xb集合的第i個細胞特征基因向量;

42、所述xb集合是由所述訓練樣本批次集合各細胞特征基因向量和所述測驗樣本批次集合各細胞特征基因向量組成的細胞特征基因向量;

43、avg和sum分別表示數(shù)值集合的數(shù)值均值和數(shù)值總和;

44、ln表示自然對數(shù);exp為自然常數(shù)的冪;mulinv表示倒數(shù);abs表示絕對值;square表示平方;

45、sim表示兩個向量之間的相似度;cos表示兩個向量之間的余弦相似度;

46、corr表示兩個向量之間的皮爾遜相關系數(shù);

47、mo為細胞類型注釋模型的函數(shù)化表示;to為特征提取器的函數(shù)化表示;aw為注意力機制網(wǎng)絡的函數(shù)化表示;avgto表示特征提取器輸出平均;

48、mo(xb(k))表示細胞特征基因向量xb(k)輸入至所述細胞類型注釋模型執(zhí)行后所輸出向量;

49、mo(xr(i),yr(xr(i)))表示細胞特征基因向量xr(i)輸入至所述細胞類型注釋模型執(zhí)行后所輸出向量的第yr(xr(i))個元素值;

50、to(xq(i))、to(xq(j))、to(xr(i))、to(xr(j))、to(pos(xq(j)))、to(neg(xq(i)))分別表示細胞特征基因向量xq(i)、xq(j)、xr(i)、xr(j)、pos(xq(j))、neg(xq(i))分別輸入至所述細胞類型注釋模型執(zhí)行后所述特征提取器所輸出向量;

51、to(xq(i),j)、to(xb(i),j)、to(xb(k),j)分別表示細胞特征基因向量xq(i)、xb(i)、xb(k)輸入至所述細胞類型注釋模型執(zhí)行后所述特征提取器所輸出向量的第j個元素值;

52、aw(xb(i),j)表示細胞特征基因向量xb(k)輸入至所述細胞類型注釋模型執(zhí)行后所述注意力機制網(wǎng)絡所輸出注意力權重向量的第j個分量;

53、avgto(xq,j)和avgto(xr,j)分別表示測驗樣本批次集合xq和訓練樣本批次集合xr各細胞特征基因向量輸入至所述細胞類型注釋模型執(zhí)行后所述特征提取器所輸出向量的第j個元素的平均值;

54、pos表示正樣本;neg表示負樣本;

55、pos(xq(j))和neg(xq(i))分別表示細胞特征基因向量xq(j)的正樣本和xq(i)的負樣本;

56、{cos(to(xr(i)),to(xq(j)))|i∈[1..sizeb],j∈[1..sizeb],?cos(to(xr(i)),to(xq(j)))>hc}表示訓練樣本批次集合中任意一個細胞特征基因向量與測驗樣本批次集合中任意一個細胞特征基因向量分別輸入至所述細胞類型注釋模型執(zhí)行后,所述特征提取器所輸出的對應兩個向量的余弦相似度大于hc所組成的余弦相似度集合;hc為預先設定的常數(shù);

57、cx(y(xb(i)),j)表示所述細胞類型注釋模型所輸出的細胞類型為y(xb(i))所對應的特征提取器所輸出向量的第j個元素均值;{to(xb(k),j)|mo(xb(k))=y(xb(i)),k∈[1..2*sizeb]}表示xb集合各細胞特征基因向量輸入至所述細胞類型注釋模型執(zhí)行后所輸出的細胞類型為y(xb(i))所對應的特征提取器所輸出向量的第j個元素值所組成的數(shù)值集合;其中,

58、y(xb(i))表示細胞特征基因向量xb(i)對應細胞類型的數(shù)值標簽,若細胞特征基因向量xb(i)來自于訓練樣本批次集合,則y(xb(i))=yr(xb(i));否則,y(xb(i))=indexofmax(mo(xb(i)));其中,

59、indexofmax(mo(xb(i)))表示細胞特征基因向量xb(i)輸入至所述細胞類型注釋模型執(zhí)行后所輸出向量中元素值最大的索引;

60、所述類型注釋步驟中根據(jù)所述細胞類型注釋模型執(zhí)行后所輸出向量中元素值最大的索引作為細胞所屬的細胞類型。

61、進一步,根據(jù)本發(fā)明的細胞類型注釋方法,所述特征提取器和分類器均為單線性層網(wǎng)絡;所述特征提取器以relu函數(shù)為激活函數(shù),所述分類器以softmax函數(shù)為激活函數(shù);所述注意力機制網(wǎng)絡包括km個神經(jīng)元組成的以tanh函數(shù)為激活函數(shù)的隱藏線性層和2*km個神經(jīng)元組成的以softmax函數(shù)為激活函數(shù)的輸出層;所述注意力機制網(wǎng)絡輸出層所輸出的2*km維向量排列成km維雙值向量,然后從km維雙值向量中取每一維度的雙值的第二值組成km維度的注意力權重向量。

62、進一步,根據(jù)本發(fā)明的細胞類型注釋方法,所述對比學習損失值、模態(tài)對齊損失值、稀疏中心損失值在所述樣本訓練損失計算步驟和模型參數(shù)調整步驟執(zhí)行次數(shù)超過對應輪次限值后才進行計算,否則取值為0。

63、進一步,根據(jù)本發(fā)明的細胞類型注釋方法,sim相似度計算采用余弦相似度計算公式計算。

64、根據(jù)本發(fā)明的基于神經(jīng)網(wǎng)絡的細胞類型注釋裝置,該裝置包括模型訓練模塊和類型注釋模塊;所述模型訓練模塊用于根據(jù)已知細胞類型的細胞測序數(shù)據(jù)轉換成細胞特征基因向量作為細胞類型注釋模型的輸入對細胞類型注釋模型進行訓練;所述類型注釋模塊用于根據(jù)細胞測序數(shù)據(jù)轉換成細胞特征基因向量作為細胞類型注釋模型的輸入,通過所述細胞類型注釋模型執(zhí)行輸出為細胞類型待定的細胞標記其所屬的細胞類型;

65、所述細胞測序數(shù)據(jù)為rna測序數(shù)據(jù)或atac測序數(shù)據(jù);

66、所述細胞特征基因向量是細胞m個預先設定的特征基因表達量組成的向量;

67、所述rna測序數(shù)據(jù)轉換成細胞特征基因向量:從所述rna測序數(shù)據(jù)中選擇屬于特征基因的表達量組成m維度的細胞特征基因向量;

68、所述atac測序數(shù)據(jù)轉換成細胞特征基因向量:根據(jù)已知的染色質可及性和基因表達的關系,從所述atac測序數(shù)據(jù)中提取特征基因所對應的染色質開放性狀態(tài)數(shù)據(jù)映射成關于特征基因的表達量,從而得到m維度的細胞特征基因向量;

69、所述細胞類型注釋模型包括特征提取器和分類器;所述特征提取器是以所述細胞特征基因向量為輸入、km維向量為輸出的全連接線性層網(wǎng)絡;所述分類器是以所述特征提取器所輸出的km維向量為輸入、以k維向量為輸出的全連接線性層網(wǎng)絡;所述分類器所輸出的k維向量用以表示k種細胞類型的概率值;

70、所述模型訓練模塊包括訓練模型初始化模塊、樣本準備模塊和樣本訓練模塊;

71、所述訓練模型初始化模塊,用于:初始化訓練模型;所述訓練模型包括細胞類型注釋模型和注意力機制網(wǎng)絡;

72、所述注意力機制網(wǎng)絡是以所述特征提取器所輸出的km維向量為輸入、以km維向量為輸出的全連接線性層網(wǎng)絡;所述注意力機制網(wǎng)絡所輸出的km維向量為注意力權重向量;

73、所述樣本準備模塊,用于:根據(jù)已知細胞類型的細胞測序數(shù)據(jù)集合和未知細胞類型的細胞測序數(shù)據(jù)集合,通過細胞測序數(shù)據(jù)轉換成細胞特征基因向量,分別組成訓練樣本集合和測驗樣本集合;

74、所述樣本訓練模塊包括批次樣本準備模塊、批次模型執(zhí)行模塊以及損失計算和模型優(yōu)化調整模塊;

75、所述批次樣本準備模塊,用于:從所述訓練樣本集合和測驗樣本集合中隨機選擇sizeb個訓練樣本和sizeb個測驗樣本組成訓練樣本批次集合和測驗樣本批次集合;然后為測驗樣本批次集合中的每個細胞特征基因向量計算其對應的正樣本和負樣本;其中,

76、訓練樣本批次集合表示為xr={{xr(i),yr(xr(i))}|i∈[1..sizeb]};

77、測驗樣本批次集合表示為xq={xq(i)|i∈[1..sizeb]};其中,

78、xr(i)表示訓練樣本批次集合中第i個細胞特征基因向量;

79、xq(i)表示測驗樣本批次集合中第i個細胞特征基因向量;

80、yr(xr(i))表示細胞特征基因向量xr(i)所對應的已知細胞類型的數(shù)值標簽,取值1至k;

81、所述正樣本是細胞特征基因向量xq(i)近鄰中最為接近的細胞特征基因向量;

82、所述負樣本是細胞特征基因向量xq(i)近鄰中除最為接近外隨機的細胞特征基因向量;

83、所述細胞特征基因向量xq(i)近鄰是通過最近鄰算法從測驗樣本批次集合中所找出的k個細胞特征基因向量xq(i)的鄰居細胞特征基因向量;

84、所述批次模型執(zhí)行模塊,用于:將所述訓練樣本批次集合和測驗樣本批次集合中的各細胞特征基因向量輸入至所述細胞類型注釋模型執(zhí)行,并采集所述細胞類型注釋模型執(zhí)行過程中產生的中間數(shù)據(jù)和輸出;

85、所述損失計算和模型優(yōu)化調整模塊,用于:根據(jù)所述細胞類型注釋模型執(zhí)行過程中所采集的中間數(shù)據(jù)和輸出,結合訓練樣本已知細胞類型的數(shù)值標簽,計算損失系數(shù),然后通過梯度下降和反向傳播調整所述細胞類型注釋模型的模型參數(shù);其中,

86、所述損失系數(shù)根據(jù)如下公式計算:

87、l_total=lce+0.1*lpr+a1*lcl+a2*lfa+a3*lsc;其中,

88、l_total為損失系數(shù);a1、a2、a3為不同損失值的平衡系數(shù);

89、lce為交叉熵損失值,lpr為正則化損失值,lcl為對比學習損失值,lfa?為模態(tài)對齊損失值,lsc為稀疏中心損失值;其中,

90、lce=avg({ln(mo(xr(i),yr(xr(i))))|i∈[1..sizeb]});

91、lpr=mulinv(avg({sum({abs((to(xq(i),j)-avgto(xq,j))|j∈[1..km]})|i∈[1..sizeb]})

92、+avg({abs(corr(to(xq(i)),to(xq(j))))|i∈[1..sizeb],j∈[1..sizeb],i≠j})

93、+avg({abs(corr(to(xr(i)),to(xr(j))))|i∈[1..sizeb],j∈[1..sizeb],i≠j})

94、+avg({abs(avgto(xr,j))|j∈[1..km]})+avg({abs(avgto(xq,j))|j∈[1..km]});

95、lcl=﹣avg({ln(epos(xq(j))/(epos(xq(j))+sum({eneg(xq(i))|i∈[1..sizeb]})))?|?j∈[1..sizeb]});

96、lfa=?﹣avg({cos(to(xr(i)),to(xq(j)))|i∈[1..sizeb],j∈[1..sizeb],cos(to(xr(i)),to(xq(j)))>hc});

97、lsc?=?avg({sum({aw(xb(i),j)*square(to(xb(i),j)-cx(y(xb(i)),j)))|j∈[1..km]})|i∈[1..2*sizeb]});

98、其中,

99、epos(xq(j))=exp(sim(to(xq(j)),to(pos(xq(j))))/tv);

100、eneg(xq(i))=exp(sim(to(xq(i)),to(neg(xq(i))))/tv);

101、cx(y(i),j)=avg({to(xb(k),j)|mo(xb(k))=y(xb(i)),k∈[1..2*sizeb]});其中,

102、xb(i)表示xb集合的第i個細胞特征基因向量;

103、所述xb集合是由所述訓練樣本批次集合各細胞特征基因向量和所述測驗樣本批次集合各細胞特征基因向量組成的細胞特征基因向量;

104、avg和sum分別表示數(shù)值集合的數(shù)值均值和數(shù)值總和;

105、ln表示自然對數(shù);exp為自然常數(shù)的冪;mulinv表示倒數(shù);abs表示絕對值;square表示平方;

106、sim表示兩個向量之間的相似度;cos表示兩個向量之間的余弦相似度;

107、corr表示兩個向量之間的皮爾遜相關系數(shù);

108、mo為細胞類型注釋模型的函數(shù)化表示;to為特征提取器的函數(shù)化表示;aw為注意力機制網(wǎng)絡的函數(shù)化表示;avgto表示特征提取器輸出平均;

109、mo(xb(k))表示細胞特征基因向量xb(k)輸入至所述細胞類型注釋模型執(zhí)行后所輸出向量;

110、mo(xr(i),yr(xr(i)))表示細胞特征基因向量xr(i)輸入至所述細胞類型注釋模型執(zhí)行后所輸出向量的第yr(xr(i))個元素值;

111、to(xq(i))、to(xq(j))、to(xr(i))、to(xr(j))、to(pos(xq(j)))、to(neg(xq(i)))分別表示細胞特征基因向量xq(i)、xq(j)、xr(i)、xr(j)、pos(xq(j))、neg(xq(i))分別輸入至所述細胞類型注釋模型執(zhí)行后所述特征提取器所輸出向量;

112、to(xq(i),j)、to(xb(i),j)、to(xb(k),j)分別表示細胞特征基因向量xq(i)、xb(i)、xb(k)輸入至所述細胞類型注釋模型執(zhí)行后所述特征提取器所輸出向量的第j個元素值;

113、aw(xb(i),j)表示細胞特征基因向量xb(k)輸入至所述細胞類型注釋模型執(zhí)行后所述注意力機制網(wǎng)絡所輸出注意力權重向量的第j個分量;

114、avgto(xq,j)和avgto(xr,j)分別表示測驗樣本批次集合xq和訓練樣本批次集合xr各細胞特征基因向量輸入至所述細胞類型注釋模型執(zhí)行后所述特征提取器所輸出向量的第j個元素的平均值;

115、pos表示正樣本;neg表示負樣本;

116、pos(xq(j))和neg(xq(i))分別表示細胞特征基因向量xq(j)的正樣本和xq(i)的負樣本;

117、{cos(to(xr(i)),to(xq(j)))|i∈[1..sizeb],j∈[1..sizeb],?cos(to(xr(i)),to(xq(j)))>hc}表示訓練樣本批次集合中任意一個細胞特征基因向量與測驗樣本批次集合中任意一個細胞特征基因向量分別輸入至所述細胞類型注釋模型執(zhí)行后,所述特征提取器所輸出的對應兩個向量的余弦相似度大于hc所組成的余弦相似度集合;hc為預先設定的常數(shù);

118、cx(y(xb(i)),j)表示所述細胞類型注釋模型所輸出的細胞類型為y(xb(i))所對應的特征提取器所輸出向量的第j個元素均值;{to(xb(k),j)|mo(xb(k))=y(xb(i)),k∈[1..2*sizeb]}表示xb集合各細胞特征基因向量輸入至所述細胞類型注釋模型執(zhí)行后所輸出的細胞類型為y(xb(i))所對應的特征提取器所輸出向量的第j個元素值所組成的數(shù)值集合;其中,

119、y(xb(i))表示細胞特征基因向量xb(i)對應細胞類型的數(shù)值標簽,若細胞特征基因向量xb(i)來自于訓練樣本批次集合,則y(xb(i))=yr(xb(i));否則,y(xb(i))=indexofmax(mo(xb(i)));其中,

120、indexofmax(mo(xb(i)))表示細胞特征基因向量xb(i)輸入至所述細胞類型注釋模型執(zhí)行后所輸出向量中元素值最大的索引;

121、所述類型注釋模塊中根據(jù)所述細胞類型注釋模型執(zhí)行后所輸出向量中元素值最大的索引作為細胞所屬的細胞類型。

122、進一步,根據(jù)本發(fā)明的細胞類型注釋裝置,所述特征提取器和分類器均為單線性層網(wǎng)絡;所述特征提取器以relu函數(shù)為激活函數(shù),所述分類器以softmax函數(shù)為激活函數(shù);所述注意力機制網(wǎng)絡包括km個神經(jīng)元組成的以tanh函數(shù)為激活函數(shù)的隱藏線性層和2*km個神經(jīng)元組成的以softmax函數(shù)為激活函數(shù)的輸出層;所述注意力機制網(wǎng)絡輸出層所輸出的2*km維向量排列成km維雙值向量,然后從km維雙值向量中取每一維度的雙值的第二值組成km維度的注意力權重向量。

123、進一步,根據(jù)本發(fā)明的細胞類型注釋裝置,所述對比學習損失值、模態(tài)對齊損失值、稀疏中心損失值在所述樣本訓練損失計算模塊和模型參數(shù)調整模塊執(zhí)行次數(shù)超過對應輪次限值后才進行計算,否則取值為0。

124、進一步,根據(jù)本發(fā)明的細胞類型注釋裝置,sim相似度計算采用余弦相似度計算公式計算,km取值64。

125、根據(jù)本發(fā)明的一種機器可讀介質,該介質內存儲有能夠被機器讀取的程序指令集,當該介質內所存儲的程序指令集被機器讀取并執(zhí)行時,所述機器能夠實現(xiàn)上述的基于神經(jīng)網(wǎng)絡的細胞類型注釋方法。

126、根據(jù)本發(fā)明的一種電子設備,該設備包括相連的處理器和存儲器;所述存儲器內存儲有程序指令集;當所述處理器加載存儲器所存儲的程序指令集并執(zhí)行時,該設備能夠實現(xiàn)上述的基于神經(jīng)網(wǎng)絡的細胞類型注釋方法。

127、本發(fā)明的技術效果如下:

128、本發(fā)明的方法能夠應用于不同單細胞數(shù)據(jù)場景實現(xiàn)高效的細胞類型注釋;

129、與傳統(tǒng)黑箱模型不同,本發(fā)明的方法集成了解釋性模塊,采用積分梯度法來解釋模型的預測結果,提升了模型的可信度和透明性;

130、本發(fā)明的方法不僅可以處理scrna-seq數(shù)據(jù),還能處理scatac-seq數(shù)據(jù),支持跨模態(tài)和跨實驗條件的數(shù)據(jù)分析,具備廣泛的適用性;

131、本發(fā)明能夠實現(xiàn)高效的標簽遷移,尤其是在異質性強、模態(tài)差異大的數(shù)據(jù)集之間,表現(xiàn)出顯著的優(yōu)勢。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1