最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種與細(xì)胞通訊相關(guān)高度可變基因的識(shí)別方法

文檔序號(hào):41984387發(fā)布日期:2025-05-23 16:39閱讀:10來源:國知局
一種與細(xì)胞通訊相關(guān)高度可變基因的識(shí)別方法

本發(fā)明涉及一種細(xì)胞通訊相關(guān)高度可變基因的識(shí)別方法,具體涉及一種基于統(tǒng)計(jì)學(xué)和神經(jīng)網(wǎng)絡(luò)的細(xì)胞通訊相關(guān)高度可變基因的識(shí)別方法,屬于生物信息學(xué)領(lǐng)域。


背景技術(shù):

1、單細(xì)胞測序技術(shù)(scrna-seq)的迅猛發(fā)展為深入研究細(xì)胞多樣性和基因表達(dá)特異性提供了前所未有的分辨率??臻g轉(zhuǎn)錄組學(xué)(st)的進(jìn)展使得我們能夠在保留細(xì)胞空間信息的同時(shí),全面測量基因表達(dá),為研究細(xì)胞異質(zhì)性、細(xì)胞間通訊以及相互作用提供了巨大的機(jī)會(huì)。然而,基于scrna-seq和st數(shù)據(jù)分析細(xì)胞間通信存在固有的局限性,即未設(shè)定一個(gè)標(biāo)準(zhǔn)來衡量基因是否與細(xì)胞通訊有關(guān),并且關(guān)于細(xì)胞間通訊和高度可變基因(hvgs)之間關(guān)聯(lián)關(guān)系的研究相對(duì)較少。因此,設(shè)定一個(gè)標(biāo)準(zhǔn)去衡量基因是否與細(xì)胞通訊相關(guān),以及識(shí)別hvgs與細(xì)胞間通訊的關(guān)系是解碼潛在疾病病理學(xué)中空間細(xì)胞間動(dòng)力學(xué)的一項(xiàng)關(guān)鍵任務(wù)。

2、為了通過單細(xì)胞及空間轉(zhuǎn)錄組學(xué)數(shù)據(jù)推斷細(xì)胞間通訊,有兩種最常見的策略:一種是基于高度共表達(dá)的配體和受體可能在細(xì)胞間通信中發(fā)揮作用。通過整合大量的配體和受體信息,從信號(hào)發(fā)送者到接收者的角度進(jìn)行信號(hào)推斷。另一種策略則是利用配體-受體相互作用(lri)在受體中觸發(fā)的下游靶標(biāo),來豐富和評(píng)估配體-受體-下游靶標(biāo)(lrt)信號(hào)網(wǎng)絡(luò)。此兩種策略旨在通過統(tǒng)計(jì)學(xué)模型推斷細(xì)胞間關(guān)系,并且使用先驗(yàn)知識(shí)去豐富細(xì)胞間通訊網(wǎng)絡(luò)。

3、然而,此兩種策略忽視了細(xì)胞間表達(dá)差異巨大的hvgs,且沒有設(shè)定一個(gè)的標(biāo)準(zhǔn)衡量細(xì)胞間通訊與基因的關(guān)系。并且在少有研究細(xì)胞通訊與hvgs關(guān)系的方法中,一直將焦點(diǎn)放在了使用scrna-seq數(shù)據(jù)進(jìn)行推測潛在細(xì)胞-細(xì)胞通信的計(jì)算工具上。這些工具通常通過比較不同細(xì)胞類型之間配體和受體基因的表達(dá)水平來進(jìn)行推斷。但是,這些方法存在一些限制,包括對(duì)配體-受體對(duì)信息的不完全了解,可能存在的配體和受體之間的交叉影響,以及無法獲取到細(xì)胞空間上下文的挑戰(zhàn)。由于生物組織的復(fù)雜性,配體和受體細(xì)胞中基因的表達(dá)水平以及相對(duì)位置在解析細(xì)胞間相互作用的過程中顯得至關(guān)重要。傳統(tǒng)通過配體-受體及其下游分析的方法在考慮這些關(guān)鍵因素時(shí)可能存在局限,因此我們需要更先進(jìn)、綜合的方法來更好地捕捉這些復(fù)雜性,更需要一個(gè)標(biāo)準(zhǔn)去衡量基因與細(xì)胞通訊的關(guān)系。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明為了解決現(xiàn)有細(xì)胞間通訊與hvgs關(guān)系的推斷方法僅簡單通過比較不同細(xì)胞類型之間配體和受體基因的表達(dá)水平,并且沒有標(biāo)準(zhǔn)去衡量基因與細(xì)胞通訊的關(guān)系,這兩個(gè)問題,進(jìn)而提出了一種細(xì)胞通訊相關(guān)高度可變基因的識(shí)別方法。

2、它包括以下步驟:

3、s1、獲取不同組織和器官的scrna-seq及空間轉(zhuǎn)錄組學(xué)數(shù)據(jù)集,單細(xì)胞轉(zhuǎn)錄組學(xué)技術(shù)能夠揭示每個(gè)細(xì)胞內(nèi)基因表達(dá)的差異,從而識(shí)別細(xì)胞的異質(zhì)性,這種信息對(duì)于理解細(xì)胞群體中不同類型細(xì)胞的功能和特性至關(guān)重要,尤其是在細(xì)胞通訊中扮演不同角色的細(xì)胞,而空間轉(zhuǎn)錄組學(xué)技術(shù)通過在組織中測量基因表達(dá)的位置,提供了細(xì)胞相對(duì)位置的信息,這對(duì)于揭示細(xì)胞之間的鄰近關(guān)系、相互作用模式和信號(hào)傳遞路徑非常重要,要結(jié)合同一組織這兩種數(shù)據(jù)進(jìn)行細(xì)胞間關(guān)系判斷,所以需要兩者來自同一組織或器官;

4、s2、獲取scrna和st數(shù)據(jù)集的基因表達(dá)矩陣和細(xì)胞空間坐標(biāo)矩陣,基因表達(dá)矩陣是通過高通量測序或基因芯片技術(shù)獲得的數(shù)據(jù)類型,用于展示在不同條件下細(xì)胞或組織中各個(gè)基因的表達(dá)水平,這是一個(gè)二維數(shù)值矩陣,其中行對(duì)應(yīng)基因,列對(duì)應(yīng)細(xì)胞樣本,每個(gè)元素的數(shù)值表示某個(gè)基因在相應(yīng)細(xì)胞樣本中的表達(dá)量,細(xì)胞空間坐標(biāo)矩陣是一個(gè)記錄每個(gè)細(xì)胞在組織或樣本中的空間位置的矩陣,它通常是一個(gè)二維矩陣,其中每行代表一個(gè)細(xì)胞,而每列包含描述細(xì)胞在空間中位置的坐標(biāo)信息,通過這兩種信息我們可以對(duì)scrna-seq和空間轉(zhuǎn)錄組學(xué)基因表達(dá)情況和空間細(xì)胞位置的關(guān)系進(jìn)行分析,進(jìn)而得出它們的關(guān)系;

5、s3、為了使數(shù)據(jù)更具準(zhǔn)確性,防止缺失值和遺漏值影響結(jié)果的正確性,將基因表達(dá)矩陣和空間坐標(biāo)矩陣進(jìn)行過濾和縮放,提取出顯著特征;

6、s4、構(gòu)建統(tǒng)計(jì)學(xué)模型,統(tǒng)計(jì)學(xué)模型采用多元線性回歸模型(cppls),使用多元線性回歸來對(duì)不同細(xì)胞類型的空間坐標(biāo)信息以及基因表達(dá)信息進(jìn)行擬合,對(duì)于每種細(xì)胞類型都生成一個(gè)系數(shù)矩陣并進(jìn)行過濾,即給定細(xì)胞類型中的基因簇與相鄰細(xì)胞類型之間的關(guān)系,其中基因簇是對(duì)所有在該類細(xì)胞中表達(dá)的基因進(jìn)行k均值(k-means)聚類得到的簇,把基因簇中的基因與原已記錄的基因表達(dá)水平進(jìn)行對(duì)比,從而得到基因受細(xì)胞通訊影響從而上調(diào)或下調(diào);

7、s5、構(gòu)建mimo細(xì)胞通訊網(wǎng)絡(luò),將s4中得到的給定細(xì)胞類型中的基因簇與相鄰細(xì)胞類型之間的關(guān)系系數(shù)矩陣進(jìn)行整合,把每一種細(xì)胞類型的基因簇與相鄰細(xì)胞類型的關(guān)系進(jìn)行處理并統(tǒng)計(jì),最后作為兩種細(xì)胞類型之間的關(guān)聯(lián)強(qiáng)度,最后以有向圖的方式表達(dá);

8、s6、對(duì)hvgs進(jìn)行識(shí)別,對(duì)hvgs的識(shí)別是采用人工的方式在已有的基因功能記錄數(shù)據(jù)庫中的標(biāo)簽進(jìn)行標(biāo)記,并統(tǒng)計(jì)出多個(gè)與細(xì)胞通訊有關(guān)的標(biāo)簽,將標(biāo)簽分為兩類:強(qiáng)相關(guān)(strong_com)、弱相關(guān)(weak_com),其中強(qiáng)相關(guān)和弱相關(guān)代表的是基因標(biāo)簽與細(xì)胞通訊的關(guān)聯(lián)程度;

9、s7、對(duì)標(biāo)記的hvgs進(jìn)行分類,對(duì)標(biāo)記的hvgs進(jìn)行分類采用的是神經(jīng)網(wǎng)絡(luò)模型(mlp),使用該模型對(duì)已有標(biāo)簽的hvgs的一部分進(jìn)行訓(xùn)練,然后將剩余基因進(jìn)行分類預(yù)測,訓(xùn)練時(shí),模型包括輸入層、隱藏層和輸出層,通過學(xué)習(xí)權(quán)重來建模輸入和輸出之間的復(fù)雜關(guān)系,其中輸入層對(duì)輸入的數(shù)據(jù)進(jìn)行預(yù)處理后,隱藏層進(jìn)行數(shù)據(jù)關(guān)系的擬合和泛化,而在最后一層,基因?qū)?huì)被分為兩類輸出;

10、將某個(gè)組織中的一個(gè)scrna-seq樣本和一個(gè)st樣本作為樣本si,根據(jù)s2得到的樣本si的基因表達(dá)矩陣和細(xì)胞空間坐標(biāo)矩陣樣本si的特征矩陣,同時(shí)根據(jù)s3將得到的特征矩陣進(jìn)行處理后輸入s4使用cppls得到給定細(xì)胞類型中的基因簇與相鄰細(xì)胞類型間關(guān)系的系數(shù)矩陣,將系數(shù)矩陣輸入到s5得到mimo的細(xì)胞通訊網(wǎng)絡(luò),對(duì)參與網(wǎng)絡(luò)構(gòu)建的基因進(jìn)行s6的操作,輸出標(biāo)簽標(biāo)記的基因列表,然后將強(qiáng)相關(guān)的基因列表輸入s7的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,訓(xùn)練好模型后輸入樣本輸入樣本si可得到樣本si中scrna-seq和st數(shù)據(jù)中與細(xì)胞通訊相關(guān)基因的列表,即與細(xì)胞通訊相關(guān)高度可變基因。

11、進(jìn)一步地,s1具體過程為:

12、從公開數(shù)據(jù)集中獲取了小鼠皮層和小鼠結(jié)腸的兩個(gè)scrna-seq和空間轉(zhuǎn)錄組學(xué)樣本,我們以樣本中的基因表達(dá)矩陣和細(xì)胞的空間坐標(biāo)矩陣作為數(shù)據(jù)集,為接下來的與其它方法進(jìn)行對(duì)比時(shí)做好基準(zhǔn)測試的準(zhǔn)備;

13、為了評(píng)估不同條件下的識(shí)別性能,將小鼠皮層和小鼠結(jié)腸的scrna-seq和空間轉(zhuǎn)錄組學(xué)數(shù)據(jù)分別整合成需要的數(shù)據(jù)模式,其中小鼠皮層原始數(shù)據(jù)集來自于gse98674,通過空間轉(zhuǎn)錄組學(xué)測序技術(shù)seqfish+處理過可用數(shù)據(jù)取自(https://github.com/caigroup/seqfish-plus),此數(shù)據(jù)集由4489個(gè)細(xì)胞和20423個(gè)基因組成,共有9種細(xì)胞類型,小鼠結(jié)腸數(shù)據(jù)集gene?expression?omnibus數(shù)據(jù)庫的gse169706,而直接使用的是用于細(xì)胞類型定位分析和h&e組織學(xué)圖像的已處理rds文件可在deep?blue?data(https://doi.org/10.7302/cjfe-wa35)獲得,從數(shù)據(jù)集中包括了523個(gè)細(xì)胞和10000個(gè)基因,共計(jì)12種細(xì)胞類型。

14、進(jìn)一步地,s2具體過程為:

15、s21、將獲取的單細(xì)胞及空間轉(zhuǎn)錄組數(shù)據(jù)集使用r讀取,獲得該數(shù)據(jù)的基因表達(dá)矩陣和細(xì)胞空間坐標(biāo)矩陣,并且由這兩個(gè)矩陣中的細(xì)胞統(tǒng)計(jì)出細(xì)胞類型數(shù);

16、s22、根據(jù)基因表達(dá)矩陣和空間坐標(biāo)矩陣的的數(shù)據(jù)制作輸入模型時(shí)所需未處理的數(shù)據(jù)格式。

17、進(jìn)一步地,s3具體過程為:

18、s31、得到制作的數(shù)據(jù)后,以細(xì)胞空間坐標(biāo)矩陣中的數(shù)據(jù)計(jì)算每兩個(gè)細(xì)胞之間的歐氏距離,得到距離矩陣,為了后續(xù)擬合細(xì)胞間距離與基因表達(dá)的關(guān)系,將距離矩陣對(duì)角線的值設(shè)一個(gè)值,統(tǒng)計(jì)出距離矩陣中的最小值,作為一個(gè)固定值;

19、s32、使用核函數(shù)對(duì)距離矩陣進(jìn)行放縮,為了更好地?cái)M合細(xì)胞間距離與基因表達(dá)的關(guān)系,將縮放后的矩陣除以最小值得到新的距離矩陣,使用r創(chuàng)建一個(gè)行為細(xì)胞類型數(shù),列為細(xì)胞類型數(shù)*2的矩陣,來記錄給定細(xì)胞類型與相鄰細(xì)胞類型的通訊得分;

20、s33、將細(xì)胞之間的距離矩陣和創(chuàng)建的標(biāo)記得分矩陣組合在一起,進(jìn)行中心化記作初始特征矩陣;

21、s34、然后使用基因表達(dá)矩陣創(chuàng)建一個(gè)seurat對(duì)象,使用seurat函數(shù)normalizedata將基因表達(dá)矩陣進(jìn)行標(biāo)準(zhǔn)化,然后使用findvariablefeatures函數(shù)將基因表達(dá)矩陣中細(xì)胞間表達(dá)差異最大的前2000基因篩選出來,并給屬于seurat對(duì)象的標(biāo)識(shí)屬性賦值,并對(duì)整合的數(shù)據(jù)進(jìn)行預(yù)處理和標(biāo)準(zhǔn)化的步驟包括將每個(gè)數(shù)據(jù)集中的細(xì)胞嵌入到一個(gè)低維空間中,這通常通過應(yīng)用主成分分析(pca)來實(shí)現(xiàn),主成分分析有助于降低數(shù)據(jù)的維度,同時(shí)保留最重要的細(xì)胞特征,這種降維的操作有助于簡化數(shù)據(jù)結(jié)構(gòu),減少計(jì)算的復(fù)雜性,并保留對(duì)數(shù)據(jù)最具代表性的信息;

22、s35、將從seurat對(duì)象中得到的hvgs的基因表達(dá)矩陣,去除在所有細(xì)胞中表達(dá)值為0的基因,得到一個(gè)hvgs的特征矩陣。

23、進(jìn)一步地,s4具體過程為:

24、s41、首先,將前面得到的特征矩陣,空間細(xì)胞坐標(biāo)矩陣和標(biāo)記得分矩陣進(jìn)行數(shù)據(jù)整合和處理,通常是進(jìn)行一些數(shù)據(jù)格式的轉(zhuǎn)變,這會(huì)更好地使用模型推斷關(guān)系;

25、s42、對(duì)于每個(gè)數(shù)據(jù)集,計(jì)算每一個(gè)給定細(xì)胞類型中聚類的基因簇和相鄰細(xì)胞類型之間的關(guān)系,這通常是由整合的特征矩陣與hvgs的表達(dá)矩陣尋找它們最大協(xié)方差方向,即兩個(gè)數(shù)據(jù)矩陣之間的最優(yōu)投影方向,通過模型擬合,可以提取最相關(guān)的變量,從而揭示兩個(gè)樣本集之間的關(guān)系;

26、s43、首先,創(chuàng)建一個(gè)包含每個(gè)給定細(xì)胞類型中基因簇與相鄰細(xì)胞類型關(guān)系得分的數(shù)組,然后,進(jìn)行兩步系數(shù)過濾:首先,利用t檢驗(yàn)對(duì)每個(gè)基因簇中的系數(shù)進(jìn)行檢驗(yàn),使用前面回歸建模中組塊的分?jǐn)?shù)作為因變量,計(jì)算每個(gè)系數(shù)的t統(tǒng)計(jì)量和p-value;其次,通過計(jì)算每個(gè)基因簇中系數(shù)與回歸建模中組塊分?jǐn)?shù)之間的皮爾遜相關(guān)系數(shù),獲取相關(guān)性p-value并使用benjamini–hochberg(bh)method得到的false?discovery?rate(fdr)-adjusted,

27、第一次過濾通過對(duì)cppls回歸建模中每個(gè)組塊c中的進(jìn)行因子載荷的t-test,從而得到皮爾系相關(guān)系數(shù)對(duì)應(yīng)的p-value,

28、

29、

30、式中corr()和var()分別計(jì)算皮爾遜相關(guān)系數(shù)和方差,和分別為預(yù)處理過的相鄰細(xì)胞類型b的得分和細(xì)胞類型a中細(xì)胞的hvg?h的預(yù)處理表達(dá)值,而和是在執(zhí)行cppls回歸建模中c-th組塊的分?jǐn)?shù),將這些p-values用benjamini–hochberg(bh)method得到的false?discovery?rate(fdr)-adjusted為和設(shè)定一個(gè)參數(shù)δ,δ大于或等于0.05則返回系數(shù)

31、

32、第二次過濾是cppls通過benjamini–hochberg(bh)method計(jì)算第一步中未被過濾掉但不具有統(tǒng)計(jì)意義的零分布基因的p-value對(duì)于每種細(xì)胞類型a的系數(shù)δ大于或等于0.05則返回系數(shù)

33、

34、這兩步過濾的結(jié)果形成最終的基因簇得分矩陣,該矩陣反映了基因簇與細(xì)胞類型間關(guān)系的顯著性及其相關(guān)性,為鑒別對(duì)細(xì)胞類型間關(guān)系具有生物學(xué)重要性的基因簇提供了有力的分析依據(jù);

35、s44、對(duì)于每個(gè)數(shù)據(jù)集中的每個(gè)細(xì)胞類型,統(tǒng)計(jì)模型輸出的關(guān)系模塊中每個(gè)基因的分?jǐn)?shù),提取中重要特征,然后使用k-means聚類,聚類中k的最佳數(shù)量是通過silhouettemethod得到的,將基因聚類簇?cái)?shù)最大值設(shè)置為15,最小值設(shè)置為2,對(duì)特征顯著的基因進(jìn)行聚類,然后將聚類的基因簇與基因組注釋中記錄的基因表達(dá)水平進(jìn)行對(duì)比,得到基因表達(dá)上調(diào)和下調(diào)兩個(gè)矩陣。

36、進(jìn)一步地,s5具體過程為:

37、s51、從s4中獲得的給定細(xì)胞類型中基因簇與相鄰細(xì)胞類型關(guān)系的得分矩陣中,進(jìn)行統(tǒng)計(jì)以確定每個(gè)數(shù)據(jù)集中所有細(xì)胞類型中聚類得到基因簇的數(shù)量,接著,以最小的基因簇?cái)?shù)為標(biāo)準(zhǔn),將該數(shù)據(jù)集中所有細(xì)胞類型中的基因簇個(gè)數(shù)調(diào)整到這個(gè)最小值,在這一標(biāo)準(zhǔn)下進(jìn)行實(shí)驗(yàn),將每個(gè)細(xì)胞類型中基因簇的得分匯總,

38、

39、作為該細(xì)胞類型的得分,這一得分代表了每兩種細(xì)胞類型之間的通訊強(qiáng)度,使得在考慮不同數(shù)據(jù)集時(shí),對(duì)細(xì)胞類型的基因簇?cái)?shù)量進(jìn)行了一致性的標(biāo)準(zhǔn)化;

40、s52、基于每兩種細(xì)胞類型的得分矩陣,將每一種細(xì)胞類型看作有向圖中的一個(gè)節(jié)點(diǎn),對(duì)于圖中的每兩個(gè)節(jié)點(diǎn)(細(xì)胞類型),通過引入衰減函數(shù),將路徑上的節(jié)點(diǎn)個(gè)數(shù)映射為邊權(quán)值,并對(duì)邊權(quán)進(jìn)行衰減,對(duì)每一條路徑k進(jìn)行衰減:

41、weighta,b,k=(weighta,i-mean*101-i)+…+(weighta,j-mean*101-j)

42、(0≤j≤i≤d),j,i分別代表a→b出發(fā)的第一條邊和最后一條邊,最終a→b的路徑權(quán)值為:

43、

44、這衰減函數(shù)的引入是為了模擬生物體內(nèi)細(xì)胞之間通訊隨著距離的遠(yuǎn)近而變化的現(xiàn)象,最后,統(tǒng)計(jì)每兩個(gè)節(jié)點(diǎn)之間所有衰減后路徑上的節(jié)點(diǎn)個(gè)數(shù),得到代表兩個(gè)細(xì)胞類型之間通信強(qiáng)度的值,這個(gè)過程通過考慮路徑長度以及邊權(quán)值的衰減,更全面地反映了細(xì)胞類型間的通訊關(guān)系,符合實(shí)際生物體內(nèi)細(xì)胞通訊的特性。

45、進(jìn)一步地,s6具體過程為:

46、s61、對(duì)于模型中的每個(gè)數(shù)據(jù)集,使用構(gòu)建多輸入多輸出(mimo)細(xì)胞通訊網(wǎng)絡(luò)時(shí)輸入模型的2000個(gè)高度變異基因(hvgs),以及使用其他三種方法(標(biāo)準(zhǔn)方差、scranpy、m3drop)篩選出的所有hvgs,接著,從基因卡片(genecard)、基因本體論(gene?ontology,go)等數(shù)據(jù)庫中提取這些基因在功能和生物途徑上已記錄的信息,手動(dòng)篩選與細(xì)胞通訊相關(guān)的標(biāo)簽,這一過程旨在建立基因與細(xì)胞通訊相關(guān)功能的關(guān)聯(lián),為模型提供更多生物學(xué)解釋性的信息;

47、s62、根據(jù)標(biāo)簽,將與細(xì)胞通訊相關(guān)的信息分為兩類:強(qiáng)相關(guān)和弱相關(guān),

48、(i)強(qiáng)相關(guān)(strong_com):"receptor","ligand","receptors","ligands","cell-cell?adhesion","intercellular?interaction",

49、(ii)弱相關(guān)(weak_com):"surfaces?of?many?cells?and?extracellularmatrices","participates?in?cellular","pathway","regulation","signaltransduction",

50、這分類反映了基因標(biāo)簽與細(xì)胞通訊關(guān)聯(lián)程度的不同,具體而言,強(qiáng)相關(guān)表示基因標(biāo)簽與細(xì)胞通訊緊密相關(guān),而弱相關(guān)則表示二者的關(guān)聯(lián)較為松散,這將作為衡量細(xì)胞通訊與基因關(guān)系的標(biāo)準(zhǔn),有助于更準(zhǔn)確地理解基因與細(xì)胞通訊之間的關(guān)聯(lián)程度。

51、進(jìn)一步地,s7具體過程為:

52、s71、對(duì)基于強(qiáng)相關(guān)標(biāo)簽標(biāo)記的hvgs進(jìn)行分類,對(duì)標(biāo)記的hvgs進(jìn)行分類采用的是神經(jīng)網(wǎng)絡(luò)模型(mlp),利用獨(dú)熱編碼對(duì)基因數(shù)據(jù)進(jìn)行更改,從而更適用于模型,使用該模型對(duì)已有標(biāo)簽的hvgs的一部分進(jìn)行訓(xùn)練,然后將剩余基因進(jìn)行分類預(yù)測,訓(xùn)練模型時(shí)使用的數(shù)據(jù)是源數(shù)據(jù)的五分之一,然后對(duì)剩余五分之四的基因進(jìn)行預(yù)測。

53、有益效果:

54、本發(fā)明通過獲取不同組織和器官的scrna-seq及空間轉(zhuǎn)錄組學(xué)數(shù)據(jù)集。首先,將獲取的單細(xì)胞及空間轉(zhuǎn)錄組數(shù)據(jù)集使用r讀取,得到基因表達(dá)矩陣和細(xì)胞空間坐標(biāo)矩陣,并統(tǒng)計(jì)細(xì)胞類型數(shù)。接下來,根據(jù)基因表達(dá)矩陣和空間坐標(biāo)矩陣制作輸入模型所需的未處理數(shù)據(jù)格式。得到制作的數(shù)據(jù)后,使用細(xì)胞空間坐標(biāo)矩陣計(jì)算每兩個(gè)細(xì)胞之間的歐氏距離,形成距離矩陣。為擬合細(xì)胞間距離與基因表達(dá)的關(guān)系,將距離矩陣對(duì)角線的值設(shè)為一個(gè)固定值,并統(tǒng)計(jì)距離矩陣中的最小值。隨后,通過核函數(shù)對(duì)距離矩陣進(jìn)行放縮,以更好地?cái)M合細(xì)胞間距離與基因表達(dá)的關(guān)系。創(chuàng)建一個(gè)矩陣記錄給定細(xì)胞類型與相鄰細(xì)胞類型的通訊得分,將細(xì)胞之間的距離矩陣和創(chuàng)建的標(biāo)記得分矩陣組合,形成中心化的初始特征矩陣。接著,使用基因表達(dá)矩陣創(chuàng)建seurat對(duì)象,標(biāo)準(zhǔn)化基因表達(dá)矩陣,并篩選出差異最大的前2000基因。對(duì)整合的數(shù)據(jù)進(jìn)行預(yù)處理和標(biāo)準(zhǔn)化,包括將每個(gè)數(shù)據(jù)集中的細(xì)胞嵌入到低維空間中,通常通過主成分分析(pca)實(shí)現(xiàn),以降低數(shù)據(jù)維度并保留最重要的細(xì)胞特征。從seurat對(duì)象中獲取hvgs的基因表達(dá)矩陣,去除在所有細(xì)胞中表達(dá)值為0的基因,得到hvgs的特征矩陣。接下來,對(duì)特征矩陣、空間細(xì)胞坐標(biāo)矩陣和標(biāo)記得分矩陣進(jìn)行數(shù)據(jù)整合和處理。對(duì)每個(gè)數(shù)據(jù)集,計(jì)算每個(gè)給定細(xì)胞類型中聚類的基因簇和相鄰細(xì)胞類型之間的關(guān)系,通過整合的特征矩陣與hvgs的表達(dá)矩陣找到它們的最大協(xié)方差方向。模型擬合后,提取最相關(guān)的變量,揭示兩個(gè)樣本集之間的關(guān)系。對(duì)每個(gè)數(shù)據(jù)集中的每個(gè)細(xì)胞類型,統(tǒng)計(jì)模型輸出的關(guān)系模塊中每個(gè)基因的分?jǐn)?shù)。使用k-means聚類,聚類數(shù)通過silhouette方法確定為2到15。創(chuàng)建包含每個(gè)給定細(xì)胞類型中基因簇與相鄰細(xì)胞類型關(guān)系得分的數(shù)組。進(jìn)行兩步系數(shù)過濾:首先,利用t檢驗(yàn)對(duì)每個(gè)基因簇中的系數(shù)進(jìn)行檢驗(yàn),計(jì)算每個(gè)系數(shù)的t統(tǒng)計(jì)量和p-value。其次,通過計(jì)算每個(gè)基因簇中系數(shù)與回歸建模中組塊分?jǐn)?shù)之間的皮爾遜相關(guān)系數(shù),獲取相關(guān)性p-value,并使用benjamini–hochberg?method得到fdr-adjusted值。獲得給定細(xì)胞類型中基因簇與相鄰細(xì)胞類型關(guān)系的得分矩陣后,統(tǒng)計(jì)以確定每個(gè)數(shù)據(jù)集中所有細(xì)胞類型中聚類得到基因簇的數(shù)量。以最小的基因簇?cái)?shù)為標(biāo)準(zhǔn),將每個(gè)細(xì)胞類型中的基因簇個(gè)數(shù)調(diào)整到這個(gè)最小值,進(jìn)行實(shí)驗(yàn)。然后將聚類的基因簇存儲(chǔ)到一個(gè)基因列表中與現(xiàn)已記錄的基因表達(dá)水平進(jìn)行對(duì)比,得到受細(xì)胞調(diào)節(jié)的hvgs的表達(dá)水平的變化,將每個(gè)細(xì)胞類型中基因簇的得分匯總,作為該細(xì)胞類型的得分,代表了每兩種細(xì)胞類型之間的通訊強(qiáng)度,實(shí)現(xiàn)對(duì)細(xì)胞類型的基因簇?cái)?shù)量的一致性標(biāo)準(zhǔn)化?;诿績煞N細(xì)胞類型的得分矩陣,將每一種細(xì)胞類型看作有向圖中的一個(gè)節(jié)點(diǎn)。對(duì)于圖中的每兩個(gè)節(jié)點(diǎn),通過引入衰減函數(shù),將路徑上的節(jié)點(diǎn)個(gè)數(shù)映射為邊權(quán)值,并對(duì)邊權(quán)進(jìn)行衰減。這個(gè)衰減函數(shù)的引入模擬了生物體內(nèi)細(xì)胞之間通訊隨著距離的遠(yuǎn)近而變化的現(xiàn)象。最后,統(tǒng)計(jì)每兩個(gè)節(jié)點(diǎn)之間所有衰減后路徑上的節(jié)點(diǎn)個(gè)數(shù),得到代表兩個(gè)細(xì)胞類型之間通信強(qiáng)度的值。這一過程通過考慮路徑長度和邊權(quán)值的衰減,更全面地反映了細(xì)胞類型間的通訊關(guān)系,符合實(shí)際生物體內(nèi)細(xì)胞通訊的特性。對(duì)于模型中的每個(gè)數(shù)據(jù)集,使用構(gòu)建多輸入多輸出(mimo)細(xì)胞通訊網(wǎng)絡(luò)的輸入模型的2000個(gè)高度變異基因,以及使用其他三種方法(標(biāo)準(zhǔn)方差、scranpy、m3drop)篩選出的所有hvgs。從基因卡片(genecard)、基因本體論(gene?ontology,go)等數(shù)據(jù)庫中提取這些基因在功能和生物途徑上已記錄的信息,并手動(dòng)篩選與細(xì)胞通訊相關(guān)的標(biāo)簽。這一過程旨在建立基因與細(xì)胞通訊相關(guān)功能的關(guān)聯(lián),為模型提供更多生物學(xué)解釋性的信息。對(duì)基于強(qiáng)相關(guān)標(biāo)簽標(biāo)記的hvgs進(jìn)行分類,采用神經(jīng)網(wǎng)絡(luò)模型(mlp)。通過獨(dú)熱編碼對(duì)基因數(shù)據(jù)進(jìn)行更改,使其更適用于模型。首先,使用源數(shù)據(jù)的五分之一對(duì)模型進(jìn)行訓(xùn)練,然后對(duì)剩余五分之四的基因進(jìn)行分類預(yù)測。這一過程用于分類預(yù)測已有標(biāo)簽的hvgs和其他基因,即與細(xì)胞通訊相關(guān)高度可變基因的識(shí)別。

55、本發(fā)明提供了一種與細(xì)胞通訊相關(guān)高度可變基因的識(shí)別方法,將獲取的scrna數(shù)據(jù)與st數(shù)據(jù)處理后進(jìn)行整合,通過多元線性回歸模型cppls推斷出不同細(xì)胞類型與基因的關(guān)系,然后以先驗(yàn)知識(shí)為標(biāo)準(zhǔn),創(chuàng)新性的設(shè)定了基因與細(xì)胞通訊關(guān)系的衡量標(biāo)準(zhǔn),最后基于神經(jīng)網(wǎng)絡(luò)模型mlp基于hvgs的表達(dá)信息,使用獨(dú)熱編碼將基因表達(dá)信息特征化,從而對(duì)hvgs進(jìn)行預(yù)測和分類,即識(shí)別與細(xì)胞通訊相關(guān)高度可變基因,為探索細(xì)胞間通訊提供了一種新的視角、更加準(zhǔn)確的方法。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1