| 项目编号 | GDR21060245_std_1 |
| 项目内容 | Mus_musculus --- 3 scRNA-seq |
| 参考基因组 | GRCm39 |
| 样品信息 | NP¦NPM¦PBS |


![]() |
| Fig 2-1-1 10x单细胞实验流程图 |

![]() |
| Fig 2-2-1 10x单细胞分析流程图 |


使用cellranger[1],我们可以对测序质量进行质控,去除测序质量低的reads,并对每个样本测的reads数和测序质量进行初步统计。

使用cellranger,我们将reads与参考基因组进行比对,将reads注释为特定基因;再对UMI进行修正和统计后,获得未过滤的feature-barcode矩阵;根据未过滤的feature-barcode矩阵,cellranger对数据中的细胞和非细胞进行识别和区分,并绘制为rank-plot图,直观体现有效细胞鉴定结果。
各样本质控、定量结果报告:

基于UMI修正和有效细胞鉴定后的结果,我们可以使用UMI条数对基因进行定量,获得如下的细胞-基因表达量定量结果。
备注:由于单个细胞在某个瞬间,只有小部分基因表达,因此表中大量基因UMI丰度为0。
UMI定量总表文件:

在cellranger完成基因表达量鉴定后,我们将表达量矩阵转入Seurat[2]进行后续的分析。

cellranger的细胞过滤是根据基因表达量进行自动识别,会有部分非正常细胞残留,所以在进行亚群分类之前,我们需要对非正常细胞进行进一步过滤。
首先检测各样本中含有多个细胞的GEM。利用DoubletFinder[3]计算GEM为多胞的概率(pANN值),然后基于10X官方给出的有效细胞数(cellranger过滤后)与多胞率之间的关系计算各样本多胞率,确定各样本多胞过滤阈值,依次进行多胞过滤。
| Cells | pANN | classifications |
|---|---|---|
| NP_AAACCCAAGATACATG | 0.111111111111111 | Singlet |
| NP_AAACCCAAGATGAAGG | 0.347222222222222 | Doublet |
| NP_AAACCCAAGCACTCAT | 0.111111111111111 | Singlet |
| NP_AAACCCAAGCATTTCG | 0.0833333333333333 | Singlet |
| NP_AAACCCAAGCCGGAAT | 0.0555555555555556 | Singlet |
| NP_AAACCCAAGCTTAAGA | 0.0138888888888889 | Singlet |
| NP_AAACCCAAGCTTACGT | 0.0277777777777778 | Singlet |
| NP_AAACCCAAGTCGCTAT | 0.541666666666667 | Doublet |
| NP_AAACCCACATACTGAC | 0.0138888888888889 | Singlet |
| NP_AAACCCACATCAACCA | 0.0833333333333333 | Singlet |
| Cells | pANN | classifications |
|---|---|---|
| NPM_AAACCCAAGATTGCGG | 0.152679830747532 | Singlet |
| NPM_AAACCCAAGCACACAG | 0.277856135401975 | Singlet |
| NPM_AAACCCAAGCCATTCA | 0.190409026798307 | Singlet |
| NPM_AAACCCAAGTCATGCT | 0.415373765867419 | Doublet |
| NPM_AAACCCAAGTCCCAGC | 0.0624118476727786 | Singlet |
| NPM_AAACCCACAGCATGCC | 0.138222849083216 | Singlet |
| NPM_AAACCCACAGGACATG | 0.175599435825106 | Singlet |
| NPM_AAACCCAGTAGGCTGA | 0.321932299012694 | Singlet |
| NPM_AAACCCAGTAGTTCCA | 0.21015514809591 | Singlet |
| NPM_AAACCCAGTATGCAAA | 0.0719322990126939 | Singlet |
| Cells | pANN | classifications |
|---|---|---|
| PBS_AAACCCAAGAAGCTGC | 0.0240963855421687 | Singlet |
| PBS_AAACCCACAATAGGAT | 0.192771084337349 | Singlet |
| PBS_AAACCCACACAGCATT | 0 | Singlet |
| PBS_AAACCCACACCAGTAT | 0.0602409638554217 | Singlet |
| PBS_AAACCCACACCTTCCA | 0.0120481927710843 | Singlet |
| PBS_AAACCCACACGGCCAT | 0.0481927710843374 | Singlet |
| PBS_AAACCCAGTGCATACT | 0.108433734939759 | Singlet |
| PBS_AAACCCATCCTCGCAT | 0.0481927710843374 | Singlet |
| PBS_AAACCCATCCTGTTAT | 0.0843373493975904 | Singlet |
| PBS_AAACGAAAGCATACTC | 0 | Singlet |
除此以外,我们对以下指标进行过滤:
![]() |
![]() |
Fig 4-1-3 过滤前后各个样本细胞基本信息的分布图![]() |

在去除低质量细胞后,我们利用Harmony[4]进行数据合并以及批次效应矫正。首先对合并后的数据进行PCA降维,Harmony采用soft k-means clustering算法对降维后的数据进行聚类,将细胞概率性的分配给cluster,使每个cluster内数据集的多样性最大化;然后计算每个cluster内所有数据集的全局中心,以及每个特定数据集的中心;最后在每个cluster内,基于中心为每个数据集计算校正因子,对细胞进行校正使其向中心聚集;不断重复以上步骤,直到聚类效果趋于稳定。
![]() |
![]() |
|
| Fig 4-2-1 各样本中各亚群细胞数量堆叠图 | Fig 4-2-2 各样本中各亚群细胞数量百分比堆叠图 | |
![]() |
![]() |
|
| Fig 4-2-3 各亚群中各个样本细胞数量堆叠图 | Fig 4-2-4 各亚群中各个样本细胞数量百分比堆叠图 | |
进一步,我们计算两个细胞亚群之间相关性并绘制成热图。图中具有高度相关性的两个细胞亚群具有比较相似的基因表达模式,可能是同一种细胞类型。这张相关性热图为人工细胞亚群鉴定提供了一定的指导作用。
![]() |
| Fig 4-2-5 各亚群相关性热图 |
基因在各个亚群中表达量的均值表:2.Cluster/2.cluster/AllGene.avg_exp.annot.xls
细胞与亚群对照表:2.Cluster/2.cluster/Cells.cluster.list.xls

基于细胞亚群分类的结果,进一步利用tSNE(tSNE,t-Distributed Stochastic Neighbor Embedding)非线性聚类的方法对单细胞亚群分类结果进行可视化[5]。tSNE 的方法通常对不同亚群细胞的分类结果有更佳的呈现效果(亚群间的隔离更加清晰)。
对所有样本的亚群分类可视化,结果如下:
![]() |
Fig 4-3-1 单细胞亚群分类tSNE图![]() |
分别对各个样本的亚群分类可视化,结果如下:
Fig 4-3-2 各样本单细胞亚群分类tSNE图

以上单细胞亚群分类是基于细胞表达特征的相似性进行聚类的,每个亚群不具有生物学意义。所以,细胞鉴定一直是很重要但又比较繁琐的步骤。这里,我们使用singleR[6]对所有细胞进行自动化注释,为后续的人工细胞鉴定工作提供参考。
singleR是通过细胞与参考数据库中细胞类型的相似度来自动化鉴定细胞类型,对于相似度较高的细胞类型的注释准确性会降低。所以,singleR的注释结果只能作为辅助手段,最终的细胞亚群鉴定结果依然需要人工鉴定的确认。
![]() |
![]() |
|
| Fig 4-4-1 各样本中各细胞类型细胞数量堆叠图 | Fig 4-4-2 各样本中各细胞类型细胞数量百分比堆叠图 | |
![]() |
![]() |
|
| Fig 4-4-3 各细胞类型中各个样本细胞数量堆叠图 | Fig 4-4-4 各细胞类型中各个样本细胞数量百分比堆叠图 | |
![]() |
Fig 4-4-5 各细胞类型在tSNE图的分布![]() |
各细胞亚群中各个细胞类型数量统计表:4.CellAnnotation/Cell.annotation.stat.xls
![]() |
Fig 4-4-6 Seurat分群与singleR细胞鉴定对应circos图![]() |
通过singleR,我们可以鉴定细胞的细胞类型;通过Seurat,我们可以得到细胞的聚类信息。通过这两个软件,我们可以将一组细胞按照细胞类型和细胞分群两种方式进行聚类。然后,我们计算各个细胞亚群的细胞与各个细胞类型的细胞之间的相关性,并绘制成热图,作为singleR细胞鉴定结果准确性的一个佐证。
![]() |
| Fig 4-4-7 Seurat分群与singleR鉴定细胞类型相关性热图 |


为了了解各个细胞亚群的分子表达特征,我们可以筛选各个细胞亚群上调表达的基因。
采用Seurat的秩和检验分别对不同类细胞群进行基因差异表达分析,筛选亚群上调表达的基因。
上调基因的筛选条件为:
| Cluster | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Number of DE genes | 478 | 1423 | 530 | 466 | 584 | 630 | 686 | 944 | 408 | 682 | 811 | 654 | 496 | 661 | 677 | 1660 | 929 | 539 | 345 | 1256 | 529 | 422 | 257 |
![]() |
| Fig 5-1-1 各亚群上调基因数量统计柱状图 |
各亚群差异基因注释表: 3.MarkerGene/DeGene.list.xls
图形是比表格更优秀的数据呈现形式。我们使用热图、tSNE图、密度分布图、小提琴图和气泡图来可视化基因在细胞和各个细胞亚群的表达分布情况。(选择亚群上调top5的基因用于绘图)
![]() |
Fig 5-2-1 标记基因表达热图![]() |
![]() |
Fig 5-2-2 标记基因表达分布气泡图![]() |
上调基因表达分布图只展示其中5个基因,其他top5的基因请浏览文件夹3.MarkerGene/Plots/ExpPlot
上调基因表达分布密度图只展示其中5个基因,其他top5的基因请浏览文件夹3.MarkerGene/Plots/DensityPlot
上调基因表达分布小提琴图只展示其中5个基因,其他top5的基因请浏览文件夹3.MarkerGene/Plots/ViolinPlot

Gene Ontology(简称GO)是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词汇表(controlled vocabulary)来全面描述生物体中基因和基因产物的属性。GO总共有三个ontology(本体),分别描述基因的分子功能(molecular function)、细胞组分(cellular component)、参与的生物过程(biological process)。GO的基本单位是term(词条、节点),每个term都对应一个属性。 GO功能分析一方面给出基因的GO功能分类注释;另一方面给出基因的GO功能显著性富集分析。 首先,我们将基因向GO数据库(http://www.geneontology.org/)的各term映射,并计算每个term的基因数,从而得到具有某个GO功能的基因列表及基因数目统计。然后应用超几何检验,找出与整个基因组背景相比,在基因中显著富集的GO条目。
GO富集圈图:(第一圈:富集前20的GOterm,圈外为基因数目的坐标尺。不同的颜色代表不同的Ontology; 第二圈:背景基因中该GOterm的数目以及Q值。基因越多条形越长,Q值越小颜色越红; 第三圈:该GOterm差异基因数量 第四圈:各GOterm的RichFactor值(该GOterm中差异数量除以所有数量),背景网格线,每一格代表0.1)
Fig 5-3-1 GO 富集圈图
GO 富集分类柱状图:(横坐标为二级GOterm,纵坐标为该term里的基因数量,不同颜色表色不同类型GOterm)
Fig 5-3-2 GO富集分类柱状图
GO富集气泡图:(利用Q值最小的前20个GOterm来作图,纵坐标为GOterm,横坐标为富集因子(该GOterm中差异数量除以所有数量),大小表示数量多少,颜色越红Q值越小)");
Fig 5-3-3 GO富集气泡图
GO富集条形图:(利用Q值最小的前20个GOterm来作图,纵坐标为GOterm,横坐标为该GOterm数目占所有差异数目的百分比,颜色越深Q值越小,柱子上的数值为该GOterm数量及Q值");
Fig 5-3-4 GO富集条形图

在生物体内,不同基因相互协调行使其生物学,基于Pathway的分析有助于更进一步了解基因的生物学功能。KEGG是有关Pathway的主要公共数据库。 Pathway显著性富集分析以KEGG Pathway为单位,应用超几何检验,找出与整个基因组背景相比,在基因中显著性富集的Pathway。通过Pathway显著性富集能确定基因参与的最主要生化代谢途径和信号转导途径。
所有趋势pathway统计如下所示:
| Pathway | Pathway_ID | KEGG_A_class | KEGG_B_class | Cluster_0(276) | Cluster_0_Pvalue | Cluster_0_Qvalue | Cluster_1(772) | Cluster_1_Pvalue | Cluster_1_Qvalue | Cluster_10(436) | Cluster_10_Pvalue | Cluster_10_Qvalue | Cluster_11(361) | Cluster_11_Pvalue | Cluster_11_Qvalue | Cluster_12(268) | Cluster_12_Pvalue | Cluster_12_Qvalue | Cluster_13(377) | Cluster_13_Pvalue | Cluster_13_Qvalue | Cluster_14(374) | Cluster_14_Pvalue | Cluster_14_Qvalue | Cluster_15(850) | Cluster_15_Pvalue | Cluster_15_Qvalue | Cluster_16(524) | Cluster_16_Pvalue | Cluster_16_Qvalue | Cluster_17(291) | Cluster_17_Pvalue | Cluster_17_Qvalue | Cluster_18(168) | Cluster_18_Pvalue | Cluster_18_Qvalue | Cluster_19(634) | Cluster_19_Pvalue | Cluster_19_Qvalue | Cluster_2(296) | Cluster_2_Pvalue | Cluster_2_Qvalue | Cluster_20(271) | Cluster_20_Pvalue | Cluster_20_Qvalue | Cluster_21(209) | Cluster_21_Pvalue | Cluster_21_Qvalue | Cluster_22(167) | Cluster_22_Pvalue | Cluster_22_Qvalue | Cluster_3(270) | Cluster_3_Pvalue | Cluster_3_Qvalue | Cluster_4(325) | Cluster_4_Pvalue | Cluster_4_Qvalue | Cluster_5(344) | Cluster_5_Pvalue | Cluster_5_Qvalue | Cluster_6(398) | Cluster_6_Pvalue | Cluster_6_Qvalue | Cluster_7(522) | Cluster_7_Pvalue | Cluster_7_Qvalue | Cluster_8(238) | Cluster_8_Pvalue | Cluster_8_Qvalue | Cluster_9(351) | Cluster_9_Pvalue | Cluster_9_Qvalue |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2-Oxocarboxylic acid metabolism | ko01210 | Metabolism | Global and overview maps | 0 | 1 | 1 | 5 | 0.02223178 | 1.359559e-01 | 2 | 0.2454007 | 9.743313e-01 | 0 | 1 | 1 | 0 | 1 | 1 | 4 | 0.008052936 | 8.407265e-02 | 0 | 1 | 1 | 5 | 0.03224956 | 1.737315e-01 | 1 | 0.6918823 | 9.937946e-01 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 0.7615184 | 1.000000e+00 | 0 | 1 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 6 | 1.042245e-06 | 1.643540e-05 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 0.5346686 | 7.668253e-01 | 0 | 1 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 2 | 0.1768851 | 5.117647e-01 |
| ABC transporters | ko02010 | Environmental Information Processing | Membrane transport | 0 | 1 | 1 | 5 | 0.5297399 | 9.736352e-01 | 0 | 1 | 1 | 2 | 0.6625046 | 1.000000e+00 | 0 | 1 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 3 | 0.9086782 | 1.000000e+00 | 0 | 1 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 0.9833267 | 1.000000e+00 | 0 | 1 | 1 | 2 | 0.5054369 | 7.414926e-01 | 0 | 1 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 3 | 0.3610819 | 6.079542e-01 | 1 | 0.9207746 | 1.000000e+00 | 0 | 1 | 1 | 2 | 0.4375253 | 7.712048e-01 | 3 | 0.3730591 | 7.357263e-01 |
| AGE-RAGE signaling pathway in diabetic complications | ko04933 | Human Diseases | Endocrine and metabolic diseases | 8 | 0.01224197 | 4.252474e-02 | 13 | 0.09059233 | 3.552775e-01 | 6 | 0.3648089 | 9.968682e-01 | 6 | 0.2191226 | 7.435025e-01 | 11 | 0.0001982159 | 3.780260e-03 | 1 | 0.9870402 | 1.000000e+00 | 3 | 0.7971608 | 1.000000e+00 | 13 | 0.1554419 | 5.191759e-01 | 10 | 0.06899366 | 3.219747e-01 | 8 | 0.01639302 | 7.683508e-02 | 6 | 0.01143041 | 6.803815e-02 | 9 | 0.281177 | 9.060017e-01 | 3 | 0.650876 | 9.998671e-01 | 9 | 0.00333006 | 1.816091e-02 | 5 | 0.08577417 | 2.757027e-01 | 2 | 0.5626932 | 9.999696e-01 | 5 | 0.1864729 | 8.123856e-01 | 3 | 0.7124199 | 9.812043e-01 | 12 | 0.0004512088 | 6.111828e-03 | 5 | 0.4641543 | 9.343373e-01 | 8 | 0.2313915 | 4.264863e-01 | 5 | 0.1291796 | 4.274084e-01 | 9 | 0.01687651 | 1.963583e-01 |
| AMPK signaling pathway | ko04152 | Environmental Information Processing | Signal transduction | 7 | 0.08817096 | 1.923730e-01 | 13 | 0.2699809 | 7.055091e-01 | 3 | 0.9449017 | 9.968682e-01 | 6 | 0.3833155 | 9.997647e-01 | 4 | 0.5109679 | 7.651735e-01 | 2 | 0.9695247 | 1.000000e+00 | 3 | 0.8960059 | 1.000000e+00 | 14 | 0.286429 | 7.416069e-01 | 7 | 0.5937026 | 9.456923e-01 | 4 | 0.5764837 | 7.948874e-01 | 2 | 0.6797805 | 8.321853e-01 | 9 | 0.5187677 | 1.000000e+00 | 3 | 0.7825354 | 9.998671e-01 | 3 | 0.7293905 | 8.852148e-01 | 2 | 0.7898136 | 8.997876e-01 | 1 | 0.9045318 | 9.999696e-01 | 4 | 0.5168458 | 9.999999e-01 | 4 | 0.6637028 | 9.812043e-01 | 7 | 0.1992184 | 4.271013e-01 | 5 | 0.6506331 | 9.791958e-01 | 13 | 0.02827782 | 8.782589e-02 | 1 | 0.9652973 | 9.923214e-01 | 4 | 0.7217519 | 9.282627e-01 |
| Acute myeloid leukemia | ko05221 | Human Diseases | Cancers | 9 | 0.0003179069 | 2.797581e-03 | 9 | 0.1578767 | 5.071191e-01 | 4 | 0.4594158 | 9.968682e-01 | 5 | 0.1592604 | 7.072900e-01 | 9 | 0.0002556469 | 4.266108e-03 | 2 | 0.8081355 | 1.000000e+00 | 4 | 0.3470407 | 1.000000e+00 | 9 | 0.23197 | 6.403139e-01 | 12 | 0.0007974987 | 9.333688e-03 | 3 | 0.4095891 | 6.503915e-01 | 4 | 0.04453226 | 1.568037e-01 | 6 | 0.3919127 | 1.000000e+00 | 2 | 0.6877486 | 9.998671e-01 | 10 | 5.143303e-05 | 5.281777e-04 | 5 | 0.02514519 | 1.357840e-01 | 0 | 1 | 1 | 4 | 0.1673492 | 7.898882e-01 | 1 | 0.928854 | 9.812043e-01 | 10 | 0.0003645995 | 5.432533e-03 | 4 | 0.3908794 | 9.200698e-01 | 5 | 0.4018915 | 6.350345e-01 | 7 | 0.002748465 | 3.166710e-02 | 8 | 0.006509532 | 1.184885e-01 |
| Adherens junction | ko04520 | Cellular Processes | Cellular community - eukaryotes | 10 | 5.3179e-05 | 5.849690e-04 | 11 | 0.0371912 | 1.935996e-01 | 3 | 0.6719816 | 9.968682e-01 | 4 | 0.3143502 | 9.061541e-01 | 3 | 0.3516197 | 6.298840e-01 | 1 | 0.9518116 | 1.000000e+00 | 0 | 1 | 1 | 10 | 0.1262662 | 4.584012e-01 | 1 | 0.9857447 | 1.000000e+00 | 8 | 0.001910327 | 1.780918e-02 | 7 | 0.0003296866 | 5.494777e-03 | 10 | 0.02545491 | 2.882321e-01 | 4 | 0.2023665 | 9.812866e-01 | 4 | 0.1631565 | 3.485023e-01 | 6 | 0.005822473 | 4.912712e-02 | 0 | 1 | 1 | 4 | 0.1616513 | 7.898882e-01 | 7 | 0.01345409 | 1.702151e-01 | 6 | 0.05243201 | 1.860088e-01 | 6 | 0.09143808 | 4.531596e-01 | 10 | 0.007235353 | 3.000543e-02 | 5 | 0.03865762 | 2.008680e-01 | 6 | 0.05677204 | 3.192088e-01 |
| Adipocytokine signaling pathway | ko04920 | Organismal Systems | Endocrine system | 6 | 0.01962436 | 6.167656e-02 | 5 | 0.7240991 | 1.000000e+00 | 1 | 0.9688813 | 9.968682e-01 | 2 | 0.7750706 | 1.000000e+00 | 6 | 0.01722917 | 8.480070e-02 | 0 | 1 | 1 | 2 | 0.7918626 | 1.000000e+00 | 9 | 0.2082882 | 6.124830e-01 | 6 | 0.2183004 | 6.029887e-01 | 2 | 0.6637518 | 8.409648e-01 | 1 | 0.732072 | 8.434009e-01 | 4 | 0.7324608 | 1.000000e+00 | 2 | 0.6729554 | 9.998671e-01 | 8 | 0.00110807 | 7.215968e-03 | 1 | 0.8064462 | 9.072520e-01 | 1 | 0.7299437 | 9.999696e-01 | 2 | 0.6228706 | 9.999999e-01 | 0 | 1 | 1 | 2 | 0.7513731 | 8.932500e-01 | 1 | 0.9576032 | 1.000000e+00 | 1 | 0.9846229 | 1.000000e+00 | 0 | 1 | 1 | 5 | 0.1348926 | 4.659478e-01 |
| Adrenergic signaling in cardiomyocytes | ko04261 | Organismal Systems | Circulatory system | 7 | 0.1543705 | 2.890341e-01 | 14 | 0.3539771 | 8.078413e-01 | 4 | 0.9240723 | 9.968682e-01 | 5 | 0.6920747 | 1.000000e+00 | 8 | 0.06605158 | 2.260996e-01 | 5 | 0.7280139 | 1.000000e+00 | 6 | 0.5575421 | 1.000000e+00 | 9 | 0.9361987 | 1.000000e+00 | 8 | 0.6075175 | 9.456923e-01 | 11 | 0.00699949 | 3.890101e-02 | 4 | 0.2827743 | 5.236561e-01 | 11 | 0.4373094 | 1.000000e+00 | 3 | 0.858375 | 9.998671e-01 | 6 | 0.2676222 | 4.828049e-01 | 6 | 0.1189675 | 3.417152e-01 | 11 | 7.288991e-05 | 8.301351e-04 | 4 | 0.6328264 | 9.999999e-01 | 7 | 0.2653522 | 9.681769e-01 | 9 | 0.1007776 | 2.945201e-01 | 7 | 0.455608 | 9.343373e-01 | 18 | 0.001666409 | 9.720753e-03 | 6 | 0.1825315 | 4.885944e-01 | 6 | 0.4949155 | 8.148333e-01 |
| African trypanosomiasis | ko05143 | Human Diseases | Infectious diseases | 1 | 0.9923093 | 1.000000e+00 | 3 | 0.9998978 | 1.000000e+00 | 3 | 0.9825323 | 9.968682e-01 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 0.9987533 | 1.000000e+00 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 0.999915 | 1.000000e+00 | 1 | 0.9941226 | 1.000000e+00 | 0 | 1 | 1 | 3 | 0.9990753 | 1.000000e+00 | 3 | 0.8893537 | 9.998671e-01 | 3 | 0.8506873 | 9.456345e-01 | 1 | 0.9745802 | 9.929685e-01 | 0 | 1 | 1 | 0 | 1 | 1 | 3 | 0.9228639 | 9.812043e-01 | 2 | 0.9835481 | 1.000000e+00 | 0 | 1 | 1 | 2 | 0.9990563 | 1.000000e+00 | 1 | 0.9848322 | 9.923214e-01 | 1 | 0.9980044 | 1.000000e+00 |
| Alanine, aspartate and glutamate metabolism | ko00250 | Metabolism | Amino acid metabolism | 0 | 1 | 1 | 2 | 0.8413715 | 1.000000e+00 | 2 | 0.5451229 | 9.968682e-01 | 0 | 1 | 1 | 2 | 0.3052139 | 5.854740e-01 | 2 | 0.4666772 | 1.000000e+00 | 1 | 0.7949571 | 1.000000e+00 | 4 | 0.4733011 | 9.580762e-01 | 1 | 0.8934442 | 1.000000e+00 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 0.9345428 | 1.000000e+00 | 0 | 1 | 1 | 2 | 0.3098394 | 5.269243e-01 | 0 | 1 | 1 | 2 | 0.1516497 | 6.476706e-01 | 0 | 1 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 0.6323661 | 8.972937e-01 | 2 | 0.4298153 | 7.762725e-01 |
KO富集圈图:(第一圈:富集前20的pathway,圈外为基因数目的坐标尺。不同的颜色代表不同的A class; 第二圈:背景基因中该pathway的数目以及Q值。基因越多条形越长,Q值越小颜色越红; 第三圈:该pathway差异基因数量 第四圈:各pathway的RichFactor值(该pathway中差异数量除以所有数量),背景网格线,每一格代表0.1)
Fig 5-4-1 KO 富集圈图
KO富集气泡图:(利用Q值最小的前20个pathway来作图,纵坐标为pathway,横坐标为富集因子(该pathway中差异数量除以所有数量),大小表示数量多少,颜色越红Q值越小)");
Fig 5-4-2 KO富集气泡图
KO富集条形图:(利用Q值最小的前20个pathway来作图,纵坐标为pathway,横坐标为该pathway数目占所有差异数目的百分比,颜色越深Q值越小,柱子上的数值为该pathway数量及Q值");
Fig 5-4-3 KO富集条形图
Reactome数据库汇集了部分物种各项反应及生物学通路。我们将基因向Reactome数据库(https://reactome.org/)的各term映射,并计算每个term的基因数,从而得到具有某个Reactome功能的基因列表及基因数目统计。然后应用超几何检验,找出与整个基因组背景相比,在基因中显著富集的Reactome条目。
Reactome富集圈图:(第一圈:富集前20的Reactome通路,圈外为基因数目的坐标尺。 第二圈:背景基因中该Reactome通路的数目以及Q值。基因越多条形越长,Q值越小颜色越红; 第三圈:该Reactome通路差异基因数量 第四圈:各Reactome通路的RichFactor值(该Reactome通路中差异数量除以所有数量),背景网格线,每一格代表0.1)
Fig 5-5-1 Reactome 富集圈图
Reactome富集气泡图:(利用Q值最小的前20个Reactome通路来作图,纵坐标为Reactome通路,横坐标为富集因子(该Reactome通路中差异数量除以所有数量),大小表示数量多少,颜色越红Q值越小)");
Fig 5-5-2 Reactome富集气泡图
Reactome富集条形图:(利用Q值最小的前20个Reactome通路来作图,纵坐标为Reactome通路,横坐标为该Reactome通路数目占所有差异数目的百分比,颜色越深Q值越小,柱子上的数值为该Reactome通路数量及Q值");
Fig 5-5-3 Reactome富集条形图

通过string数据库[11],我们可以获得上调基因构建蛋白质互作关系信息(3.MarkerGene/String),然后利用Cytoscape构建蛋白质互作网络图。
注:依据系统配置及浏览器不同,如果标记基因数量过多该图可能不能正常加载,请使用桌面版Cytoscape软件
Cytoscape官方手册:http://manual.cytoscape.org/en/stable/index.html
Cytoscape使用教程:http://www.omicshare.com/class/home/index/classdetail?id=14

基于传统的超几何检验的富集分析,往往需要用到显著差异基因集数据。当单个基因变化较为微弱时,基于传统富集分析得到结果可能会很少,甚至没有结果。GSVA分析(Gene Set Variation Analysis)[12]能够有效弥补传统富集分析对微效基因的有效信息挖据不足等问题,更为全面地对某一功能单位的调节作用进行解释。GSVA分析反映了某一个细胞亚群相对于所有细胞过表达的通路信息。GSVA原理如下:
我们对MSigDB数据库的八个数据集的每个通路进行GSVA分析
MSigDB数据库各数据集在各细胞富集程度表:
Fig 6-0-1 各个亚群中的富集分数热图
转录因子是调控基因表达的重要元件,其表达情况与细胞的下游基因表达和上游表观调控息息相关。为了方便转录因子分析的进行,我们使用animalTFDB(对动物样本)或者plantTFDB(对植物样本)对样本中所有有表达的转录因子进行注释。
使用TMHMM预测基因的跨膜结构域。
常规样本中,仅干细胞、祖细胞、癌细胞等具备增殖分化潜力的细胞才具有细胞分裂的能力,即处于细胞周期中。我们通过周期蛋白在细胞中的表达情况对细胞所处的细胞周期进行评分,以此直观体现各个样本中的细胞分裂/增殖活性。
![]() |
| Fig 9-1-1 不同样本的细胞周期指数评估 |
每一个细胞周期都有特征表达的周期蛋白,通过每个细胞周期的特征周期蛋白[22],我们可以对细胞的各个细胞周期进行评分,通过评分,我们可以推测细胞所处的细胞周期:
![]() |
![]() |
|
| Fig 9-2-1 不同样本的不同细胞周期细胞的数量堆叠图 | Fig 9-2-2 不同样本的不同细胞周期细胞的数量比例堆叠图 | |
![]() |
| Fig 9-2-3 不同细胞周期细胞的tSNE分布 |
![]() |
| Fig 9-2-4 Seurat分群与细胞周期推断对应circos图 |
细胞周期推断是基于每个细胞周期的特征周期蛋白基因在细胞中的表达量,利用软件预测的结果。那么我们就可以通过观察细胞周期特征基因的表达分布,对预测结果进行初步验证,这个过程即为周期蛋白基因分布可视化。
周期蛋白基因:CellCycle.genes.xls
| G1 | S | G2 | M |
|---|---|---|---|
| Ccne1 | Abcc5 | Arl4a | Ahi1 |
| Ccne2 | Asf1b | Aurkb | Akirin2 |
| Cdc25a | Atad2 | Brd8 | Anln |
| Cdca7 | Brca1 | Bub3 | Anp32e |
| Dtl | Cdkn2aip | Casp3 | Arl6ip1 |
| Ints8 | Cenpq | Ccdc107 | Asxl1 |
| Ivns1abp | Crebzf | Ccna2 | Aurka |
| Mcm2 | Donson | Ccnf | Birc2 |
| Mcm6 | Dscc1 | Cdc25c | Birc5 |
| Nasp | E2f8 | Cdca2 | Bub1 |
| Plcxd1 | Exo1 | Cdca3 | Ccnb2 |
| Skp2 | Ezh2 | Cdca8 | Cdc20 |
| Slbp | Fen1 | Cdk1 | Cdc25b |
| Ung | Hells | Cdkn1b | Cdc27 |
| Zranb2 | Mastl | Cdkn2c | Cenpa |
| - | Pkmyt1 | Cenpl | Cenpe |
| - | Rbbp8 | Ckap2 | Cenpf |
| - | Rfc2 | Ckap2l | Cep55 |
| - | Rrm2 | Dcaf7 | Cit |
| - | Usp1 | Espl1 | Ckap5 |
热图可以同时展示大量基因在每个细胞中的表达量及其在细胞群体中的分布情况。使用热图展示周期蛋白基因在不同细胞周期的表达量,可以看到各时期特征蛋白基因相对集中表达在对应的时期中,是对细胞周期推断结果准确性的验证。
![]() |
Fig 9-3-1 周期蛋白基因在不同细胞周期的表达量热图![]() |
细胞亚群鉴定是进行单细胞转录组分析的最基础一步,是赋予细胞数据以生物学意义的关键过程。细胞亚群鉴定主要借助marker基因在各个细胞亚群的表达情况来判断细胞亚群所属细胞类型。按照marker基因的查询方式,我们通常会遇到三种情况:
(1)人、小鼠常见组织的细胞类型注释。如今已经建立了许多数据库用以收集marker基因信息,例如Cell Marker(人、小鼠,http://bio-bigdata.hrbmu.edu.cn/CellMarker/),panglaoDB(人、小鼠,https://panglaodb.se/),MCA(小鼠,http://bis.zju.edu.cn/MCA/)。根据数据库内容,我们可以快速锁定组织类型和细胞类型,并获取相关的marker基因。
(2)人、小鼠罕见组织、稀有细胞类型及其他模式物种的细胞类型注释。这一类细胞通常没有成型的数据库可以快速查询。此时,我们需要从已有的单细胞文章、细胞生物学文章和分子生物学文章找寻相关细胞类型的marker基因。在找寻marker基因时,优先考虑荧光定量PCR(qPCR)和RNA荧光原位杂交(FISH)的结果,因为这些技术直接体现mRNA的表达水平,更容易在scRNA-seq数据中找到表达量分布情况;次级考虑蛋白免疫印迹(western blot)、流式细胞术(FAC)和免疫荧光(IF)的结果,因为蛋白水平和mRNA水平并不是完全同步的,可能出现蛋白高丰度但是mRNA低丰度的情况,使得scRNA-seq不具有相应marker基因的表达分布。
(3)人和模式物种的新细胞类型及非模式物种的细胞类型注释。这一类细胞通常缺乏前人的研究基础,无可直接利用的marker基因。为了完成细胞亚群注释,我们可以使用同源比对的方式将基因比对到具有marker基因信息的近缘物种上,然后使用同源比对得到的marker基因用于注释细胞亚群。当然,细胞类型最终是与细胞功能相关的,我们也可以通过细胞亚群上调基因的功能注释或富集的功能通路来确定细胞功能,并结合生物学背景推测细胞亚群所属的细胞类型。
细胞分化相关分析一直是研究人员广泛关注的问题,其与胚胎发育、组织修复、疾病发生等多个研究领域紧密相关。单细胞转录组的特征是获得了大量细胞的转录本“快照”,记录了样本中所有细胞的转录本,其中包含了多功能性较强的干细胞、过渡阶段的中间细胞和发育成熟的功能细胞,这为细胞分化相关分析提供了基础。
拟时分析通过分析关键基因的表达模式,将所有细胞按照发育时间的先后排布在拟时间轴上,模拟发育过程中的细胞分化过程。通过对细胞轨迹的分析,我们可以挖掘出细胞分化过程中经历的细胞类型变化、伴随发育过程变化的动态变化基因、祖细胞不同的分化命运等与生命发育息息相关的信息。
胚胎干细胞、肿瘤细胞、生殖细胞、植物根尖、芽尖等细胞除了具备多功能性的分化能力以外,还需具备自我增殖能力。而在增殖过程中,细胞进程必然涉及细胞周期。
细胞周期分析必然在细胞鉴定之后,对具有增殖能力的细胞进行细胞周期分析才具有切实的生物学意义。通过早期的细胞周期研究,我们已知了若干与细胞周期各个时期相关的周期蛋白基因,通过这些基因的表达情况,我们可以进一步推测细胞所处细胞周期。
对细胞周期的分析,既可以深入探索与细胞周期进行有关的新的标记基因,也可以侧面反映样本的细胞更新活性,对样本的表型做出关联解释。
细胞周期分析目前只能分析人和小鼠,其他物种可以同源比对,但存在一定误差。
单细胞转录组数据的特点是数据庞大,同一个细胞通常带有细胞类型、样本属性、表型特征等多级注释信息,导致单细胞转录组分析时可以进行比较方式多样而繁复。极高的复杂程度需求有效的简化方式。
权重基因共表达网络分析(weighted gene co-expression network analysis, WGCNA)可以将大量的基因简化成少量的具有相同表达模式的模块,并进一步找到与表型相关性最高的基因模块。这一分析极大得简化了数据挖掘过程,有利于从具有复杂样本设计和细胞组成的样本中快速锁定核心基因。
转录因子是重要的基因调控元件,在外界刺激中,表达量一般优先发生变化,并进一步调控下游基因的表达完成对刺激的响应。所以,转录因子与靶基因之间具备潜在的共表达关系。
借助这一个基础,我们可以使用软件SCENIC将转录因子和靶基因构建为一个网络单位,通过对网络单位的表达活性的分析来研究不同细胞类型之间的转录调控差异。这种差异同时体现在转录因子的表达情况和转录因子的功能特性(靶基因的表达情况)上,对细胞的表型变化会有更加全面的解释度。
目前转录因子分析只能做人、小鼠和果蝇,其他物种的分析流程待开发。
多细胞生命体的正常运转离不开多种细胞类型之间的有序合作,生命体的表型变化也不应该是由单一细胞类型的功能决定的。所以,为了获得更具有解释力的分子机制,我们往往需要从细胞间的分子信号交互去解释表型变化。
细胞通讯分析从细胞的配体-受体表达情况去推测细胞类型之间的互作关系。这些互作关系体现了下游细胞的激活、细胞信号转导和靶向细胞的杀伤,在宿主免疫、肿瘤微环境等领域都有广泛的应用前景。
目前细胞通讯分析理论上只能做人的,小鼠基因可以比对到人数据库进行参考分析,其他物种需要提供配受体信息数据库才能进行。
结果文件夹 ├── 1.Expression 定量结果文件夹 │ ├── barcode_plot 有效细胞鉴定图文件夹 │ │ └── *.barcode_plot.{pdf,png} 有效细胞鉴定图 │ ├── CellRanger_Report Cell Ranger报告文件夹 │ │ └── CellRanger.*.result.html Cell Ranger count结果报告 │ ├── expressions 表达量结果文件夹 │ │ ├── * 各样本结果文件夹 │ │ │ ├── expression.xls 表达量矩阵表 │ │ │ ├── barcodes.tsv 细胞barcode ID表 │ │ │ ├── genes.tsv 基因ID与名称表 │ │ │ └── matrix.mtx 表达量稀疏矩阵 │ │ └── *.expression.demo.xls 表达量矩阵示例表 │ ├── samples.align.stat.xls 各样本比对结果统计表 │ └── samples.sequence.stat.xls 各样本测序数据统计表 ├── 2.Cluster 聚类结果文件夹 │ ├── 1.QC 质控结果文件夹 │ │ ├── AfterFilter.BasicInfo.merge.{pdf,png} 过滤后各个样本细胞基本信息的分布图 │ │ ├── AfterFilter.BasicInfo.nUMI-nGene.{pdf,png} 过滤后各个样本细胞基本信息的分布散点图 │ │ ├── AfterFilter.BasicInfo.nUMI-pMito.{pdf,png} 过滤后各个样本细胞基本信息的分布散点图 │ │ ├── AfterFilter.BasicInfo.PresetMarker.{pdf,png} 过滤后各个样本细胞中预设标记基因的表达量分布 │ │ ├── BasicInfo.merge.{pdf,png} 过滤前各个样本细胞基本信息的分布图 │ │ ├── BasicInfo.nUMI-nGene.{pdf,png} 过滤前各个样本细胞基本信息的分布散点图 │ │ ├── BasicInfo.nUMI-pMito.{pdf,png} 过滤前各个样本细胞基本信息的分布散点图 │ │ ├── BasicInfo.PresetMarker.{pdf,png} 过滤前各个样本细胞中预设标记基因的表达量分布 │ │ └── Filter.stat.xls 过滤前后各个样本中细胞数据量统计表 │ ├── 2.cluster 分群结果文件夹 │ │ ├── AllGene.avg_exp.annot.xls 基因在各个亚群中表达量的均值表 │ │ ├── Cells.cluster.list.xls 细胞与亚群对照表 │ │ ├── tSNE_*.{pdf,png} 各样本单细胞亚群分类tSNE图 │ │ └── tSNE.{pdf,png} 单细胞亚群分类tSNE图 │ ├── 3.cluster_stat 分群结果的统计结果文件夹 │ │ ├── Cluster.stat.inSamples.pct.{pdf,png} 各亚群中各个样本细胞数量百分比堆叠图 │ │ ├── Cluster.stat.inSamples.{pdf,png} 各亚群中各个样本细胞数量堆叠图 │ │ ├── Cluster.stat.bySamples.pct.{pdf,png} 各样本中各亚群细胞数量百分比堆叠图 │ │ ├── Cluster.stat.bySamples.{pdf,png} 各样本中各亚群细胞数量堆叠图 │ │ ├── Cluster.stat.Sample.xls 各样本中各亚群细胞数量统计表 │ │ ├── Cluster.stat.xls 细胞亚群分类结果统计表 │ │ ├── Cluster.cor.heatmap.{pdf,png} 各亚群相关性系数热图 │ │ ├── PresetMarker.Distribution.{pdf,png} 已知标记基因在各个细胞亚群中的表达分布 │ │ ├── PresetMarker.DotPlot.{pdf,png} 已知标记基因在各个细胞亚群中的表达分布气泡图 │ │ ├── PresetMarker.Heatmap.{pdf,png} 已知标记基因在各个亚群的表达量热图 │ │ └── PresetMarker.VlnPlot.{pdf,png} 已知标记基因在各个细胞亚群中的表达分布小提琴图 │ └── 4.CellAnnotation 单细胞亚群鉴定结果文件夹 │ ├── Cell.annotation.stat.xls 各样本在各个细胞类型中细胞数量统计表 │ ├── Cells.annotation.circos.{pdf,png} Seurat分群与singleR细胞鉴定对应circos图 │ ├── Cells.annotation.{pdf,png} 各细胞类型在tSNE图的分布 │ ├── Cluster.correlation.heatmap.{pdf,png} Seurat分群与singleR鉴定细胞类型相关性热图 │ ├── Cluster.sample.singleR.stat.pct.{pdf,png} 各细胞类型中各样本细胞数量百分比堆叠图 │ ├── Cluster.sample.singleR.stat.{pdf,png} 各细胞类型中各样本细胞数量堆叠图 │ ├── Cluster.stat.sample.singleR.xls 各样本在各个细胞类型中细胞数量统计表 │ ├── Sample.cluster.singleR.stat.pct.{pdf,png} 各样本中各细胞类型数量百分比堆叠图 │ └── Sample.cluster.singleR.stat.{pdf,png} 各样本中各细胞类型数量堆叠图 ├── 3.MarkerGene 亚群上调表达基因分析结果文件夹 │ ├── DeGene.list.xls 各亚群差异基因注释表 │ ├── DeGene.stat.{pdf,png} 各亚群上调基因数量统计柱状图 │ ├── DeGene.stat.xls 各亚群上调基因数量统计表 │ ├── Enrichment 上调表达基因富集分析结果文件夹 │ │ ├── GO GO功能富集分析结果文件夹 │ │ ├── KO KO功能富集分析结果文件夹 │ │ ├── DO DO功能富集分析结果文件夹 │ │ └── Reactome Reactome功能富集分析结果文件夹 │ ├── Plots 上调基因表达分布结果文件夹 │ │ ├── Top.DotPlot.{pdf,png} 标记基因表达分布气泡图 │ │ ├── Top.Heatmap.{pdf,png} 标记基因表达热图 │ │ ├── ExpPlot 标记基因表达分布图文件夹 │ │ ├── DensityPlot 标记基因表达分布密度图文件夹 │ │ └── ViolinPlot 标记基因表达分布小提琴图文件夹 │ └── String 蛋白质互作网络分析结果文件夹 │ ├── Top.aln.links.xls 标记基因与String蛋白对应表及析构关系表 │ ├── Top.edge.tsv Cytoscape绘图文件--连接信息文件 │ └── Top.node.tsv Cytoscape绘图文件--节点信息文件 ├── 4.GSVA GSVA分析 │ ├── *.gsva.xls 各细胞富集程度表 │ └── *.heatmap.cluster.{xls,pdf,png} 各个亚群中的富集分数热图 ├── 5.TF 转录因子注释结果文件夹 │ └── TF.annot.xls 转录因子注释表 ├── 6.CellCycle 细胞周期分析 │ ├── CellCycle.annot.xls 各细胞的细胞周期表 │ ├── CellCycle.boxplot.{pdf,png} 不同样本的细胞周期指数评估盒形图 │ ├── CellCycle.DotPlot.{pdf,png} 周期蛋白基因的分布气泡图 │ ├── CellCycle.Heatmap.{pdf,png} 周期蛋白基因在不同细胞周期的表达量热图 │ ├── Phase.stat.bySamples.pct.{pdf,png} 不同样本的不同细胞周期细胞的数量比例堆叠图 │ ├── Phase.stat.bySamples.{pdf,png} 不同样本的不同细胞周期细胞的数量堆叠图 │ ├── CellCycle.Cluster.tSNE.{pdf,png} 不同细胞周期细胞与分群的tSNE分布 │ └── CellCycle.Samples.tSNE.{pdf,png} 不同细胞周期细胞与样本的tSNE分布 ├── 7.RNAVelocity RNA速率分析 │ ├── velocity.trajectory.tSNE.{pdf,png} RNA速率轨迹图 │ └── velocity.tSNE.{pdf,png} RNA速率分布图 ├── index.html 单细胞分析结果网页版报告 ├── scRNA-seq_method.pdf 单细胞分析方法说明(英文版) └── src 网页版报告系统文件文件夹
scRNA-seq分析方法文档(英文):scRNA-seq_method.pdf
*.xls,*.txt :结果数据表格文件,文件以制表符(Tab)分隔。unix/Linux/Mac用户使用 less 或 more 命令查看;windows用户使用高级文本编辑器Notepad++ 等查看,也可以用Microsoft Excel打开。
*.png:结果图像文件,位图,无损压缩。
*.pdf:结果图像文件,矢量图,可以放大和缩小而不失真,方便用户查看和编辑处理,可使用Adobe Illustrator进行图片编辑,用于文章发表等。
如果您的研究课题使用了基迪奥的测序和分析服务,我们期望您在论文发表时,在Method部分或Acknowledgements部分引用或提及基迪奥公司。以下语句可供参考: