1.功能显著性富集分析

Gene Ontology(简称GO)是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词汇表(controlled vocabulary)来全面描述生物体中基因和基因产物的属性。GO总共有三个ontology(本体),分别描述基因的分子功能(molecular function)、细胞组分(cellular component)、参与的生物过程(biological process)。GO的基本单位是term(词条、节点),每个term都对应一个属性。

GO功能分析一方面给出差异表达蛋白的GO功能分类注释;另一方面给出差异表达蛋白的GO功能显著性富集分析。

首先,我们将差异表达蛋白向GO数据库(http://www.geneontology.org/)的各term映射,并计算每个term的蛋白数,从而得到具有某个GO功能的蛋白列表及蛋白数目统计。然后应用超几何检验,找出与整个背景蛋白相比,在差异表达蛋白中显著富集的GO条目,该假设检验的p-value计算公式为:

其中,N为所有背景蛋白中具有GO注释的蛋白数目;n为N中差异表达蛋白的数目;M为所有背景蛋白中注释为某特定GO term的蛋白数目;m为注释为某特定GO term的差异表达蛋白数目。计算得到的pvalue通过Bonferroni校正之后,以corrected-pvalue≤0.05为阈值,满足此条件的GO term定义为在差异表达蛋白中显著富集的GO term。通过GO功能显著性富集分析能确定差异表达蛋白行使的主要生物学功能。

我们的GO功能分析同时整合了表达模式聚类分析,研究人员能方便地看到具有某一功能的所有差异蛋白的表达模式。例,secondary metabolic process 为在差异表达蛋白中最显著富集的一个GO term。

GO 分类表说明:

2.Pathway显著性富集分析

在生物体内,不同蛋白相互协调行使其生物学,基于Pathway的分析有助于更进一步了解蛋白的生物学功能。KEGG是有关Pathway的主要公共数据库。

Pathway显著性富集分析以KEGG Pathway为单位,应用超几何检验,找出与背景蛋白相比,在差异表达蛋白中显著性富集的Pathway。

该假设检验的p-value计算公式同GO功能显著性富集分析的相似,在这里N为所有背景蛋白中具有Pathway注释的蛋白数目;n为N中差异表达蛋白的数目;M为所有背景蛋白中注释为某特定Pathway的蛋白数目;m为注释为某特定Pathway的差异表达蛋白数目。计算公式如下:

经过多重检验校正后,选择Qvalue≤0.05的Pathway定义为在差异表达蛋白中显著富集的Pathway。这里的Q-value为FDR校正后p值。。

通过Pathway显著性富集能确定差异表达蛋白参与的最主要生化代谢途径和信号转导途径。

差异表达蛋白的Pathway显著性富集分析不但得到最有意义的Pathway列表,点击其中的Pathway链接还将得到KEGG数据库中Pathway的详细信息,如点击上表第一列第五行的Oxidative phosphorylation,可以看到如下图所示的详细信息,上调蛋白所在位置用红色标记,下调蛋白所在位置用绿色标记。

Pathway注释表说明: