富集分析帮助文档

    在找到代谢物之后,对差异代谢物通过KEGG进行代谢物通路富集分析,可比较分析比较组间差异代谢物参与的最主要生化代谢通路和信号转导通路,有助于通路功能的研究。KEGG是有关Pathway的主要公共数据库,不仅包含基因信息,还包含了代谢物信息。 Pathway显著性富集分析以KEGG Pathway为单位,应用超几何检验,找出与全部代谢物背景相比,在差异代谢物中显著性富集的Pathway。 该假设检验的p-value计算公式如下:


    其中,N为所有背景代谢物中具有KO注释的代谢物数目;n为N中候选代谢物的数目;M为所有背景代谢物中注释为某特定pathway的代谢物数目;m为注释为候选代谢物中该特定pathway的代谢物数目。计算得到的pvalue通过FDR校正之后,以corrected-pvalue≤0.05为阈值,满足此条件的pathway定义为在候选基因中显著富集的pathway。通过KO功能显著性富集分析能确定候选代谢物行使的主要参与的最主要生化代谢途径和信号转导途径。     候选代谢物的Pathway显著性富集分析Pathway列表,点击其中的Pathway链接还将得到KEGG数据库中Pathway的详细信息

    具体pathway信息如下图所示,图中矩形为基因,圆圈为代谢,标上颜色的为检测到的代谢物,其中上调代谢物所在位置用红色标记,下调代谢物所在位置用绿色标记。



    差异代谢物的pathway富集分析结果如下表,文件为富集结果目录下xxx.path.xls:
    第一列:KEGG A级分类
    第二列:KEGG B级分类
    第三列:通路名称
    第四列:该比较组中注释到KEGG数据库的差异代谢物总个数(表头),以及注释到某条通路的差异代谢物数目
    第五列:能够注释到KEGG数据库的所有代谢物总个数(表头),以及注释到某条通路的代谢物数目
    第六列: 假设检验P值
    第七列: 多重检验校正后的Q值
    第八列: 通路ID(ko号)
    第九列:代谢物名字
    第十列:代谢物在KEGG数据库中的ID(C号)


    pathway富集结果气泡图:;Rich factor指差异代谢物中注释到该pathway的数目与所有代谢物中注释到该pathway的数目的比值。Rich factor越大,表示富集的程度越高。P value取值范围为0到1,越接近于零,表示富集越显著。


    Pathway富集柱状图如下图所示,黑色为KEGG一级通路,彩色为KEGG二级通路,数目为差异代谢物的数目