O2PLS模型介绍

随着技术发展,我们可以同时进行多个水平生物指标的检测,如对同一系列样品进行物种丰度和代谢物丰度两个水平的检测。因此,为了更好的理解生物系统,需要不同组学数据的整合分析,以进行更深入的数据挖掘和信息提取。

O2PLS模型适用于两个组学数据的关联分析。该模型通过计算,将每个组学的数据都分解为三个部分,即关联部分(joint part,两组学共同对应变化,即有关联)、正交部分(Orthogonal part,两组学彼此正交,即互不相关)、噪音部分(noise part,冗余信息)。各部分对总变异的解释程度以R2表示,值越高表示模型的解释能力越好。模型的过拟合和不足都会降低R2。

每个部分包含一定数量的组分(component,类似PCA分析的主成分PC1、PC2)。每部分所包含的组分个数采用交叉验证法(cross-validation)评估设定。交叉验证法通过多次预建模,选择预测误差(prediction error)最小的模型进行后续分析。

变量(代谢物/物种)在各组分的解释能力(即贡献度)以载荷值(loading value)表示,载荷值绝对值的大小表示关联的强弱。


OmicPLS包进行O2PLS模型分析的步骤

1)对两个独立数据集(X,Y,如物种和代谢物丰度数据)分别进行标准化,使总平方和为1,以消除组学数据数量级差异的影响,使统计分析更科学。

2)Cross-validation,确定组分个数。以关联部分组分个数a大于1,物种正交部分组分个数ax和代谢组正交部分组分个数ay大于0开始,进行多次不同数值组合的预建模,计算预测误差。

3)Fitting,最适建模。选取预测误差最小时,对应的组分个数n,nx,ny构建最适模型分析。

4)输出各部分贡献度,绘制载荷图。


O2PLS最适模型信息统计

Model:OTU/门/纲/目/科/属/种各水平微生物和代谢物的最适模型

n: 两组学关联部分组分个数

nx:物种正交部分组分个数

ny:基因正交部分组分个数

cv:最适模型的预测误差


O2PLS模型贡献度统计

Model:OTU/门/纲/目/科/属/种各水平微生物和代谢物的最适模型

R2x:物种关联和正交部分对物种总变异的解释度

R2y:代谢物关联和正交部分对代谢组总变异的解释度

R2xcorr:物种关联部分对物种总变异的解释度

R2ycorr:代谢物关联部分对代谢组总变异的解释度


两组学O2PLS载荷图

物种和代谢物各自关联部分的载荷图,横轴为第一维坐标,纵轴为第二维坐标。图中圆点表示物种或代谢物,坐标的绝对值越大,表示此元素与另外一个组学的关联程度越大,排名前10的以红色圆点表示。


代谢组数据的loading分值表

Metabolite:代谢物ID

Loading_1:一维loading值

Loading_2:二维loading值


微生物数据的loading分值表

第一列:物种名称

Loading_1:一维loading值

Loading_2:二维loading值


两组学关联载荷图

物种和代谢物关联部分的载荷图,横轴为第一维坐标,纵轴为第二维坐标。图中圆点表示物种或代谢物,在坐标中的绝对值越大,表示此元素与另外一个组学的关联程度越大。


微生物与代谢物pearson系数列表

Var1:代谢物名称

Var2:物种名称

cor:物种和代谢物的pearson系数

p_value:相关显著性p值


两组学相关性热图

使用R语言pheatmap(https://CRAN.R-project.org/package=pheatmap) 包绘制微生物与物种的相关性热图。

横轴为物种,纵轴为代谢物。每个格子表示物种与代谢物的相关系数。颜色由白到红,表示正相关由弱到强;由白到蓝,表示负相关由弱到强。1个星号表示显著相关,P小于0.05;2个星号表示极显著相关,P小于0.01。


两组学相关性网络图

网络图可以展现处于重要关联位置的物种或代谢物,筛选相关系数绝对值大于0.5的物种与代谢物关系对,使用R语言igraph包(version 1.1.1)绘制网络图。