O2PLS模型介绍

随着技术发展，我们可以同时进行多个水平生物指标的检测，如对同一系列样品进行物种丰度和代谢物丰度两个水平的检测。因此，为了更好的理解生物系统，需要不同组学数据的整合分析，以进行更深入的数据挖掘和信息提取。

O2PLS模型适用于两个组学数据的关联分析。该模型通过计算，将每个组学的数据都分解为三个部分，即关联部分（joint part，两组学共同对应变化，即有关联）、正交部分（Orthogonal part，两组学彼此正交，即互不相关）、噪音部分（noise part，冗余信息）。各部分对总变异的解释程度以R2表示，值越高表示模型的解释能力越好。模型的过拟合和不足都会降低R2。

每个部分包含一定数量的组分（component，类似PCA分析的主成分PC1、PC2）。每部分所包含的组分个数采用交叉验证法（cross-validation）评估设定。交叉验证法通过多次预建模，选择预测误差（prediction error）最小的模型进行后续分析。

变量（代谢物/物种）在各组分的解释能力（即贡献度）以载荷值（loading value）表示，载荷值绝对值的大小表示关联的强弱。

OmicPLS包进行O2PLS模型分析的步骤

1）对两个独立数据集（X，Y，如物种和代谢物丰度数据）分别进行标准化，使总平方和为1，以消除组学数据数量级差异的影响，使统计分析更科学。

2）Cross-validation，确定组分个数。以关联部分组分个数a大于1，物种正交部分组分个数ax和代谢组正交部分组分个数ay大于0开始，进行多次不同数值组合的预建模，计算预测误差。

3）Fitting，最适建模。选取预测误差最小时，对应的组分个数n，nx，ny构建最适模型分析。

4）输出各部分贡献度，绘制载荷图。

O2PLS最适模型信息统计

Model：OTU/门/纲/目/科/属/种各水平微生物和代谢物的最适模型

n：两组学关联部分组分个数

nx：物种正交部分组分个数

ny：基因正交部分组分个数

cv：最适模型的预测误差

O2PLS模型贡献度统计

Model：OTU/门/纲/目/科/属/种各水平微生物和代谢物的最适模型

R2x：物种关联和正交部分对物种总变异的解释度

R2y：代谢物关联和正交部分对代谢组总变异的解释度

R2xcorr：物种关联部分对物种总变异的解释度

R2ycorr：代谢物关联部分对代谢组总变异的解释度

两组学O2PLS载荷图

物种和代谢物各自关联部分的载荷图，横轴为第一维坐标，纵轴为第二维坐标。图中圆点表示物种或代谢物，坐标的绝对值越大，表示此元素与另外一个组学的关联程度越大，排名前10的以红色圆点表示。

代谢组数据的loading分值表

Metabolite：代谢物ID

Loading_1：一维loading值

Loading_2：二维loading值

微生物数据的loading分值表

第一列：物种名称

Loading_1：一维loading值

Loading_2：二维loading值

两组学关联载荷图

物种和代谢物关联部分的载荷图，横轴为第一维坐标，纵轴为第二维坐标。图中圆点表示物种或代谢物，在坐标中的绝对值越大，表示此元素与另外一个组学的关联程度越大。

微生物与代谢物pearson系数列表

Var1：代谢物名称

Var2：物种名称

cor：物种和代谢物的pearson系数

p_value：相关显著性p值

两组学相关性热图

使用R语言pheatmap（https://CRAN.R-project.org/package=pheatmap）包绘制微生物与物种的相关性热图。

横轴为物种，纵轴为代谢物。每个格子表示物种与代谢物的相关系数。颜色由白到红，表示正相关由弱到强；由白到蓝，表示负相关由弱到强。1个星号表示显著相关，P小于0.05；2个星号表示极显著相关，P小于0.01。

两组学相关性网络图

网络图可以展现处于重要关联位置的物种或代谢物，筛选相关系数绝对值大于0.5的物种与代谢物关系对，使用R语言igraph包（version 1.1.1）绘制网络图。