随着技术发展,我们可以同时进行多个水平生物指标的检测,如对同一系列样品进行物种丰度和代谢物丰度两个水平的检测。因此,为了更好的理解生物系统,需要不同组学数据的整合分析,以进行更深入的数据挖掘和信息提取。
O2PLS模型适用于两个组学数据的关联分析。该模型通过计算,将每个组学的数据都分解为三个部分,即关联部分(joint part,两组学共同对应变化,即有关联)、正交部分(Orthogonal part,两组学彼此正交,即互不相关)、噪音部分(noise part,冗余信息)。各部分对总变异的解释程度以R2表示,值越高表示模型的解释能力越好。模型的过拟合和不足都会降低R2。
每个部分包含一定数量的组分(component,类似PCA分析的主成分PC1、PC2)。每部分所包含的组分个数采用交叉验证法(cross-validation)评估设定。交叉验证法通过多次预建模,选择预测误差(prediction error)最小的模型进行后续分析。
变量(代谢物/物种)在各组分的解释能力(即贡献度)以载荷值(loading value)表示,载荷值绝对值的大小表示关联的强弱。
1)对两个独立数据集(X,Y,如物种和代谢物丰度数据)分别进行标准化,使总平方和为1,以消除组学数据数量级差异的影响,使统计分析更科学。
2)Cross-validation,确定组分个数。以关联部分组分个数a大于1,物种正交部分组分个数ax和代谢组正交部分组分个数ay大于0开始,进行多次不同数值组合的预建模,计算预测误差。
3)Fitting,最适建模。选取预测误差最小时,对应的组分个数n,nx,ny构建最适模型分析。
4)输出各部分贡献度,绘制载荷图。
Model:OTU/门/纲/目/科/属/种各水平微生物和代谢物的最适模型
n: 两组学关联部分组分个数
nx:物种正交部分组分个数
ny:基因正交部分组分个数
cv:最适模型的预测误差
Model:OTU/门/纲/目/科/属/种各水平微生物和代谢物的最适模型
R2x:物种关联和正交部分对物种总变异的解释度
R2y:代谢物关联和正交部分对代谢组总变异的解释度
R2xcorr:物种关联部分对物种总变异的解释度
R2ycorr:代谢物关联部分对代谢组总变异的解释度
物种和代谢物各自关联部分的载荷图,横轴为第一维坐标,纵轴为第二维坐标。图中圆点表示物种或代谢物,坐标的绝对值越大,表示此元素与另外一个组学的关联程度越大,排名前10的以红色圆点表示。
Metabolite:代谢物ID
Loading_1:一维loading值
Loading_2:二维loading值
第一列:物种名称
Loading_1:一维loading值
Loading_2:二维loading值
物种和代谢物关联部分的载荷图,横轴为第一维坐标,纵轴为第二维坐标。图中圆点表示物种或代谢物,在坐标中的绝对值越大,表示此元素与另外一个组学的关联程度越大。
Var1:代谢物名称
Var2:物种名称
cor:物种和代谢物的pearson系数
p_value:相关显著性p值
使用R语言pheatmap(https://CRAN.R-project.org/package=pheatmap) 包绘制微生物与物种的相关性热图。
横轴为物种,纵轴为代谢物。每个格子表示物种与代谢物的相关系数。颜色由白到红,表示正相关由弱到强;由白到蓝,表示负相关由弱到强。1个星号表示显著相关,P小于0.05;2个星号表示极显著相关,P小于0.01。
网络图可以展现处于重要关联位置的物种或代谢物,筛选相关系数绝对值大于0.5的物种与代谢物关系对,使用R语言igraph包(version 1.1.1)绘制网络图。