數據分析
多變量統計方法可以達到降維的目的,并且不受變量多重共線性的限制。
譜圖經過一定的前處理,然后進行分段積分,通常一張譜圖會分成上千個積分段,每一段就是一個變量,每個樣本的特征就由這些變量來共同定義的。
在積分數據用于多變量分析之前,先要對數據進行歸一化(normalization)和標準化(scaling)處理。
代謝組學數據分析中常用的多變量統計分析方法主要包括主成分分析(principal component analysis,PCA),偏最小二乘判別分析(partial least squares discriminant analysis,PLS-DA)和正交化偏最小二乘判別分析(orthogonal projection to latent structure discriminant analysis,OPLS-DA)。
在代謝組學研究中,由于樣本量有限,通常使用內部驗證方法對模型的有效性進行檢驗。常用的內部驗證方法有交叉驗證(cross-validation,CV)、排列實驗(permutation test)和CV-ANOVA(varianceanalysis of the cross-validated residuals)。
經過驗證確實有效的模型,可以通過提取其第一主成分找到對組間區分貢獻大的變量,即發生顯著性變化的代謝物。變量是否對組間區分有顯著性貢獻通過變量與第一主成分得分值的Pearson 相關系數r 來確定,根據樣本量和r 臨界值表來確定P < 0.05 時具有統計學顯著性的臨界值。第一主成分的載荷(loading)經過回溯轉換,采用Matlab 軟件等可以繪制出相關系數負載圖。


