經典重讀丨Anal Chem代謝組學分析流程
自1999年代謝組學誕生以來,每年發表的代謝組學研究的文章數量都在不斷增加,在疾病診斷、藥物研發、食品安全、環境科學等諸多領域都有極其廣泛的應用,我司精心挑選了一批代表性的科學文獻,逐一重讀,帶你用一杯茶的時間,理解近20年來的代謝組學技術進展和重要應用。
在“組學”技術中,代謝組學的分析發展產生了深遠影響,由于代謝物的不同理化性質及濃度范圍,需要更加強有力的分析策略。來自西班牙圣帕布洛大學(Universidad San Pablo CEU),波蘭格但斯克醫科大學(Medical University of Gdańsk)和波蘭比亞韋斯托克醫科大學(Medical University Of Białystok)的研究者們于2020年在Analytical Chemistry上發表代謝組學分析流程最新進展綜述,具體內容包括(1)樣品收集和制備(2)分析工具以及(3)數據挖掘策略和化合物鑒定的新趨勢。文章標題“Recent Developments along the Analytical Process for Metabolomics Workflows”,原文鏈接:https://doi.org/10.1021/acs.analchem.9b04553。
一、樣品收集
制定和優化樣本收集和處理的標準操作程序對于獲得可靠數據以及在涉及不同生物樣本庫分析的流行病學規模的代謝組學研究中至關重要。
1.血液、血漿和血清
血液、血漿和血清是代謝組學分析使用最廣泛的基質,用于疾病研究以揭示潛在的生物標志物。盡管目前已有標準化的血液樣本采集方案,但針對非靶向代謝組學研究的最佳策略仍在爭論中。一些研究對血漿和血清樣本進行了基于LC-MS的靶向代謝組學分析,探究樣本類型和收集管選擇對代謝物絕對濃度的影響,發現血清樣本中的代謝物濃度高于檸檬酸鹽血漿和EDTA血漿。此外,如果儲存不當,許多代謝物水平特別是一些脂類,如溶血磷膽堿和鞘磷脂,在樣本采集后30分鐘內會發生變化。
近年來發展了一些新的采樣技術,如體積吸收微量采樣技術(Volumetric absorptive microsampling,VAMS),用于收集固定體積(10 μL,20 μL和30 μL)包括血液在內的各種生物體液,其對靶向和非靶向代謝組學研究的適用性仍在評估中。為了克服傳統靜脈穿刺術的主要缺點,開發了使用友好且無痛的觸摸激活靜脈切開術(Touch-activated phlebotomy,TAP),對45種代謝物的靶向LC−MS分析表明,45種代謝物中有39種,包括大多數氨基酸、膽汁酸、N,N-二甲基-L-甘氨酸、三甲胺N-氧化物、葡萄糖、乳酸和酰基肉堿,在來自傳統血液采集和TAP采集的樣品中具有可比性,而半胱氨酸、還原型谷胱甘肽、琥珀酸和尿酸的水平有顯著差異。在最近的一項研究中,采用了干血斑甲醇提取方法用于高通量、基于芯片的nano-ESI-MS分析,耗時短,溶劑消耗最少,無過載情況。
在常規臨床環境中正確收集的任何血液樣本,包括最初為其他目的收集的血液樣本,都可能被用于差異分析的代謝組學。然而,重現性在樣品收集和制備中至關重要。因此,強烈建議遵循可靠的標準操作規程。
2.尿液
就穩定性而言,尿液樣本應始終保存在低于-20°C的溫度下。考慮臨床條件,尿樣可以在−20°C或更低的溫度下保存少于30天,長期保存建議−80°C。
3.組織
使用組織樣本的代謝組學的第一個挑戰是樣本的異質性,對于特定區域的代謝,必須特別小心。大腦是最復雜的器官之一,由于許多病理現象僅限于特定的區域。例如,神經原纖維纏結是阿爾茨海默病的主要特征之一,主要位于海馬體和大腦的皮質/邊緣區域。其他異質性組織如肝和肺。
第二個挑戰是通過使內源性酶失活來有效地抑制正在進行的代謝反應。盡管有不同的樣本保存方法,但最普遍的方法是在液氮(-196℃)中速凍。組織樣本采集的一個內在因素是許多代謝物的變化,因為合成代謝反應在死后到組織收集的時間段內停止,分解代謝反應不會。代謝組學分析不僅有助于揭示個體死亡后組織內可能的變化,還有助于法醫學、癌癥和移植研究。
4.糞便
在了解腸道微生物對健康的廣泛影響的同時,糞便代謝組學也引起了越來越多的關注,因為糞便是一種非侵入性的基質,代表了腸道中消化過程的最終產物。對于人體研究,志愿者可以使用消毒的廣口塑料袋或容器(例如Fecotainer)等工具自行收集糞便樣本,且應在采集樣本前接受指導,以避免糞便被水、尿液或衛生紙污染。在任何生物基質的代謝組學研究中,樣本儲存都是至關重要的,糞便也不例外。因此,在采集樣品后,必須立即將樣品放置在密封、絕緣的容器中,并在2小時內送到實驗室,在−80℃下儲存,防止微生物發酵。
多個因素包括飲食暴露、運動、藥物、一天中的時間和大便本身的異質性,將影響基于糞便的代謝組學研究結果。因此,最佳策略需要將新鮮樣本直接在運輸容器中勻質,然后在將樣本放置在−80°C之前等分為多份,避免凍融循環。由于糞便粉末具有吸濕性,稱量時必須小心。
5.細胞
細胞單細胞培養是生物材料的重要來源,是生物體液和組織的替代品。代謝組學領域對代謝調節的研究一直集中在這類樣本上。然而,關于細胞代謝組學的最佳工作流程,如收集、淬滅和代謝物提取,缺乏共識。在代謝組學研究中,胰酶消化法和刮取法是兩種廣泛使用的獲取貼壁生長細胞的方法。有研究在比較了刮取法和胰酶消化法收集貼壁細胞(HeLa和MCF7)以及凍融循環和玻璃微珠作為細胞裂解策略后得出結論:刮取和凍融循環相結合是利用同位素標記LC-MS分析貼壁哺乳動物細胞代謝組學的最佳方法。另一個可能對細胞代謝組學研究有重大影響的關鍵因素是傳代次數。Abdul-Hamid等人用物理刮刀和胰酶消化的方法收集三種傳代次數(9,12和14)的RAW 264.7細胞,并通過1H NMR分析。結果表明,傳代次數越多,三羧酸循環和糖酵解所涉及的氨基酸和代謝物水平越低。另一方面,收集方式對甲硫氨酸和半胱氨酸途徑以及甘油磷脂代謝也有影響。因此,作者提出,傳代次數較少(<9P)的胰酶消化的原始細胞更適合于基于1H NMR的代謝組學。
盡管在前面描述的研究中使用了胰酶消化,但有報道發現在細胞胰酶消化過程中發生了代謝物滲漏,因此必須謹慎使用這種方法,而這種滲漏主要是由于收集過程本身的破壞性。
基于細胞的代謝組學研究的一種潛在的最佳工作流程可能包括首先通過熒光激活細胞分選(Fluorescence-activated cell sorting,FACS)分離感興趣的細胞類型,然后在細胞裂解之前淬滅細胞代謝。然而,細胞中代謝物水平可能在細胞分選到淬滅的時間段內發生改變。LluFrio等人發現,FACS誘導星形膠質細胞氧化應激,改變了細胞的氧化還原狀態,改變了近一半檢測到的代謝物的信號強度。主要的發現是改變了谷胱甘肽二硫化物(GSSG)與谷胱甘肽(GSH)、NADPH與NADP+、NAD+與NADH的比率,同時發現參與TCA循環、糖酵解和磷酸戊糖途徑的氨基酸、酰基肉堿等代謝物水平的降低。相反,FACS-星形膠質細胞的尿苷和肌苷水平升高。作為這項研究的繼續,Binek等人進行了多平臺(液相色譜-質譜、氣相色譜-質譜和毛細管電泳-質譜)代謝組學分析,以研究流式細胞儀對C57BL/6小鼠腹膜巨噬細胞代謝組的影響。作者評估了免疫染色、FACS以及這兩種技術結合的效果,并與對照組的細胞進行了比較。結果表明,FACS至少影響10%檢測的代謝物,包括甘油磷脂、脂肪酰基、脂肪酸酯、氨基酸(及其衍生物)、甘油脂和鞘脂。這些變化與FACS在細胞代謝組中誘導的物理應激有關,包括誘導炎癥樣狀態,涉及Ca2+信號和磷脂酶A2移位到細胞膜。此外,細胞能量消耗的改變,導致細胞損傷,也被發現潛在地破壞細胞的動態平衡。
二、樣品處理
關于代謝物的提取,建議根據代謝物的極性指數和logP范圍選擇提取溶劑。不同極性的混合溶劑在一次提取中可覆蓋更多的代謝物,用不同的混合溶劑提取多次可進一步提高提取效率。
近年來發展了許多關于樣品制備分析的新方法,如體外液體萃取表面分析(In vitro liquid
extraction surface analysis,ivLESA),可在抽吸培養基后對貼壁細胞直接進行nano-ESI-MS分析。類似的LESA-nano-ESI-MS已被用于細胞脂質組成研究。解吸電噴霧電離(Desorption electrospray
ionization,DESI)能夠以最少的制備直接分析生物基質,但局限性之一是非極性化合物的電離效率很低。為了克服這個問題,已經開發了一種基于光電離的正電化組件(DESI/PI)來促進解吸的中性代謝物的二次電離。
最近新型樣品基質如胎盤組織、骨骼、視神經、母乳、外淋巴液等已被用于代謝組學,每種基質都需要獨特的條件來進行最佳勻質、代謝物提取和分析。
任何儀器技術的進步,如超高效液相色譜或高分辨質譜,都可提供更多和更高質量的信息。
非靶向代謝組學可以作為一種發現和產生假設的工具,其主要目標不是定量,而是以半定量的方式對兩個或兩個以上的組別進行差異分析。然而,由于無法獲得代謝物的定量水平,代謝組學最近的一種趨勢是通過靶向方法獲得高代謝物覆蓋率,這種方法有不同的名字如大規模靶向代謝組學(Large-scale targeted metabolomics),廣泛靶向代謝組學(Widely targeted metabolomics)等。
研究者們通常考慮不同方法的組合以獲得更高的代謝物覆蓋率。當分析物數量增加時,一些化合物可能具有非常相似的結構和相同的質荷比,因此必須進行色譜分離。在這種情況下,通常需要延長色譜分離時間以提高分離度。此外,大多數靶向方法使用三重四極桿,為要測定的不同化合物設置不同的MRM通道,因此代謝物的數量越多,MRM通道數就越多,方法的靈敏度可能會受到影響。有兩種方法可以克服這一挑戰。一是將一個分析方法中的MRM通道拆分成多個分析方法,一個樣品進樣多次,但這會影響方法的通量。另一種方法是增加難檢測代謝物的MRM通道的駐留時間(Dwell Time),避免創建多個方法。然而,駐留時間的過度增加會使每個峰的點數減少。
除此之外,在一個方法中測定多個代謝物還面臨其他兩個挑戰:定量和克服基質效應。根據是否定量可將代謝組學分為靶向代謝組學和非靶向代謝組學,又可將靶向代謝組學進一步細分為三種策略。一是當有已知濃度或純度的標準品時,可進行靶向定量分析(Targeted Quantitative Analysis),提供的最終結果是樣品中代謝物的真實濃度。使用穩定同位素內標可以克服基質效應,但局限在于可獲得的標準品及同位素內標數目有限或價格昂貴。二是當待分析的代謝物標準品無法獲得,使用其他結構類似物作為內標的靶向估計分析(Targeted Estimative Analysis),所獲得的結果是真正濃度的估計。三是靶向比較分析(Targeted Comparative Analysis),當標準品和結構類似物均無法獲得,唯一的選擇是比較信號強度,包括處理組樣品和對照組樣品的比較以及單個樣品和混合樣品比較。
1.氣相色譜-質譜
氣相色譜-質譜聯用(Gas chromatography-mass spectrometry,GC-MS)是代謝組學中一項非常重要的技術,用于分析易揮發的化合物,但存在峰容量有限,峰重疊嚴重的問題。在此基礎上發展了全二維氣相色譜(GC×GC),經第一根色譜柱分離流出的化合物進入第二根色譜柱實現二次分離。基于GC×GC的非靶向代謝組學已用于細菌、尿液、血清和血漿、植物等不同基質,然而GC×GC方法在方法學標準化、數據解析和結果一致性方面仍存在局限,阻礙了該技術充分發揮其潛力。
2.毛細管電泳-質譜
毛細管電泳-質譜(Capillary electrophoresis-mass spectrometry,CE-MS)已被用于代謝組學研究,用于分析各種復雜的生物樣品,檢測極性和離子化合物。目前,CE−MS被認為是其他技術如HPLC−MS、GC−MS和NMR的補充,進一步提高代謝物的覆蓋率。
電噴霧電離(Electrospray ionization,ESI)是最常見的用于CE和MS耦合的軟電離技術。然而,CE−MS耦合本身并不簡單,它需要毛細管末端的導電液體保持電流并獲得兼容的電位,以形成穩定的電噴霧。表1列出了2018年至2019年7月報道的CE−MS在生物樣品靶向和非靶向代謝組學中的相關研究。
盡管包括大量樣本的代謝組學研究的數量有所增加,但這些研究仍然有限。由于CE−MS分離效率很高,非常適合小樣本隊列的代謝組學研究(≈100),然而,它在大規模人群隊列研究中的可靠性仍然存在爭議。因此,Harada等人的研究可以被認為是一個里程碑。他們通過分析8413個血漿樣本以獲得來自日本人群的人類血漿樣本代謝圖譜,檢驗了CE−MS在大規模測量中的重復性和有效性。在這項工作中,對80種極性代謝物進行了結構鑒定和定量,在質控樣品中的變異系數低于30%。這些結果證明了CE−MS平臺在進行大規模隊列研究方面的能力。
3.離子遷移譜
在基于質譜的代謝組學研究中,盡管應用不斷增加,儀器不斷進步,仍有許多因素限制了代謝物鑒定。離子遷移譜(Ion mobility spectrometry,IMS)提供了額外的分離維度,并且工作在毫秒內,可以幫助代謝物鑒定。此外,離子遷移允許測量碰撞截面(Collision cross-section,CCS),這是一個比保留指數更具重現性的正交分析參數,可以和保留時間以及精確分子量信息結合使用,獲得代謝物的特性。
近年來,IMS-MS有了相當大的進步,主要分類有漂移時間離子遷移譜(Drift-time ion mobility spectrometry,DTIMS)、行波離子遷移譜(Traveling wave IMS,TWIMS)、高場不對稱波形離子遷移譜(High-field asymmetric waveform ion mobility spectrometry,FAIMS或DMS)、捕獲離子遷移譜(Trapped IMS,TIMS)等。對于代謝組學分析,TWIMS和DTIMS是最常用的IM類型,FAIMS和TIMS在小分子分析方面也具有巨大的潛力。表2總結了使用不同類型的IMS的最新代謝組學研究。
在所有這些文章中,離子遷移率的加入可以更好地分離共洗脫化合物,降低噪音,更好地分離同分異構體和碎片離子。然而,由于商業儀器相對較新,需要改進軟件能力,以便能夠通過建立和使用CCS數據庫有效地提取多維數據和處理CCS值。
4.手性分析
許多生化過程不僅包括內源化合物,還包括外源化合物和微生物代謝物等,表現出立體特異性,這些類型化合物的分析需要有效的分離方法。由于樣品的復雜性和對映體的分離,二維液相色譜(Two-dimensional liquid chromatography,2D-LC)特別適合手性代謝組學,但主要缺點是數據管理和分析時間長(>1h)。
關于手性代謝組學的靶向或非靶向的方法,通常基于一組具有相同官能團的化合物或者和某條代謝途徑相關的代謝物。非靶向或大規模的手性代謝組學研究在文獻中并不常見。手性代謝物的準確定量需要使用內標來克服基質效應引起的離子抑制,可使用同位素標記衍生化的方法,目前已開發了很多手性或非手性同位素標記衍生化試劑。
四、數據處理
由質譜產生的數據是龐大且復雜的,因此需要大量的算法和工作流程處理和分析獲得的大量信息。圖1展示了代謝組學數據特征及數據處理策略。
圖1.代謝組數據組成、數據質量提高策略和變量選擇步驟
1.提高數據質量
數據清洗
高質量數據的重要性不言而喻,因此,代謝組學數據清洗是必要的。這種策略的主要好處是為相關特征建立數據歸一化參數。綜合的數據預處理和降噪算法以及多種數據篩選策略可以有效地提高總體數據質量。
數據標準化
雖然數據標準化的概念是已知的,但在代謝組學數據背景下,仍不夠明確。考慮到可用算法的多樣性以及關于系統偏差來源的有限信息,為給定的數據集選擇最佳方法是一項重大挑戰,也是目前代謝組學數據預處理的主要障礙。已經提出了幾種基于不同原理的標準化策略,這些策略旨在消除由實驗源(例如,實驗偏差、信號漂移、樣品降解、測量變化、進樣體積變化和樣品提取效率)和生物變異(例如,生物體液濃度變化、不同細胞大小和不同樣品測量)引起的混淆。經常在基于MS的非靶向代謝組學中觀察到儀器響應的系統性變化,批次內和批次間效應都會降低統計效能,并對報告結果的重復性和再現性產生負面影響,阻礙數據解釋。然而,LC-MS代謝組學數據暴露于由以下原因引起的特定的變異源:(I)MS源中污染物的累積,(II)源自流動相組成和制備的雜質或變異性,(III)分析柱性能,或(IV)樣品基質復雜性的差異,因此,需要更有效的批次校正策略。在假設QC響應與進樣順序無關的情況下,基于QC重復分析的算法是最推薦的方法之一。
任何校正方法都應謹慎使用,因為可能會嚴重影響潛在生物標志物的選擇,并可能導致錯誤的結論。因此,最優方案的選擇必須依賴于數據,滿足實驗設計的標準和研究目的。
2.變量/特征選擇
生物標志物的主要作用是區分不同的組別,例如,健康和疾病。因此,選擇攜帶相關生物信息的變量是代謝組學工作流程中最重要和最具挑戰性的任務之一。目前已經開發了許多單變量或機器學習方法,如聚類、回歸或分類,以幫助將組學數據轉化為實際的臨床應用。這些方法可以分為(I)特征子集選擇方法(刪除不起作用或多余的變量)和(II)特征提取方法(創建原始變量的組合作為新特征,以降低所選變量的維度)。表3提供了相關算法的概述。此外,特征選擇可以使用非監督模型或監督模型。多變量分析方法,如無監督主成分分析或有監督偏最小二乘法,已成為代謝組學的標準程序。然而,最近在代謝組學研究中報道了越來越多的嵌入式方法,如隨機森林(RF)、神經網絡或最小絕對值收斂和選擇算子(LASSO)方法,以及許多其他基于機器學習算法的方法。
五、代謝物注釋和鑒定
根據所采用的分析技術,代謝物鑒定工作流程存在較大差異。
1.GC-EI-MS
GC-MS通常配備EI作為電離源,分子碎裂模式高度可重復。此外,根據保留時間可以很容易地計算保留指數。目前基于GC-MS數據的代謝物鑒定有較完善的方法,GC-MS數據庫包含單同位素質量、碎裂模式和保留指數等信息。
代謝物注釋通常使用商業化數據庫,如NIST,Wiley,MoNA和Fiehn;開源數據庫,如GOLM或者自建庫。基于GC-MS的非靶向代謝組學在代謝物注釋方面已經取得了重要進展,但在未知代謝物鑒定方面仍有許多目標需要實現。
2.LC-ESI-MS和CE-ESI-MS
在代謝物鑒定方面,CE-MS和LC-MS的重現性不如GC-MS,這主要是由于ESI源可能產生加合物、二聚體和碎片(包括源內裂解),導致了一種本質上不同的代謝物鑒定方法。近年來,代謝組學許多化學信息學和生物信息學工具已經取得了巨大進步,為闡明未知化合物結構提供了有力支持(如圖2所示)。
圖2.代謝物注釋和鑒定的時間軸及軟件工具的開發
專門用于代謝組學研究的數據庫在21世紀初創建,最初只提供化合物的m/z和結構(The Cyc Collection,Metlin,LIPID MAPS,HMDB,或KomicMarket)(見圖2,第0類)。然而,實驗測到的化合物數量并不能覆蓋完整的代謝組,因此,開發了一些從已知的代謝物生成合理結構的工具(MINE和BioTransformer)。
代謝組數據庫開發的下一階段是包括碎片相關的信息,允許搜索譜圖(XCMS,HMDB或MassBank)(見圖2,第1類)。然而,由于標準品的數量有限,不可能獲得這些數據庫中存在的大多數化合物的實驗數據。因此,創建了不同的工具和方法來預測不同實驗條件下的碎裂譜圖(MetFrag,MAGMa,MyCompoundID,CFM-ID,或CSI:FingerID)(見圖2,第2類)。
由于相似的結構通常具有相似的碎裂模式,代謝物的鑒定仍然缺乏信心,因此使用正交信息注釋和鑒定代謝物。例如,化合物的疏水性決定了它在色譜柱上的保留時間或毛細管電泳中的遷移時間。應用正交信息注釋代謝物的另一個例子是評估一種化合物可能形成的離子(加合物、多電荷、二聚體等)。這種正交信息已逐漸包含在代謝物注釋和識別工具(MZeDB,CAMERA,MetFrag,LipidBlast,iMeT,CMM)中(見圖2,第3類)。
最近,開發了一些包括生物體不同代謝物之間生物關系的工具(MassTRIX,GNPS,xMSannotator,BioCAn,NAP,ADAPTIVE,MetDNA、MolNetEnhancer,或MetNet)(見圖2,第4類)。
代謝物注釋和鑒定數據庫逐漸包含了更多關于化合物的信息。研究代謝物網絡和評估推定注釋之間的關系是最近創建或更新工具的發展趨勢。當使用更多的信息進行代謝物注釋時,代謝組學實驗將獲得更高的置信度。
此外,可用于進行代謝物注釋和鑒定的大量工具(本綜述包括41個,但這個數字正在指數級增加)使得用戶需要學習多種不同語言,如R、Python、Web應用程序和獨立應用程序,因此出現了集成代謝組學實驗所有階段使用的不同工具的框架或工作流(Workflow4Metabolomics,Taverna和KNIME)。
同時,開源數據庫(XCMS、MassBank、MetabolomicsWorkbench和GNPS)的存在使研究人員能夠傳播獲得的信息,與代謝組學領域的其他研究者共享。這些數據庫承諾以更標準化的方式呈現結果,并有機會在后續實驗中使用其他研究人員的數據來改進注釋和鑒定。然而,大量用戶上傳關于相同代謝物的相同或非常相似的信息可能會使數據難以使用。由于專門用于不同代謝物類型、方法或目的的數據庫之間重疊較少,用戶友好和免費訪問不同的數據源至關重要。
結論
分析化學的概念正在發展,包括非靶向、差異分析和半定量分析。在進行差異分析時,會通過統計分析來消除可能影響所有比較樣本的因素,從這個意義上說,它們的嚴格控制并不關鍵。同時,這并不意味著代謝組學可以被用作一個黑匣子,在黑匣子里輸入樣本,按下儀器上的按鈕,軟件平臺自動提供結果。在處理未知因素時,深入了解分析的目標、樣本、分析工具,以及數據挖掘和代謝物鑒定策略,對于獲得有意義的結果至關重要。



