新文速遞丨J Hazard Mater污水樣本非靶檢測與快速分析
前言
殺蟲劑、藥物、工業化學品等環境污染物在水樣中無處不在,盡管濃度很低,但其高毒性仍然對生活在水系統中的生物和人類社會構成了極大威脅。污染物檢測和鑒定往往通過液相色譜與高分辨率質譜聯用的非靶向分析(NTA)進行。但一個復雜的環境或生物樣品會產生上千個特征,質譜會篩選出大量候選化合物,對候選化合物的優先級排序極其重要也極具挑戰性。
2023年4月,復旦大學環境科學與工程系方明亮教授團隊與新加坡南洋理工大學李光前醫學院王玉蘭團隊在《Journal of Hazardous Materials》期刊上發表題為“An automated toxicity based prioritization framework for fast chemical characterization in non-targeted analysis”的研究成果。該研究使用光譜匹配、保留時間預測、毒性預測和ToxPi 評分進行計算融合,通過自動化 R 包工作流程 NTA prioritization.R 簡化了費力的優先級排序,以減少特征數量,從而可以快速識別出對環境或人類構成風險的污染物。原文鏈接:https://doi.org/10.1016/j.jhazmat.2023.130893。
研究亮點
1)使用組合算法(多個過濾器條件)對污染物進行優行級排序
2)光譜匹配、保留時間預測、毒性預測的集成式工作流程
3)使用R自動化排序優先級,極大提高效率
4)能對污水樣本中約7000種候選污染物進行優先級排序
研究思路
作者建立了如圖1所示的工作流程包括(A)使用數據非依賴采集(DIA)模式通過 LC-HRMS 分析樣品,(B)對采集后的原始數據進行解卷積,并通過實驗或計算機質譜庫搜索生成候選列表,(C)使用隨機森林預測模型預測候選化合物的保留時間,根據用戶定義的光譜匹配分數和保留時間預測閾值,候選化合物被優先劃分為4個級別(RT-MS/MS水平1-4),(D)根據 EPA TEST 軟件預測用戶定義的6個端點毒性閾值和 ToxCast毒性數據庫搜索的ToxPi 評分,候選化合物被優先劃分為3個級別(毒性水平1-3),(E)最后通過結合 RT-MS/MS 水平和毒性水平,將候選化合物按優先級降序排列為5個等級。
圖1基于 NTA 的優先級排序工作流程
首先,作者將獲取的原始數據在 Waters Progenesis QI 軟件的協助下分六個步驟進行預處理,如圖2所示:(A)正模式下的峰提取(B)峰比對(C)解卷積(D)多變量分析(E)Progenesis MetaScope 的譜庫搜索和 MS/MS 譜圖匹配(F)建立包含化合物名稱、化合物ID、中性質量、m/z、保留時間等信息的化合物候選列表。
圖2對原始數據預處理獲取候選列表的工作流程
接著,作者使用基于保留時間和分子特性以及分子結構之間的定量結構保留關系(QSRR) 的隨機森林回歸模型預測候選化合物的 RT。將146 種化合物的實測保留時間根據75:25的比例進行模型訓練和測試,使用基于R平臺的化學開發工具包(rCDK),基于簡化的分子輸入線輸入系統(SMILES)計算分子描述參數。SMILES被解析后用于計算每個化合物286個化學描述參數,通過消除空值、常量值和高度相關的描述參數(R2>0.9),剩余的166個化學描述參數導入到建模功能中,用于超參數優化。作者使用遞歸特征消除和10倍交叉驗證來優化描述參數的數量,最終根據均方根誤差(RMSE)最低選擇了25個最重要的描述參數用于模型訓練,在模型訓練期間使用了10 倍交叉驗證提供更可靠的預測。
最后,作者使用EPA TEST和ToxCast對主要環境化學品進行毒性預測,如急性毒性、致癌性、生殖毒性和其他對水生環境的毒性。測試毒性包括FMLC50、DMLC50、TPIGC50、ORLD50、DT、AM、ToxPi。作者使用的數據庫中六個不同終點的毒性是實驗測定和計算機預測毒性的整合,整體的預測準確度在0.62-0.79。
研究結果
候選化合物列表的數據預處理
作者根據圖2所示的研究思路從預加標污泥水樣品中發現了137個與對照組有顯著差異的峰,并進行了多變量分析(圖2D)。使用QI中的EPA ToxCast、EPA DSSTox、NIST、NIST Spectral、NIST MS/MS、MoNA數據庫進行匹配分析,不同數據庫匹配到的候選化合物數量不一致,未匹配到的光譜則用計算機預測MS2光譜(圖2E-2F)。匹配時根據質量誤差、同位素分布相似性和碎裂譜圖評分,按照一定的比例加權求得最終得分。作者建立了一套自動化工作流程整合來自不同數據庫的所有候選化合物,對同一峰值具有相同 SMILES 的候選化合物被整合到最終列表中。實現了最初的 6982 個候選化合物被縮減為 4185個,以進一步確定優先順序。
用隨機森林模型進行RT預測
基于之前研究的模型,通過隨機森林算法進行特征選擇建立QSRR 的線性回歸模型,在這項研究中,作者進一步應用隨機森林算法來預測保留時間,開發了一個用于特征選擇和超參數優化的自動化工作流程。選擇了 146 種 FDA 藥物進行模型訓練,以預測未知化合物在反相 LC 系統中的保留時間。預測模型在測試數據中的線性相關性 R2 = 0.86 (p = 2.4e-11),平均絕對誤差 (MAE) 為 1.00 分鐘(圖3A)。進一步對 28 種化學標準品的實驗保留時間進行評估,預測顯示出良好的準確性,中位預測誤差為 1.11 分鐘,平均預測誤差為1.14 分鐘(圖 3B)。
通過 RT 預測和 MS/MS 光譜匹配確定優先級
在這項研究中,作者通過 MS/MS 光譜匹配分數和保留時間預測,提出了一個將可能的候選化合物初步劃分為 4 個 RT-MS/MS 級別的優先級程序。對于保留時間預測,作者將閾值ΔRT定義為實驗保留時間和預測保留時間之間的差異,由模型的最大預測誤差決定,在該研究中為1.0分鐘。MS光譜匹配的得分范圍從0到60,將得分閾值設置為30、35和40,從而將候選化合物分為四類,合并的分類級別見圖3C。如圖3B所示,通過文庫搜索RT=9.0分鐘的峰值來獲得四個候選化合物,通過計算ΔRT和MS光譜匹配得分,a、b、c、d四個候選化合物分別被歸為了RT-MS/MS 1級、2級、3級、4級。作者將這種優先級排序策略應用于污泥水樣本的候選列表,之前的4185個候選化合物,其中1821、1382、728、253個候選化合物分別在RT-MS/MS 1級、2級、3級、4級,還有1個候選化合物不可用于RT預測。
圖3保留時間 (RT) 預測模型開發流程
使用六個毒性終點和ToxPi評分進行毒性優先級排序
為提高有毒化學品的覆蓋率,作者引入了6個關鍵毒性終點和基于ToxCast數據庫的ToxPi評分在R程序中進行應用。用戶可以根據其主要風險問題從任何毒理學終點提取數據。ToxCast 數據庫中有 8845 種化合物具有可用的毒性。通過毒性排序,作者將候選化合物分為 3 個毒性水平:1 級至 3 級(圖4B)。為了演示作者根據可用的毒性終點 ORLD50對 2779個候選化合物進行了優先排序,ORLD50 的計算結果如圖 4B 所示,大多數候選化合物在此毒性終點顯示中等毒性,范圍從1到5.06。為了驗證,作者添加了28個化學標準品,包括不同毒性的農藥,并在候選名單中發現了21種添加的化學物質。敵敵畏和氰草津被列為1級毒性,其余加標的化合物被歸類為2級毒性(圖4C)。
圖4毒性水平及毒性水平排序示例
結合毒性水平和RT-MS/MS水平確定最終優先順序
作者進一步將毒性水平與RT-MS/MS水平相結合,以提供最終的候選優先順序列表。其目標是突出候選化合物中的有毒化合物。根據作者的算法候選化合物被劃分為5級:1級到5級(圖5A),例如1級候選化合物具有毒性水平1級和RT-MS/MS水平1級。基于作者的算法,有毒候選化合物可以根據其識別置信度進行優先排序,以便進一步驗證。
作者以ORLD50終點毒性為例,根據RT-MS/MS水平和毒性水平,從6982個候選化合物的原始列表中對2779個候選化合物進行了優先排序。另增加了28個化學標準,根據工作流程對其中的21個進行了優先排序。通過結合毒性水平和RT-MS/MS水平,敵敵畏和氰草津被列為1級候選化合物,其他化學品分別被列為3級(N=11)、4級(N=9)和5級(N=1)候選化合物(圖5B)。
為進一步詳細地演示優先排序工作流程,以m/z=238.0851、RT=7.6min為例演示候選化合物的優先排序(圖5C)。在6982個候選化合物原始列表中,保留了具有可用碎片化分數和預測保留時間的139個候選化合物。進一步計算了毒性水平和RT-MS/MS水平,排除沒有有效毒性和保留時間的候選化合物,對139個候選化合物中的78個進行了5級優先排序,其中1級、2級、3級、4級、5級分別有1個、2個、3個、36個、36個。鮮綠青霉素和3-氰基-4-聯苯-乙酸因為高毒性(Tox1級)分別被列為2級和3級候選化合物,作者列舉了排序最優先的5個候選化合物(圖5C)。用戶可以根據實際情況重新定義毒性分類的閾值,只要更適合進行化學優先排序。
圖5毒性水平結合RT-MS/MS水平確定最終優先順序示例
全文總結
這項研究為非靶向分析(NTA)中已知或未知化合物的鑒定提供了一種基于毒性的優先排序工作流程,可以極大地縮小數百至數千個候選化合物匹配范圍。作者對非靶向數據預處理后通過隨機森林模型預測化合物的保留時間,并通過結合保留時間預測、譜庫搜索進行的碎片光譜匹配來提供候選化合物的優先列表。基于QSRR的保留時間預測在MS/MS光譜匹配分數之上可以顯著減少候選化合物的數量,再結合化學毒性評估能夠對有毒化合物進行全面的優先排序。



