安东尼·n·戴维斯a、b
一个战略研究小组,测量和分析科学、阿克苏诺贝尔、代芬特尔,荷兰
b国家电力、可持续环境研究中心、学院计算、工程和科学,英国南威尔士大学
串联质谱1已经成为一种工具的首选微量化合物的识别,尤其是在代谢组学等丰富的数据环境和日益筛查在毒理学或法医调查。采用这种方法的好处在于低检测极限,从样本中提取定量信息的能力与多个分析物与不可能很难不可能清理选项co-eluting色谱的阶段。大多数这些技术严重依赖先验知识的电离作用资料分析物的研究。代谢物是潜在的未知,有可能诉诸观察数据库搜索的信号,然而,在这里,作为光谱分析在许多领域,缺少全面的参考数据库报道意味着光谱学工作者必须采取其他方法来确定新发现的化合物。半岛综合体育官方APP下载德甲本文考察问题的背景和小说solution-CSI: FingerID-which允许高度敏感的串联质谱分析(MS / MS)数据从常见的用于识别未知的分析物分子结构数据库参考光谱数据不可用。
串联质谱
所以,我们在谈论什么?串联质谱已经问世多年,部署在许多领域识别和量化分析物是不可能由单个探测器耦合质量色谱样品制备步骤。有一些常见的主要仪器配置取决于实验。图1从Rouessac和Rouessac2提供了一个通用仪器原理的仪器能够MS / MS实验使用三个四极。
图1所示。一个简单的示意图三重四极杆串联质谱仪。中间四极作为碰撞室。这些工具可以进行所有三种常见类型的MS / MS分析如图2所示。untargetted的代谢组学实验需要更高质量分辨率从Q-ToF或Orbitrap等。从引用复制2许可。©约翰威利和儿子。
图2。三个最常见的MS / MS实验初始电离作用后一步。1)扫描第一个四极而保持第二个固定在一个特定的产品离子;2)保持第一个四固定在一个特定的前体离子同时扫描第二获得一个完整的产品离子谱;或3)保持四极固定只允许特定的前体和产品离子对被探测到。
目标和没有针对性串联质谱分析
显然,一些实验显示在图2中需要先验知识的哪些您希望检测分析物和他们的主要和次要电离指纹。这些“目标”分析可以极其敏感和选择性等特定分析物的筛查在法医环境禁止物质或毒性筛选。这是那么有用在代谢组学研究等领域的新生物样本,绝大多数的代谢物观察最初是未知的。加里·帕蒂和同事3图在他们的论文中有一个简单的理解展示目标和没有针对性方法metabolomics-targeted回答问题扮演着不同的角色在特定的已知代谢物水平和样品没有针对性看全球样本和显示复杂的代谢轮廓MS / MS想象MS / MS标准的后续计量的基础支持物质识别。
CSI: FingerID支持没有针对性的解释MS / MS分析
塞巴斯蒂安薄满乐从席勒在耶拿大学,德国,与他的同事Kai Duhrkop和马文Meusel Juho Rousu信息技术研究所和沈Huibin芬兰阿尔托大学的芬兰,看着结构说明的问题造成的诸多串联质谱实验的结果缺乏高质量的参考MS / MS数据。描述的方法通过Patti-although最终提供好的results-relies参考标准材料的可用性对个人代谢物如果不是耗费时间。社区生成的失败很大,质量好的参考数据收集是加剧了巨大的仪器和样品制备技术的改进交付的仪器制造商。然而,它确实提供了一个很好的创新bioinformaticians猎场。
目前CSI: FingerID是建立在从以前的工作经验4在这个领域,有三个主要部分。之前看着未知谱,系统训练学习phase-calculating分裂树从已知参考光谱分裂树相似性以及PubChem (CACTVS)5和Klekota-Roth指纹6(见表1)。在当前版本中,每个分子预测的属性是一个单独的“支持向量机”(SVM)一起构成了神经中心的方法。svm收益率概率存在与否的一个特定的分子财产在任何给定的化合物基于MS / MS谱数据。
数据源 | 数量 | 使用 |
国民生产总值公共谱库6 | 4138年 | 培训光谱 |
3868年 | 验证光谱 | |
MassHunter取证/毒理学PCDL图书馆7 | 2120年 | 培训光谱 |
2055年 | 验证光谱 | |
MassBank8 | 625年 | 验证光谱 |
PubChem5 | 52926405年 40805940年 |
化合物 结构 |
PubChem过滤biodatabase9 | ~ 300000 268633年 |
化合物 结构 |
与系统训练,现在可以搬到新数据的实际分析。系统需要一个或多个MS / MS谱,未知的分析物的识别和计算未知所示的相似性对MS / MS光谱数据集训练集和分裂树。然后svm预测分子所有属性的存在与否对未知的化合物提供了一种概率指纹。
这个指纹可以用作搜索准则对PubChem等更大的分子结构的数据库。每个潜在的溶液化学结构都有其计算指纹得分对未知的向用户提供一个名单。
CSI: FingerID对现有方法验证和比较
对现有验证这种方法的预测算法,作者采取的正常步骤确保所有的化合物用于测试的第一阶段的训练数据集。10倍进行验证以确保没有重复批次包含相同的结构。作者提供了很多不同的统计测试他们针对早期版本的软件和其他方法这一任务。足以说,最新版本已经产生了2.5倍提高预测正确的分子结构MS / MS未知到34.4%在第一时间针对PubChem数据库结果列表和一个令人印象深刻的63.5%的未知MS / MS谱的正确结构预测前五支安打。这是一个非常强大的结果。9
第一阶段使用机器学习阶段不仅包括分裂树信息也参考,知道MS / MS数据集训练系统,作者还试图量化这个训练数据集的大小是如何改变了预测系统作为一个整体的能力。通过减少数量的参考数据,他们可以降低他们的预测能力,并进行一系列的实验来奇怪的结论,与有限的优质引用MS / MS数据可用,他们远未饱和的预测能力算法,每个额外的质量大约增加百分之一左右400参考数据集添加到系统中。
这个小明确呼吁更多的数据,再次可用!
试一下!
CSI: FingerID可供你尝试http://www.csi-fingerid.org/。有一个简单的用户界面(图3 - 5),我真的很喜欢能够使用演示运行步骤的序列数据快速允许用户看到他们应该输入什么。
图3 - 5。前:首先stage-input您的数据。中间:第二阶段,预测发动机工作可能的分子公式。底部:第三stage-Potential化合物从PubChem确定数据收集。
引用
- IUPAC,纲要的化学术语,2nd版(“金书”),由公元麦克诺特编制和a·威尔金森。布莱克韦尔科学出版物,牛津(1997);m .网卡j . Jirat和b . Kosata XML的在线修正版本,更新编制的a·詹金斯(2006)。doi:http://dx.doi.org/10.1351/goldbook
- f . Rouessac和a . Rouessac化学分析、现代仪器的方法和技术,2nd经济日报。约翰威利& Sons,图16.5,第401页(2007)。ISBN 978-0-470-85903-2
- G.J.帕蒂,o .燕和g . Siuzdak”创新:代谢组学:组学三部曲”的最高点,Nat。启摩尔。细胞杂志。263 - 269 (2012)。doi:http://dx.doi.org/10.1038/nrm3314
- 对薄和f . Rasche。新创鉴定代谢产物通过分析串联质谱”,生物信息学24 (16),i49-i55 (2008)。doi:http://dx.doi.org/10.1093/bioinformatics/btn270
- https://pubchem.ncbi.nlm.nih.gov/
- https://gnps.ucsd.edu/ProteoSAFe/libraries.jsp
- 安捷伦科技有限公司
- h . Horaiet al。“MASSBANK:一个公共存储库共享质量光谱数据为生命科学”,j .质量范围。45 (7),703 - 714 (2010)。doi:http://dx.doi.org/10.1002/jms.1777
- k . Duhrkop h .沈m . Meusel Rousu和美国离任,“搜索分子结构与串联质谱数据库使用CSI: FingerID”,Proc。国家的。学会科学。美国在出版社。doi:http://dx.doi.org/10.1073/pnas.1509788112