安东尼·n·戴维斯a、bJan Gerretzen一个和Henk-Jan范-梅南一个
一个专家能力,测量和分析科学,Nouryon化学品BV,代芬特尔,荷兰
b国家电力、可持续环境研究中心、学院计算、工程和科学,英国南威尔士大学
在最近的一次国际会议,我参加了一个很好的演讲,一个科学家使用离子迁移谱(IMS)在食品分析应用程序。在说话的时候,一个幻灯片提到他们Savitzky-Golay平滑IMS数据,开始我不知道。我问他们为什么决定他们需要光滑的IMS数据和被告知他们这对红外光谱通常只是应用IMS数据。
我认为更好的方法可能是决定数据处理是什么真正需要并能够证明额外的数据操作步骤的改进分析品质因数,例如。你真的需要开始接受,您刚刚测量光谱数据不是一击中的。现在测量数据不足的质量必须扮演的角色可以有任意多个好(“好”不可避免的)理由一样糟糕。
为什么我的原始数据没有击中?
一个常见的原因是你没有足够的样品。这可能是不可避免的,如果不是更多,但也可以出现故障期间准备足够的业者。令人意外的是,它通常是值得回到样品的来源,只是问如果你能有一个特定的数量要求进行分析。这有时会导致5公斤袋材料需要处理的工作,但是要记住在许多设置进行抽样的人通常工作在吨毫克。缺乏样本数量也可以使分析问题的答案不可靠,如果你没有足够的执行full-method复制的错误的分析提供一个良好的估计结果。fuller讨论抽样和错误,看到抽样列在这个问题。
另一个可能出现不足够关注光谱仪的分辨率设置仪器或方法运行。注意仪器的设置是自动为每个数据点他们平均几个扫描记录以及数据点被记录的实际数量的宽度最窄的谱峰。根据正在使用的光谱仪类型,采取设置记录过高分辨率意味着每个光谱扫描时间变得长是否需要一个合理的信噪比。这也会导致问题如果光谱仪容易漂移,意义没有无限的时间用于每一个独立的测量。
用连字符连接的方法,如气相色谱法/离子迁移谱法(GC / IMS)数据引发了本文中,这项决议的考虑还包括样本分离步骤的时间轴(图1)。
图1所示。有些典型的GC / IMS分析运行显示相对复杂形状相比,红外光谱峰值。半岛综合体育官方APP下载德甲
通过引入更快速终极高性能液相色谱(UPLC®或UHPLC)系统,花了多少努力提高的速度附加光谱仪能够扫描。这是,这样可以得到充分的数据点正确定义每个峰值,由于分析物被洗脱下来,列快一个数量级,交付更窄,更强烈的山峰。
通常情况下,一个系统被研究正在改变,因为它是衡量这个动态变化是你学习。显然每个独立测量的可用时间是限制系统的速度变化,所以它不可能获得许多扫描每个时间点以达到良好的信噪比。
审查由恩格斯和同事总结的一些问题,导致对光谱数据预处理去除不必要的文物的需求数据集标题下的噪声、基线偏移和倾斜光散射时间和光谱偏差、正常化、缩放和element-wise转换、监督预处理方法,最后用连字符连接技术的文物。1这是一个很好的起点,如果你想更深入的主题比这列的空间允许。作者承认是多么极其困难,以确定哪些方法或预处理方法可以成功地应用。重要的是要考虑到特定的数据集特征强调文物的鉴定中存在哪些属性的光谱数据是相当重要的,不容忽视的这个选择预处理策略。
光谱数据预处理方法:或“我老板叫我去做”综合症
在一些实验室有偏好进行某些类型的预处理作为标准,其中包括标准订购的预处理步骤。这些往往是多年来流传下来,这些工作流的原始原因不再被当前的实验室工作人员。
Jan Gerretzen和同事工作在荷兰奈梅亨大学的海岸计划开展一些工作,试图消除周围的“黑魔法”选择的数据预处理步骤,他们应该的顺序执行。他们采取了不同的基线系统的实验设计方法,分散、平滑和缩放预处理步骤参考数据集在乳胶监控(量化丙烯酸丁酯和苯乙烯)以及玉米含水率数据集。2在另一份报告是测试数据的方法从一个近红外(NIR)光谱仪监测氢氧化钠,NaOCl和Na2有限公司3氯气的浓度在废物处理系统(Cl2)生产设施。这个工厂的废气废水含有氯,它是通过碱洗塔的废气含有氢氧化钠是一个解决方案。3
选择预处理策略
经常课本或光谱数据处理软件包将描述个人预处理算法的影响。然而,很少有支持的后果在数据分析应用多个预处理步骤。应用的预处理步骤的顺序也剧烈影响的质量分析,更不用说每个步骤的参数化如何影响后续步骤或最终结果。
表1显示了实验设计中使用这种方法。选择全因子设计来评估每个预处理步骤的影响。的响应变量测量模型的改进是预测的均方根误差数据预处理步骤。
表1。数据预处理实验设计源自参考1。
实验 |
基线 |
散射 |
平滑 |
扩展 |
1 |
是的 |
是的 |
是的 |
是的 |
2 |
是的 |
是的 |
是的 |
没有 |
3 |
是的 |
是的 |
没有 |
是的 |
4 |
是的 |
是的 |
没有 |
没有 |
5 |
是的 |
没有 |
是的 |
是的 |
6 |
是的 |
没有 |
是的 |
没有 |
7 |
是的 |
没有 |
没有 |
是的 |
8 |
是的 |
没有 |
没有 |
没有 |
9 |
没有 |
是的 |
是的 |
是的 |
10 |
没有 |
是的 |
是的 |
没有 |
11 |
没有 |
是的 |
没有 |
是的 |
12 |
没有 |
是的 |
没有 |
没有 |
13 |
没有 |
没有 |
是的 |
是的 |
14 |
没有 |
没有 |
是的 |
没有 |
15 |
没有 |
没有 |
没有 |
是的 |
16 |
没有 |
没有 |
没有 |
没有 |
图2显示了如何关闭快速设计的实验方法来确定各种预处理的最佳序列和参数化策略,识别相比的绝对最佳策略取决于蛮力数字运算的每一个可能的变量(超过5000)计算所需的解决方案。
图2。实验设计方法的成功应用光谱数据预处理模型优化(数据来自参考3)报告的工作。
大多数作者强调这样一个事实:他们的工作只能被视为适用于类型的数据和特定类型的样本分析。在文献[1]中,应用程序的变量选择和数据预处理只观察改善模型性能时同时进行2,结论是,虽然具体的“最好的”数据预处理的解决方案被发现,这项工作的更普遍的适用性是在定义一个成功的通用方法,科学地确定最佳的光谱数据预处理方法使用。
彼得·柏克校园看着光谱预处理对红外和拉曼光谱技术在生物医学领域的振动光谱和microspectroscopic成像。半岛综合体育官方APP下载德甲4技术包括清理数据集(异常值检测)、正常化,过滤,消除长期趋势、转换ATR校正和“特性”的选择进行了讨论。这篇文章包含一些有趣的解释图形和再讨论水蒸气修正,不同的策略正常化,基线校正和数据过滤噪声去除或光谱分辨率增强(使用导数的过滤器)。Raman-specific光谱数据预处理也是解决,包括宇宙射线的去除等主题的文物和荧光背景信号。作者承认,预处理步骤的组合通常需要获得最好的结果和惋惜的稀疏系统调查的有效性的不同方法预处理工作流应用的特定需求后续定量或分类分析方法研究。作者承认,这是一个主要的适应和优化这些工作流数据分析任务,但这仍然是一门艺术而不是一门科学!
数据平滑
通常用来减少随机噪声进一步数据积累是不可能的。根据数据集数据平滑会损坏数据集导致扭曲的结果。一些典型的数据平滑方法包括移动平均的数据点,点的数量平均可调并Savitsky-Golay平滑,适合一个多项式的数据集。在Savitsky-Golay多项式平滑的顺序可以改变(一阶=移动平均)以及数据拟合的范围。
ATR校正
不仅纠正中光谱采样使用衰减全反射(ATR)技术的穿透深度依赖与频谱的频率有关。它并不试图正确样品折射率差异和水晶会导致“衍生物比如光谱。
乘法散射校正(MSC)
Rinnan和同事花了一个关键看一系列的NIR光谱预处理方法最优化模型包括一组scatter-corrective预处理方法包括乘法散射校正使用引用数据集。半岛综合体育官方APP下载德甲他们也研究了不同预处理方法对预测结果的质量影响了六个不同的光谱仪使用过滤器,色散和傅里叶变换技术。哪个组合应用预处理他们最多只能达到25%的改进预测错误和警告的结论与错误相关的风险设置窗口大小或平滑函数的参数。5
导数过滤器
相当受欢迎的预处理策略提高了复杂的光谱分辨率协助识别重叠峰,也有助于最小化基线效应的影响。仪器获得信号在时域,如傅里叶变换红外光谱仪存在一些技术应用过滤器提高分辨率和减少噪声在时域数据转换到频域。
结论
我认为很明显,我们常常限制从测量我们的任务和理想的光谱数据预处理可以消除或减轻因不得不处理的一些问题最优测量。然而,它同样清楚的是,这些预处理步骤需要进行与我们睁大眼睛、后问题做了一些思考。可用的计算能力现在一般还允许我们使用实验设计方法来找到最好的预处理策略为我们的特定的数据集和这预处理策略需要重新为每个单独的问题,而不是盲目地复制对面一个光谱领域到另一个。
引用
- j·恩格尔,j . Gerretzen大肠Szyman´平方公里列阵,J.J. Jansen, g .唐尼l .睡衣和L.M.C. Buydens,趋势肛门。化学。50岁,96 - 106 (2013)。https://doi.org/10.1016/j.trac.2013.04.015
- j . Gerretzen大肠Szyman´平方公里列阵,j .巴特A.N.戴维斯周宏儒。范-梅南,雌激素受体van den Heuvel, J.J.詹森和L.M.C. Buydens,肛交。詹。学报938年,44 e52 (2016)。https://doi.org/10.1016/j.aca.2016.08.022
- j . Gerretzen大肠Szyman´平方公里列阵,J.J. Jansen, j·巴特,周宏儒。范-梅南,雌激素受体van den Heuvel和L.M.C. Buydens,肛交。化学。87年,1209612103 (2015)。https://doi.org/10.1021/acs.analchem.5b02832
- p•柏克校园Chemometr。智能。实验室系统。117年,100 - 114 (2012)https://doi.org/10.1016/j.chemolab.2012.03.011
- 一个。Rinnan, f . van den Berg S.B. Engelsen,趋势肛门。化学。28 (10),1201 - 1222 (2009)。https://doi.org/10.1016/j.trac.2009.07.007