卡罗琳娜·s·席尔瓦,一个,* Maria Fernanda Pimentel,一个José曼纽尔·阿米戈,b卡门Garcia-Ruizc以及费尔南多·奥尔特加-奥赫达c
一个伯南布哥联邦大学化学工程系,Moraes Rego教授,1235 - Cidade Universitária,累西腓,巴西
b哥本哈根大学食品科学系,Rolighedsvej 30 - Frederiksberg C,哥本哈根,丹麦。电子邮件:(电子邮件保护)
c分析化学系,物理化学和化学工程系和大学警察科学研究所(IUICP), Alcalá大学,Ctra。马德里-巴塞罗那公里33.6,28871 Alcalá德埃纳雷斯(马德里),西班牙
简介
在法医文书鉴定领域,文书定年是一个主要的挑战,但仍缺乏有效的方法。墨水和纸张的种类繁多,加上不同的储存条件,在需要估计年代时,就产生了一个复杂的问题。虽然纸张样品主要由纤维素组成,但其化学成分会随着制造工艺和原材料的不同而变化。当纸样品开始降解时,化学剖面的差异可以被识别出来。但是,必须考虑到初始成分的差异,以避免误解。
中红外等光谱技术在法医学中越来越重要。1其中一个主要原因是分析的非破坏性和非侵入性,能够提供化学信息,同时保持样品的完整性。
这项工作的目的是评估文献年代测定中的论文可变性。为此,使用中红外光谱和化学计量学技术来估计不同性质半岛综合体育官方APP下载德甲论文的文献年龄;更详细的信息见文献2。
化学计量学
中红外光谱具有在宽波长范围半岛综合体育官方APP下载德甲内提供大量光谱信息的巨大优势。缺点是光谱信息往往是冗余的,并受到光谱人工效应的影响。因此,需要多元分析技术(又称化学计量学)来提取有用的化学知识。
主成分分析(PCA)可能是最著名的化学计量学技术。它是一种探索性的分析技术,使用最大方差来描述一个降维的新空间中的数据集。与PCA相比,偏最小二乘(PLS)是一种有监督的技术,旨在建立基于光谱特征的数学模型来预测感兴趣的参数,在这种情况下,是给定文档的年龄。为了做到这一点,使用一组具有已知年龄的样本(训练集)来建立光谱和年龄之间的数学关系,使它们之间的协方差最大化。PLS的扩展,如稀疏偏最小二乘(sPLS),可以用作变量选择方法。在这种情况下,sPLS对无信息系数施加惩罚项,使其具有零值,从而减少噪声并减弱频谱剖面中存在的相关或不相关变量的影响。
如上所述,物理现象可能会导致数据集中与研究无关的变化(如噪声、基线等),这些可能会掩盖感兴趣的信息。光谱预处理技术可以用来纠正或最小化这些不希望出现的现象的影响,并提供可靠的分析。在其他情况下,化学干扰可能是这些问题的原因。因此,需要更专用的方法来纠正这些贡献。正交信号校正(OSC)和广义最小二乘加权(GLSW)是这些技术的例子。
当OSC减去与年龄正交的光谱数据的变异性时,GLSW应用滤波矩阵来降低干扰贡献的权重。更多的信息可以在其他地方找到。3、4为了评估模型性能,研究了验证和预测集,提供了关于模型预测未知样本的能力的信息。
材料与方法
西班牙科学警察总委员(马德里,西班牙)提供了1985年至2012年15个不同年份的报告。每年用中红外光谱法分析5份报告,每份报告平均5张纸。半岛综合体育官方APP下载德甲每张纸采集8个光谱。使用一台Nicolet iS10光谱仪(ThermoFisher Scientific, MA, USA)进行光谱采集,并配有Smart iTR金刚石衰减全反射附件。光谱范围为4000 ~ 650 cm1,分辨率为4厘米1每个光谱32次扫描。
上面描述的样本被用来建立两个不同的数据集,使用不同的选择标准来组成训练集和预测集。这两个数据集的预测集依次分为所谓的报告预测集和表预测集。在dataset-PCA时,采用主成分分析,从每年的报告中选取一份完整的报告组成报告预测集,保证模型中包含所有合理的可变性,不进行外推。与统计哲学相反,但调整为法医应用dataset-RANDOM通过从每年随机选择一份完整的报告组成报告预测集来构建。对于这两个数据集,表预测集是通过从剩余的报告中随机选择一个表来构建的。
建立PLS模型并进行比较,采用不同的预处理技术来减小同一年文献之间的差异。所有化学计量学分析均使用运行在Matlab (the Mathworks, MA, USA)上的PLS_Toolbox (Eigenvector Research Inc., USA)进行。使用的sPLS算法如文献5所述。
结果与讨论
论文的光谱剖面(图1)显示了重要的纤维素相关波段,如在3400厘米处的O-H键振动特征1,在1025 cm处吸收1, 1160厘米1, 1315厘米1和2890厘米1,与不同的C-H, C-OH, C-CH有关2、C-O-C振动。这些贡献对所有的论文样本都是共同的,无论它们的年龄如何。碳酸钙(712厘米1870厘米1)和高岭石(3690厘米)1和3620厘米1)也发现了吸收;这些化合物通常用作无机填料。这些贡献并非对所有纸张样品都相同,而是根据制造工艺而有所不同;同一年的论文可以有不同的无机填料组成。
图1。(a)每年的平均光谱,(b)得分和(c)主成分分析的加载图。
论文成分的这种可变性对文献定年提出了很大的挑战,因为可以根据不同的化学成分来估计论文年龄,而不是根据老化过程造成的差异。如果没有以适当的方式考虑样本的可变性,从数学角度来看,模型可能是最优的,但在最终目标上具有误导性。为了减少这种变异性,采用了预处理技术和变量选择技术。
PCA显示了文档类型之间的差异。根据图1,可以观察到1990年的样品显示出不止一个聚类(见分数散点图),表明不同的化学成分。在加载图中,可以观察到这些差异是由无机填料的吸收带在PC1中解释的。
在确定了同一年样本的变异性后,采用不同的预处理技术和变量选择策略对4个PLS模型进行了比较。表1显示,来自dataset-RANDOM的结果显示出较高的预测误差(预测的均方根误差,RMSEP)对于所有模型的报告预测,这一趋势在模型的偏差中重复。这是因为与训练集相比,预测集中的一些报告显示出很高的可变性。
表1。模型1[带有标准正态变量(SNV)、平滑和均值中心的PLS模型];模型2(具有SNV、平滑、OSC和均值中心的PLS模型);模型3(带SNV的PLS模型,平滑GLSW和均值居中);模型4(带有SNV、平滑和均值中心的sPLS模型)。
Dataset-PCA |
Dataset-RANDOM |
|||||||||
模型 |
1 |
2 |
3. |
4 |
1 |
2 |
3. |
4 |
||
LV |
4 |
1 |
2 |
5 |
4 |
1 |
3. |
5 |
||
训练集 |
RMSECV |
4.7 |
4.5 |
4.6 |
4.5 |
4.4 |
4.5 |
4.2 |
4.3 |
|
R2简历 |
0.83 |
0.85 |
0.86 |
0.88 |
0.74 |
0.74 |
0.76 |
0.73 |
||
偏见简历 |
0.04 |
0.02 |
0.01 |
-0.06 |
0.01 |
0.04 |
-0.00 |
0.87 |
||
预测集 |
报告 |
RMSEP |
3.8 |
4.0 |
3.6 |
4.0 |
5.1 |
4.3 |
5.0 |
4.7 |
R2pred |
0.90 |
0.89 |
0.91 |
0.88 |
0.74 |
0.80 |
0.75 |
0.86 |
||
偏见 |
0.35 |
0.32 |
0.22 |
0.15 |
2.11 |
1.46 |
1.95 |
0.64 |
||
表 |
RMSEP |
4.3 |
3.7 |
4.2 |
4.5 |
4.0 |
3.6 |
3.7 |
4.3 |
|
R2pred |
0.86 |
0.90 |
0.87 |
0.85 |
0.78 |
0.82 |
0.82 |
0.87 |
||
偏见 |
0.05 |
0.24 |
0.07 |
0.00 |
0.44 |
0.22 |
0.34 |
0.97 |
LV:潜变量数;RMSECV:交叉验证的均方根误差;RMSEP:预测的均方根误差
从表1可以清楚地看出,预处理过滤器降低了模型的复杂性[潜在变量的数量(LV)]。当应用OSC和GLSW时,将从数据集中删除一个重要但不相关的方差量,从而导致其简化。
比较所有策略,OSC(模型2)在模型构建中显示出潜力。与一个LV,与其他模型相比,该模型降低了预测误差,并且对于所构建的两个数据集的报告预测误差表现出更强的稳定性。此外,在模型2(图2)中,估计文献年龄最重要的变量是1412 cm1914厘米1.根据文献,这两个波段反映了降解过程中纤维素结晶度的变化,而其他研究则认为是1410 cm1对填充化合物的吸收。虽然光谱区域似乎有一个模糊的解释,重要的是要提到,所获得的值大约为四年RMSECV/RMSEP对于建议的应用程序和样本的复杂性是足够的。
图2。PLS回归模型2的结果(应用单组分OSC滤波器):(a)回归图和(b)模型2的VIP评分。
结论
本研究最重要的一点是开启了关于光谱和化学计量学技术在复杂背景下的实施的讨论,如法医,特别是关于文件老化。这是非常重要的,因为目前尚不清楚具有不同化学成分的样品的降解过程是否相似。尽管如此,这项研究显示了红外光谱和化学计量学在评估文献年龄方面的潜力。半岛综合体育官方APP下载德甲它还提供了在科学警察实验室实施先进分析方法的前景。
确认
作者要感谢西班牙科学警察总委员(文献检查科,西班牙)提供分析文件。此外,资助机构INCTAA(流程编号:;: CNPq 573894/2008-6;FAPESP 2008/57808-1)、NUQAAPE - FACEPE (APQ-0346-1.06/14)、Núcleo de Estudos em Química forensics - NEQUIFOR (CAPES AUXPE 3509/2014, Edital PROFORENSE 2014)、CNPq (PVE/CNPq,流程号:400265 /2014-5)、FACEPE和CAPES (PDSE奖学金流程号BEX 7712/15-4)已获认可。
参考文献
- C.K. Muro, K.C. Doty, J. Bueno, L. Halámková和I.K. Lednev,“振动光谱学?半岛综合体育官方APP下载德甲:法医学革命的最新进展”,分析的化学。87年,306 - 327(2015)。doi:https://doi.org/10.1021/ac504068a
- C.S. Silva, M.F. Pimentel, J.M. Amigo, C. García-Ruiz和F. Ortega-Ojeda,“化学计量学方法用于文件年代测定:处理纸张变异性”,分析的詹。学报1031年,28-37(2018)。doi:https://doi.org/10.1016/j.aca.2018.06.031
- S. Wold, H. Antti, F. Lindgren和J. Öhman,“近红外光谱的正交信号校正”,Chemometr。智能。实验室。系统。44岁的175 - 185(1998)。doi:https://doi.org/10.1016/s0169 - 7439 (98) 00109 - 9
- N.B. Gallagher,“使用经典最小二乘模型在高光谱图像中的检测,分类和量化”,在高光谱图像分析技术及应用, H. Grahn和P. Geladi编。John Wiley & Sons Ltd, pp. 181-202(2007)。doi:https://doi.org/10.1002/9780470010884.ch8
- R. Calvini, A. Ulrici和J.M. Amigo,“利用近红外高光谱成像进行阿拉比卡咖啡和罗布斯塔咖啡品种分类的稀疏方法的实际比较”,Chemometr。智能。实验室。系统。146年,503 - 511(2015)。doi:https://doi.org/10.1016/j.chemolab.2015.07.010