A.M.C.戴维斯和汤姆·费恩看来
诺里奇近红外咨询公司75年Intwood路,Cringleford,诺维奇NR4 6 aa,英国。电子邮件:(电子邮件保护)
部门统计科学,伦敦大学学院,英国伦敦WC1E 6 bt,高尔街。电子邮件:(电子邮件保护)
更多的“返璞归真”
2004年12月我决定这列应该返回访问主题定量分析被覆盖(或有时刚刚提到)在之前的列。在几秒内的这一决定我意识到我们需要把定性分析相同的修订。定量方面被证明是一个三年的马拉松*的旅程,但我们终于到达的开始作为“第二部分”。
我一直致力于问题的定性分析了40年!化学计量学作为一个话题开始之前,我认为他们是比定量分析要求。有几个原因,一些比其他的更明显:
- 定性分析不是一个单一的问题,
- 有些人很善于观察光谱定性决策,
- 解决方案要求比需要更多的统计数据进行定量分析。
定性分析中存在的问题
从古典的观点来看,定性分析分为监督或无监督方法,但不同的对象的数量也是非常重要的。”的问题是这个示例化合物或化合物B吗?“不同的问题”是这个示例化合物,或B, C,或者……或Z”和非常不同的请求”识别这个示例”。
人类的技能
光谱学家一直在关注光谱,并给上面列出的所有三种类型的问题的答案,很长一段时间。我不知道那些声称能够光谱学家看谱和估计的百分比成分x,但计算机可以,所以定性分析必须是一个更困难的问题!
最近查询从一个读者(总是欢迎!)导致了电子邮件和世界上一些专家的讨论红外定性分析。他们的观点是,定性分析难以相信电脑!正如彼得·格里菲斯指出在他最近的第二版傅里叶变换红外光谱法”,……图书馆搜索无法识别未知的未知,除非存在于图书馆”。1
统计数据的定性分析
如果我们有定量分析RMSEP然后我们有我们需要的所有数据(一些其他人可能是有用的)。在定性分析,我们需要知道标准误差措施,但是我们也需要知道距离决定边界、先验概率、误分类代价,……。幸运的是我有汤姆·费恩看来指导和建议我过去25年来最下面是汤姆的工作,大部分是以前发表在“最优化空间”近红外光谱的新闻2或者在我们经常引用的书。3
托尼•戴维斯
监督和非监督分类
统计分类在光谱学许多有趣的应用程序。半岛综合体育官方APP下载德甲特别是近红外光谱数据,它被用在许多科学出版物和实际应用。
有一个重要的区分两种不同类型的分类:所谓的无监督和监督分类。这些通常的前的名义聚类分析和相关情况与很少或没有先验信息集团结构的数据。技术在这类方法的目标是找到或确定样本的倾向集中在没有任何先验信息的使用群体。这种类型的分析往往是在早期阶段使用的调查,探索,例如,是否可能会有不同的样本数据集的群体,例如不同种类的谷物或从不同的供应商样品的化学物质。在这个意义上,聚类分析有相似之处的问题识别异常值的定量数据集。
聚类分析可以执行使用非常简单的可视技术如PCA,但这是可以做到的更正式,例如分级的方法。这些技术的使用对象之间的距离来确定样本接近对方。分层方法会导致所谓的“系统树图,直观教具来决定何时停止一个聚类过程。
其他类型的分类、监督分类、判别分析的名义也是众所周知的。这是一个类的方法主要用于构建分类规则的预先确定的子组。这些规则后用于分配新的和未知的样本最可能的子群。判别分析的另一个重要应用是帮助解释组之间的差异。判别分析可以看作是一种定性的校准,校准的数量在哪里不是一个连续测量值,但一群分类变量。判别分析可以通过许多不同的方式,其中一些将在以下描述列。相当面向模型的一些方法,而其他人可以使用非常灵活,无论结构的群体。
在早些时候的一些材料列在定量分析也与分类有关。主题和技术,如共线性、数据压缩、散射校正,验证、样本选择、异常值和频谱校正都一样重要,这方面的定量校准。
距离测量用于分类
这似乎是一个好主意在我们开始之前讨论的技术描述的一些方法我们将使用的测量距离。消息是,有一些非常简单的也许不明显一些措施之间的关系。
光谱是向量
光谱x = (x1,x2、……xp)以p波长可以被认为是一个点p通过每一维空间p测量的坐标在一个维度。我们同样认为光谱向量,通过加入频谱的点表示原点的直线。像往常一样,理解数学的窍门是考虑p= 3,很容易画出图片。图1显示了在三维空间中两个向量。
两个光谱向量c、z在三维空间
欧氏距离
欧几里得距离,D的“自然测量”两个物体之间的距离。
几何,D线的长度是加入的两个向量图。多维度的情况下,它被定义为:
D2= (x1- - - - - -z1)2+ (x2- - - - - -z2)2+……+ (xp- - - - - -zp)2
= (x我- - - - - -z我)2
扩大到:
D2=年代x我2+ Sz我2- 2 Sx我z我
向量之间的角度
几何,我们可以测量两个向量之间的角度问如图1所示。如果向量代表光谱,我们可以称之为光谱之间的角度。从图中很明显两光谱越相似,越接近在一起将这两个点,将相应的向量的夹角越小。当然通常比使用一个公式来计算夹角x = (x1,x2、……xp)和z = (z1,z2、……zp直接从测量)。相关的公式是涉及所谓的两个向量的点积
x。z=x1z1+x2z2+……+xpzp=年代x我z我
他们长度x z |和| | |和它们之间的角度问。这个公式是
x。z=x | |z | |cos q (1)
在哪里
x | |2=x12+x22+……+xp2=年代x我2
和
z | |2=z12+z22+……+zp2=年代z我2
因此,计算角我们计算点积和两个长度,然后用方程(1)找到因为问,因此问。
标准化的长度
如果我们要计算很多角度,规范所有的光谱是有意义的,这样每个人都有长度是1。这是实现x除以x我通过x | |。
图中,向量保持方向,但新躺在一个球体半径为1的长度。然后| x z | = | | = 1,方程(1)可以减少
x。z=cos q (2)
现在的角度和距离的点积是等价的措施,每个可以简单地从其他计算。注意尽管最大点积,1,对应于最小角,0,而0对应于一个角的点积p / 2 = 90°。这等价同样意味着我们可以定义一个区域的相似性x所有光谱与x点积超过d,或所有光谱角小于cos1d与x。
与欧氏距离的关系
使用标准化的光谱,是一个相当简单的这两个措施和欧几里得距离之间的关系D。
如果D2=年代x我2+ Sz我2- 2 Sx我z我
然后当向量标准化和前两个条件都是1,
D2= 2 (1 - x.z) = 2 (1 - cos问)
因此,对于标准化的光谱,点积,角度和欧几里得距离都是三个等效距离的措施。区域的相似度定义为任何的三个将周围一圈内所有光谱,x在球面上。
点积计算无疑是最快的,所以会首选测量从计算的观点。对于非标准化光谱协议三个措施,当然,都是不同的。
与相关
另一个衡量有时用来比较光谱是它们之间的相关系数。把这上面的措施,我们需要中心的距离以及规模的光谱。假设我们从x x变换*,那里的我th元素x我*(x)*是由
x我*= (x我- - - - - -米x)/lx(3)
在哪里
米x=年代x我/p
x和元素的意思
lx2= (x我- - - - - -米x)2
x的平方长度是后集中。然后点积x*和同样以z*是
之间的相关系数,根据定义,是x和z。因此我们有另一个等价:相关性是一样的点积之前如果我们中心和规模光谱计算后者。
方程(3)的转换,而类似于著名的SNV标准化。4、5唯一的区别在于,SNV通常会使用年代x作为因子,而不是lx,在那里
年代x2=lx2/ (p- 1)
这将使唯一的区别是现在的点积p相关的- 1倍。这并不能改变这样一个事实,这两个是等价的,它引入了一个比例因子进入相关方程。因此,从这个意义上说,使用相关系数(或其平方)作为距离测量本质上是一样的初加工SNV和使用角度或光谱之间的点积的距离测量。
引用
- 公关格里菲斯和J.A. de Haseth,傅里叶变换红外光谱法,第二版。约翰•威利& Sons Inc .)美国新泽西州霍博肯(2007)。https://doi.org/10.1002/047010631X
- t•费恩近红外光谱的新闻14 (2)、6 - 7 (2003)。
- t . Næs伊萨克松t, t·费恩看来,t·戴维斯,一个用户友好的多元校正和分类指南。近红外光谱的出版物,奇切斯特,英国(2002)。
- j·巴恩斯硕士Dhanoa和中华民国李斯特,达成。Spectrosc。772 (1989)。https://doi.org/10.1366/0003702894202201
- A.M.C.戴维斯和t•费恩Spectrosc。bdapp官方下载安卓版欧洲19 (6),15 (2007)。https://www.半岛综合体育官方APP下bdapp官方下载安卓版载德甲spectroscopyeurope.com/td-column/back-basics-final-calibration