A.M.C.戴维斯一个和汤姆·费恩看来b
一个诺里奇近红外咨询公司75年Intwood路,Cringleford,诺维奇NR4 6 aa,英国。电子邮件:(电子邮件保护)
b部门统计科学,伦敦大学学院,英国伦敦WC1E 6 bt,高尔街。电子邮件:(电子邮件保护)
DOI:https://doi.org/10.1255/sew.2008.a1
介绍
在我们前一列1我们介绍了患者,早期的应用多变量分析(1930年代)。在本专栏中我们将讨论SIMCA(正式它柔软独立造型类类比,但没有人使用长形式!)。SIMCA是30年后发明的2由另一个先驱,Svante荒原(的人创造了“化学计量学”)这个词。
SIMCA
这个想法
当患者使用高维数据,一些之前减少维度是必要的。标准的方法是将数据从所有组织和应用一个PCA。SIMCA采用不同的方法,使每组单独的主成分分析模型。这是显示在图1。每个小组都有自己的电脑空间建模通常只有几个电脑(一般是2 - 4)。如果你把这个数字和图1在前一篇文章中您将看到立即SIMCA和患者之间的区别。
图1所示。计算个体的PCA用于SIMCA三组样品。彩色背景表明,模型可能在于完全不同的空间。
应用程序
当我们有一个新样品被认为是其中的一个成员组织样本进行比较,我们让两个计算每组和使用结果来决定如果样品可能是任何组织的成员。这些测量是一个示例的欧式距离模型(e我)和一个Mahalanobis*距离内的主成分空间(h我)。概略地显示了计算为两组,如图2所示。
图2。SIMCA两组。(一)第1组由两个电脑,模仿PC1(1)和PC2组2(1),是由一个电脑模型,PC1 (2)。(b)一个新的样本,O,被投射在每组相比模型,飞机在组1的情况下,组2的线。这使距离ei(1),嗨(1)组1和ei(2)嗨,组2 (2)。
虽然它可能有利于有两个测量,然后,我们必须决定如何结合。一种方法是分别应用阈值,即距离都小于选择截止值之前未知的组成员资格,如图表所示。另一种方法是将距离的平方,添加和的平方根之和。__单一阈值应用到这个距离相结合。
图形SIMCA方法
因为SIMCA使用不同的电脑模型为每个组,没有一般的情节,可以用于查看所有的团体在一个阴谋。有两个情节可以用于评估SIMCA结果。“Coomans阴谋”比较距离模型(e我)导致两两块;所以你必须看情节所有可能对。后你要看“会员”阴谋,阴谋距离模型(e我)对模型中心的距离h我未知)(测试)样本选择模型。这两个情节限制也密谋可以帮助判断样本可能是一个组的成员。极限计算,常常使用一些相当怀疑分布假设,排除选择比例确实属于该组织的样本。这个比例越高(例如25%用于e我下面的情节)的机会越少,非成员国将分配给组。在整理机SIMCA程序,我们用于计算,的比例h我基于阈值的可能是固定在5%(手动是不清楚!),不能变化。
宝贝分类
在前面的列1我们使用近红外光谱数据显示脑血管意外结果不同植物来源的蜂蜜4现在,我们将使用相同的数据和SIMCA是否给出了类似的结果。
图3显示了Coomans的情节六可能的两两组合的四组,应用25%限制意义e我。看着3(一个)‡比较刺槐蜂蜜(模型AcP3)栗子蜜(模型ChP5)(这些模型显示的3和5个人电脑的数量)。垂直线限制的样品可能是金合欢如果是左边的线。水平线限制示例被归类为栗如果低于极限。左下象限下降可以样品组的成员在右上象限样品被归类为不两组的成员。这些计算是基于样本很少,我们不得不使用交叉验证5(此句用于训练和测试样本)。应该强调,这只是出于演示。该数据集是一个边缘的一个患者,因为它的大小;SIMCA都太小了。在这个阴谋红色或蓝色字母样品交叉验证样本用于校准的身份虽然绿色字母显示的实际会员测试样品(非会员两组)。
图3。Coomans情节的蜂蜜样品。(一)、金合欢诉栗色;(b),金合欢诉希瑟;(c)金合欢诉强奸;(d),栗诉希瑟;(e)、栗诉强奸;(f),希瑟诉强奸。
图4显示了四组“会员”的阴谋。这是块距离模型(纵坐标)和距离模型中心各组蜂蜜(横坐标)。限制了绘制垂直和水平线。相信,一个示例可以是这个小组的成员应该出现在左下象限。
图4。加入蜂蜜数据的情节。金合欢(a)、(b)栗色(c)希瑟,(d)强奸蜂蜜。
蜂蜜的解释的结果
金合欢
图3(一个)显示,所有的相思样本被归类为金合欢,六个人也可以栗。图3 (b)表明,金合欢组中所有的样品可能是金合欢和三个人可以归类为希瑟。图3 (c)表明,所有的相思样本被归类为金合欢但5也可以强奸样本。图4 (a)表明,所有的相思样本分为金合欢和只有一个样本栗蜂蜜也可能错误地认定为金合欢。这些结果表明,金合欢集团都非常相似,很好区分从其他三组当距离都考虑进去。
栗
图3(一个)显示,栗样本中的所有情节区域分类栗。没有人被归为金合欢但大多数其他蜂蜜可以(错误地)归类为栗。图3 (d)也有类似的结果。所有的板栗样品和其他样品被归类为栗色或希瑟。图3 (e)也显示了类似的结果;所有的板栗样品正确识别但大多数其它样品也归类为强奸。图4 (b)显示许多蜂蜜样品出现在左下象限和被归类为栗但真正的板栗样品形成一个紧密的团体和他们的距离值靠近原点比non-chestnut样本。
希瑟
Coomans的情节3 b、3 d和3 f表明,希瑟不构成一个完整的样品。(Heather蜂蜜是臭名昭著的从其他的花蜜混合着蜂蜜的蜜蜂,养蜂人或交易员。)两个样本,那么遥远,他们必须被排除在研究之外。许多non-heather样本可以归类为希瑟。“会员”情节,图4 (c)显示,剩下的5个样品的heather蜂蜜做形式特征组,显然不符合的证据Coomans的情节。
强奸
Coomans的情节表明,强奸是一个分类群但许多其他蜂蜜被错误地归类为强奸。加入“阴谋”,图4 (d)显示了强奸样品比另一种更接近原点样本归类为强奸。
总结的结果
从这个分析看来,金合欢和强奸可以可靠地机密但有相当大的重叠与希瑟和栗样本。一样CVA的研究获得的相同的数据,而是难以调整和解释。
评论
简单的我们总是选择PCA + CVA的默认方法一个光谱分类的问题。SIMCA的主要缺点是很难调优:结果可能非常敏感的尺寸模型和阈值的选择。然而,它也有优势,可能最有用的是,如果一个新组(例如一个新的成分),可以将其添加到没有从头开始整个分析系统。
引用
- A.M.C.戴维斯和t•费恩Spectrosc。bdapp官方下载安卓版欧洲20 (4),18 (2008)。https://www.半岛综合体育官方APP下bdapp官方下载安卓版载德甲spectroscopyeurope.com/td-column/back-basics-multivariate-qualitative-analysis-canonical-variates-analysis
- 美国荒原,模式Recogn。8,127 - 139 (1976)。https://doi.org/10.1016/0031 - 3203 (76) 90014 - 5
- t . Næs伊萨克松t, t·费恩看来,t·戴维斯,一个用户友好的多元校正和分类指南。近红外光谱出版物,奇切斯特,131 - 133(2002页)。https://store.impopen.com/a-user-friendly-guide-to-multivariate-calibration-and-classification.html
- b . Radovic A.M.C.戴维斯,t·费恩看来和大肠Anklamj .近红外Spectrosc。10,121 - 135 (2002)。https://doi.org/10.1255/jnirs.329
- A.M.C.戴维斯Spectrosc。bdapp官方下载安卓版欧洲10 (2)24岁(1998年)。