半岛综合体育官方APP下载德甲自1975年以来光谱学
瑞士万通广告
越南—广告

回到基础:主成分分析的原则

一个A.M.C.戴维斯和b汤姆·费恩看来

一个诺里奇近红外咨询公司75年Intwood路,Cringleford,诺维奇NR4 6 aa,英国
b部门统计科学,伦敦大学学院,高尔街,伦敦,英国

介绍

我写了一个专栏,今年年初对过程分析技术(拍),我已经讨论了迫切需要教育。这结合一些非常欢迎来自一些朋友的反馈让我意识到,我一直工作在一个错误的假设。我一直在本专栏编辑很长一段时间(12年SE和四年的母公司,半岛综合体育官方APP下载德甲光谱学的世界)。但是我认为所有的读者将会了解先前讨论的主题我列。偶然的机会,第一个TD列是化学计量学中最重要的工具之一,主成分分析(PCA)。1此后PCA经常提到但从未解释道。我现在意识到一定有许多读者谁加入了我们在过去12年只有一个模糊的知道PCA是什么,你如何使用它,它能做什么。对于你,我留下我和这一列表示道歉作为一个初学者指南PCA,准备与汤姆·费恩看来合作。明年将会有一个主成分分析;第二部分然后我们计划进一步编写指南介绍(或重新引入)额外的基本的最优化技术。本文的一些照片似乎有些读者熟悉。如果你一直在我们的一个课程或有一定的最优化教科书;2那么你是部分正确。这个想法已经使用,但所有的计算都是新的。——托尼•戴维斯

主成分分析是什么?

主成分分析是一种数学方法重组信息数据集的样本。时可以使用集包含的信息只有少数变量但它变得更加有用当有大量的变量,如光谱数据。PCA是发现新的变量,称之为“主成分”(pc),占大多数的变化数据。这使我们能够描述变量大大少于最初的信息。在近红外(NIR)数据方面,我们将使用在这个演示,我们可以开始与光谱仪的数据使得测量每2 nm范围在1100 - 2498海里。因此,我们从700年开始的变量,但第一个20个人电脑将包含几乎所有的信息。

计算电脑非常简单的规则。第一个电脑是最变化方向通过数据来解释这些数据。第二,随后,电脑必须是正交(直角)前面的PC和描述其余的最大数量的变化。一旦我们知道电脑的方向是简单的几何图形,让我们来表达个人的值样本的PC作为原始数据的线性项乘以一个系数描述了电脑。这些新的值被称为“分数”,每个样本都有得分为每个个人电脑(正如它的值为每个波长变量原始数据)。

虽然PCA的规则很简单,所需的数学计算相当复杂。令人高兴的是,你不需要了解数学,但你需要有一个普遍的想法发生了什么,我们可以发现如果我们把这种情况只有三个变量的原始数据。

准备演示

我们想要展示的是使用PCA与越来越多的变量。为了做到这一点,我们需要准备一些数据,在相反的方向。我们从可见光和近红外光谱的一组153个样本制药平板电脑,这是部分数据可用“软件枪战”在2002年的国际漫反射会议3这是成为一个非常流行的数据集。张成的原始数据每隔2 nm范围600 - 1798纳米,但对于这个演示,我们将开始与一组数据从600年到513年1624海里包含变量,图1。图2 - 4显示数据后的情节已经减少到57岁,19岁,3变量。在图3和图4,点足够分开,随着波长轴,把它们作为单独的点而不是代表他们连续的线。你会看到最后减少三分波长被选择,而在其他情况下,保留数据在相等的时间间隔。这是必要的,以确保有有趣的信息的三个变量集。

图1所示。可见/近红外光谱数据与513年for153样本变量。

图2。可见/近红外光谱数据与57 for153样本变量。

图3。可见/近红外光谱数据与19 153个样本变量。

图4。可见/近红外光谱数据for153样品有三个变量。

主成分分析在照片

如果我们只有三个变量,我们可以把它们在三维空间如图5所示。你可以看到153个样本由一个圆定位三个变量的值。三个样品都突出显示,这样你可以看到移动分布;他们不是特别的样品。在PCA开始之前,我们需要中心数据变化在零附近。这是通过计算每个变量的平均值,然后减去这些值从每个测量的变量。当我们情节集中数据,图6中,没有变化的分布样本。现在我们已经准备好开始PCA !在图7中黑线显示的方向有最大的变化在我们的三维数据,以他们的方差。这是第一个PC的轴。 The value of the new variable for any particular sample is found by projecting the point on to the axis, which means that we find the point on the axis which is nearest to point representing that sample in the three-dimensional space. This point can be found by drawing a perpendicular line from the point to the axis. These values are the scores on the first PC.

图5。153个样本测量三个变量。

图6。集中的数据图5。

图7。第一个电脑绘制在三维空间中。

轴的第二个人电脑显示为蓝线在图8所示。这条线是在直角第一个PC和面向的方向最大剩余的可变性。图9中的第三个人电脑添加绿线。因为它必须在直角前两个电脑都只剩下一个可能的方向,它捕获剩下的可变性。注意,电脑都有一个共同的起源,是数据集中的起源。

图8。第二个电脑添加到三维空间。

图9。第三个人电脑添加到三维空间。

以及产生一组得分为每个样本在每个电脑,PCA还提供了用于计算的系数;这些被称为权重。图10是一个阴谋的重量为每个电脑绘制变量数量。PC1被认为很单调;这是很常见的近红外光谱数据,因为光谱往往受到路径长度的变化(通常是由颗粒大小的变化或分布)。PC2主要受到第一个变量的影响,而第三个人电脑有大量权重(但相反的迹象),第二个和第三个变量。稍后我们将看到这些重量情节变得更加有趣,当我们有大量的输入变量。

图10。每个电脑的权重。1个人电脑;第二个人电脑;第三个人电脑。

有几个重要的点,在这个阶段:

  • 如果你理解这个三维情况下你了解一般情况下与大量的变量。数学不会改变随着维度;矩阵变大,整个计算机可能需要第二个做计算。所以说“七百”变量,认为三维!
  • 分数没有意义的符号在电脑空间。一个样本的变化可能导致计算从正到负翻转。
  • 真正的使用PCA不是分析三维数据,而是降低数据的维数与更多的变量。大多数数据可以减少到不足20个人电脑和保持一个非常高的比例的信息内容;可能超过99.9%。
  • PCA得分的一个重要属性是不相关的。

虽然我们可以画三维数据在二维纸很难想象三维分布。在电脑屏幕上和使用正确的软件的云点可以旋转,这使得它更容易。所以当我们限制纸最好是限制情节对另两个维度的个人电脑。作为第一个电脑似乎是主要关心通路长度/颗粒大小变化,为这个演示我们情节PC2反对生物三维数据如图11所示。这张照片得以成像通过旋转三维图片,直到我们直接向下看第一个电脑,所以我们只能看到云点的二维表示。当你能想象这种PCA的操作你会明白为什么数学家讨论“旋转”。

PCA有超过三个变量

我们不能画画来代表四个或五个维度,因此当我们有超过三个变量,我们可以不再情节照片如图9看电脑的位置在我们多维云点。我们必须想象一下然后看情节对输入变量的权重(如图10)和二维块电脑成绩(如图11)。图12 - 14显示重量块的主成分分析数据与19日,57和513年变量第一五个人电脑。

图11。情节PC2得分的分数在153年生物样品有三数据集。

图12。权重的情节为前五个人电脑19-variable数据。

图13。权重的情节为前五个人电脑57-variable数据。

图14。权重的情节为前五个人电脑513 -可变数据。

这些数据非常相似,除了有迹象“翻转”在513年的变量集。我们知道来自相似的数据并不奇怪。额外的细节5th电脑在图14中可能是真实的信息,而不是噪音。最后三个情节是为第二和第三电脑分数为每个数据集的情节。作为权重的情节相似,我们预计这些情节也非常相似,如果你允许“翻转”的招牌在513年的权重变量数据集。

图15。的分数对分数PC2生物19-variable的153个样本数据集。

图16。的分数对分数PC2生物57-variable的153个样本数据集。

图17。情节PC2得分的分数在513 - 153年的生物样本变量数据集。

在本系列的下一篇专栏文章中,我们将探讨的主要应用主成分分析的光谱数据。

引用

  1. A.M.C.戴维斯Spectrosc。bdapp官方下载安卓版欧洲4 (2),38 (1992)
  2. t . Næs伊萨克松t, t·费恩看来,t·戴维斯,一个用户友好的多元校正和分类指南。近红外光谱出版物,奇切斯特(2002)。
  3. D.W.霍普金斯,近红外光谱的新闻14 (5)10 (2003)。
本文率
平均:5 (4票)
Baidu
map