半岛综合体育官方APP下载德甲自1975年以来光谱学
瑞士万通广告

估计对多元校正模型预测的不确定性

2004年2月1日|<一个h裁判="//m.byopera.com/latest-articles">文章
发表在半岛综合体育官方APP下载德甲光谱学欧洲/世界bdapp官方下载安卓版卷。
16
问题
1
(
2004年
)

新墨西哥州Faber,<年代up>,*F.H. Schreutelkamp<年代up>b和H.W. Vedder说<年代up>c

一个化学计量咨询公司Rubensstraat 6717 VD爱德,荷兰
b8041年阿博特国际质量保证,Rieteweg 21日AJ兹沃勒,荷兰
cBlgg Oosterbeek Mariendaal 8,邮政信箱115,6860 AC Oosterbeek,荷兰

几乎没有利润在近似是好的,但不清楚好。
B.N. Parlett,对称的特征值问题(1980)

介绍

构建一个多元校正模型的目标是预测化学或物理性质的预测变量,如分析物浓度或辛烷值从近红外(NIR)光谱。一个好的多元校正模型应该能够取代费力,可能不精确的参考方法。因此模型的质量主要取决于其预测能力。模型的可解释性系数等属性也可能感兴趣的,但这里的重点是量化预测能力的问题。注意,这个问题是解决单变量基于最小二乘直线拟合校准,因为标准表达式可用于计算预测时间间隔(图1)。不幸的是,多元校正要复杂得多由于丰富的相关数据结构和各种各样的估计程序可用。在这里我们将限制模型构建使用偏最小二乘回归(PLSR),因为它是事实上的化学计量学中的标准。因为普遍认为表达多元预测区间不存在,一个通常结合了观察到为一个独立的测试集预测错误的预测标准误差(9月)。这个总结统计作为一个近似的预测误差的标准差为所有未来预测样本。然而,这个平均预测误差估计不能用于构造预测区间如图1显示明显的原因,它是一个常数。

图1所示。单变量仪器信号与被分析物的浓度。模型(-)是基于测量四个样品(o)。虚线(- - -)95%的预测带连接的预测区间为每个值仪器信号。预测时间间隔最小的接近中心的模型,模型是最精确的。

最近,重要进展报告估计多元9月。可以明确区分的目的范围:而DiFoggio<年代up>1和Sørensen<年代up>2改善的估计9月在全球设置水平,费尔南德斯Piernaet al。3要求实现这一目标的个体样本的水平。后者的贡献可以因此被视为企图减少之间的差距单变量和多变量校正方法。当前论文的目的是为了说明这些贡献的内部一致性。这种一致性直接源于比较相对简单的数学公式。重点从这些公式参考价值的不确定性的迷惑作用用于模型构建和测试。

示例数据集

费恩看来<年代up>4发表的近红外光谱数据集收集%地面小麦样品中蛋白质的预测。采用凯氏法获得的参考价值,估计有0.2%至10%的标准差的蛋白质。校准和测试集包含24和26个样本,分别。六种不同波长的近红外反射光谱是数字化范围在1680 - 2310海里。这个数据集已经广泛用于化学计量学文献的方法测试。意思是定心PLSR模型之前已经应用。交叉验证采用了因子选择和得出最优模型需要四个因素(见图2)。mean-centred光谱的主成分分析表明,测试样本1偏离了其余的人口。这得以成像通过绘制正常化分数(图3)。第四主成分,结果表明,该样品进一步远离校准集数据的均值比别人。策划主成分得分比绘制光谱本身更丰富。在这种情况下,mean-centred光谱不注明为什么这个测试样本应该异常(参见图4)。重要的是要注意,极端的测试样品是非常有用的在目前的情况下,即预测不确定性估计在全球设置以及个体样本的水平。

图2。使用交叉验证设置水平9月估计的函数的数量PLSR因素包括在近红外光谱校正模型(o)。参考价值不确定性的标准偏差作为指南添加眼睛(- - -)。

图3。正常得分为主要组件1到4

图4。Mean-centred反射率光谱数字化六波长在1680到2310纳米之间。

多元9月在全球水平

当前实践是描述多元9月在设置级别。一个9月值计算均方根(RMS)预测和参考价值的区别。重要的是要强调,这个过程只有声音的噪声提供了参考价值是微不足道的正确预测的不确定性。原因是预测误差定义真正的数量,而不是嘈杂的参考价值。考虑理想情况下一个完美的模型和噪声参考价值的心理实验。当然,这个例子是不切实际的,但是添加噪声DiFoggio描述的参考价值<年代up>1科茨和<年代up>5在某种程度上可以接近它。显然,预测应该是完美的,唯一的贡献9月会产生测量误差的参考价值。在这种极端情况下,9月只是估计的标准偏差测量误差这不会涉及到真正的预测不确定性!因此,一般来说,这种虚假的错误组件的存在会导致所谓的明显9月:<年代up>1

9月\ [{\ rm{明显}}={\离开[{(1 / {n_ {\ rm {t}}}) \ \ limits_总和{i = 1} ^ {{n_ {\ rm {t}}}}{{{{{\帽子y} _i} - {y_ {{\ rm {ref,}}我}})}^ 2}}}\右]^ {{\ rm{\提高。5例\ hbox {\ scriptstyle 1美元}\ kern -。1 em / \ kern -.15em \低。25ex\hbox{$\scriptstyle 2$} }}}}\]

(1)

在哪里nt表示测试集样本的数量,y^预测的财产吗y为样本(= 1,…,nt),y裁判,相关的参考价值。虚假错误组件是观察到的效果在图2中,总结了PLSR因素选择使用交叉验证:参考价值的不确定性的标准偏差(年代裁判= 0.2%)的一个下界9月估计。多元校正文献中类似的情节比比皆是。参考价值的共同阴谋与预测给出了方程的图示(1),如图5所示。很明显,方程(1)相当于解释的偏差从“理想”行点完全在垂直方向。然而,上述讨论表明,真正的预测错误,可以在很大程度上又被测量错误,躺在水平方向上。换句话说,解释这样一个情节并不总是直截了当。模型可以预测远比一个推断明显预测错误。

图5。参考价值(o)和近红外光谱预测。对于许多样本偏离“理想”线斜率团结(- - -)在很大程度上是由于参考价值的不确定性(s<年代ub>裁判= 0.2%的蛋白质),即偏差并不完全垂直的。测试样本1形式一个例外:它有一个相对较大的(真正)预测错误,因为它是个例外。

一个简单但有效的杂散误差校正组件导致<年代up>1

9月\ [{\ rm{纠正}}={\离开[{{\ rm{明显}}SE {P ^ 2} - s_ {{\ rm {ref}}} ^ {\ rm{2}}} \右]^ {{\ rm{\提高。5例\ hbox {\ scriptstyle 1美元}\ kern -。1 em / \ kern -.15em \低。25ex\hbox{$\scriptstyle 2$} }}}}\]

(2)

在哪里年代裁判估计精度的参考方法。这个标准偏差是方便地估计的标准误差实验室(选取从一系列的重复测量。显然,应用方程(2)总是会导致改进的纠正9月小于传统的估计获得使用方程(1)。因为明显吗9月还包含固有的可变性近红外光谱方法,它应该,理想情况下,大于年代裁判。然而,纠正9月只能在实践中正确地估计如果明显的代表值9月年代裁判是可用的。不精确的估计可以,例如,导致明显的奇怪的情况9月<年代裁判修正并不是可行的。显然,足够的实验是要付出代价的获得更清晰9月估计。

Sørensen<年代up>2记录了一个相当大的改进的近红外光谱的应用。重要的是要注意,不应插入一个悲观的估计年代裁判在方程(2),因为这将导致一个乐观的估计平均预测的不确定性。最后,没有理由修正9月不能小于年代裁判。因此,方程(2)表明NIR预测,平均而言,比引用值用于构建更精确的模型,这一事实已被恰当地说明了DiFoggio的噪音增加实验<年代up>1和科茨。<年代up>5

多元9月在个体样本的水平

描述预测不确定性水平集是唯一的方法来回答重要的问题,像“我的校准是多好?例如,“因此逻辑监控(设置级别)的变化9月当优化校准模型(光谱预处理、因素选择等)。然而,如上所述,这个过程不会导致sample-specific预测区间具有良好的覆盖概率。美国检测与材料协会(ASTM)已经认识到需要sample-specific9月(E1655:红外多元定量分析的标准实践),建议使用以下表达式:

\ [s({\帽子y_i} - {y_ {{\ rm {ref,}}我}})左= {\ [{(1 + {h_i}) \ cdot SE {C ^ {\ rm{2}}}} \右]^ {{\ rm{\提高。5例\ hbox {\ scriptstyle 1美元}\ kern -。1 em / \ kern -.15em \低。25ex\hbox{$\scriptstyle 2$} }}}}\]

(3)

在哪里h<年代ub>我象征的杠杆样本,证券交易委员会代表标准校准误差和其余符号方程(1)下定义。杠杆与样本均值的距离的校准数据。的计算证券交易委员会类似于明显的计算(设置级别)9月,即方程(1),但现在我们必须考虑校准模型的自由度。因为证券交易委员会明确基于引用值,方程(3)导致一个明显sample-specific吗9月当参考方法是不精确的。换句话说,方程(3)的sample-specific模拟方程(1)。显然,校正方程(2)也可以应用于样品的水平,导致<年代up>3

\ [s({\帽子y_i} - {y_ {{\ rm{没错,}}我}})左= {\ [{(1 + {h_i}) \ cdot SE {C ^ {\ rm {2}}} {\ rm {-}} s_ {{\ rm {ref}}} ^ {\ rm{2}}} \右]^ {{\ rm{\提高。5例\ hbox {\ scriptstyle 1美元}\ kern -。1 em / \ kern -.15em \低。25ex\hbox{$\scriptstyle 2$} }}}}\]

(4)

在哪里y真的,是房地产的真正价值y为样本。这个公式已经被用于计算sample-specific9月显示在图6。图6展现当前近红外光谱校准21预测(26)更精确的参考价值。特别是,对测试样本的预测5是更精确的近2倍。同样,这个情节展示了两个缺点(设置级别)9月作为未来的不确定性估计预测。首先,它不区分个人样本。第二,由于虚假错误组件的引用方法常常严重高估了真正的预测不确定性。前面的结果暗示一个适当的衡量预测的不确定性是当使用方程(4)获得的。不幸的是,这种说法不能直接观测,验证了,因为真正的参考价值不是可用的。因此,一个人必须诉诸一种间接测试。很容易验证合适的间接计算获得的测试是一个“扩展”9月使用方程(3)。这个过程导致了扩展预测间隔绘制在图7中。预计5%×26 = 1的参考价值之外这些扩展的间隔,而关键t为测试样本值超过3和6。考虑到只有略超过为测试样本6(2.12对2.09),可以推断间隔提供正确覆盖当前数据集。其他的有前景的结果,看费尔南德斯Piernaet al。3

图6。比较sample-specific SEPs (o),参考价值不确定性的标准偏差(- - -)和明显的设置水平9 (- -)。注意特别大(sample-specific)外围测试样本1的9月。

图7。引用值(o)和预测(•)预测区间为95%。计算误差,通过融合的标准差的参考价值不确定性(s<年代ub>裁判sample-specific SEPs = 0.2%的蛋白质)。注意,外围测试样本1是包含在预测区间扩大。

结束语

在正式意义上,校准模型验证需要错误引用值。not-so-error-free相当常见的情况,一个人应该尽量使用估计的参考价值的不确定性对其不利影响。这样一个校正的好处是,它总是导致尖锐的预测不确定性估计,如窄预测区间。Laasonenet al。最近出版了一本全面的验证近红外光谱方法确定咖啡因浓度制药产品。<年代up>6这项工作很容易被考虑进一步sample-specific估计的不确定性。最后,它强调,拟议的方法是,在原则上,而不是局限于近红外光谱校准。而校正在全球设置水平显然是独立于数据和标定方法,方程(4)表明,背后的原因应该是适用于其他类型的光谱和校准PLSR方法相似。半岛综合体育官方APP下载德甲<年代up>3方程(4)的应用使用多路PLSR激发发射荧光的校准数据目前正在积极研究(r .兄弟。Rinnan,新墨西哥州Faber)做准备。

引用

  1. r . DiFoggio达成。Spectrosc。49岁,67 (1995)。<一个h裁判="https://doi.org/10.1366/0003702953963247" target="_blank">https://doi.org/10.1366/0003702953963247
  2. L.K. Sørensen,j .近红外Spectrosc。10日,15 (2002)。<一个h裁判="https://doi.org/10.1255/jnirs.317" target="_blank">https://doi.org/10.1255/jnirs.317
  3. J.A.费尔南德斯Pierna, l·金f . Wahl新墨西哥州Faber和D.L.设计学院,Chemom。智能。实验室系统。65年,281 (2003)。<一个h裁判="https://doi.org/10.1016/S0169-7439(02)00139-9" target="_blank">https://doi.org/10.1016/s0169 - 7439 (02) 00139 - 9
  4. t•费恩达成。统计。32岁的73 (1983)。<一个h裁判="https://doi.org/10.2307/2348045" target="_blank">https://doi.org/10.2307/2348045
  5. 科茨D.B. cooper,Spectrosc。bdapp官方下载安卓版欧洲14日,24 (2002)。
  6. m . Laasonen t . Harmia-Pulkkinen c . Simard m . Rasanen和h . Vuorela肛交。化学。75年,754 (2003)。<一个h裁判="https://doi.org/10.1021/ac026262w" target="_blank">https://doi.org/10.1021/ac026262w
本文率
没有票

Baidu
map