菲利普Bachion de桑塔纳一个
桑德罗Keiichi大谷,b安德烈de Souza马塞洛c
耶稣Ronei Poppid
一个坎皮纳斯大学化学研究所(由),邮政信箱6154,13084 - 971年的坎皮纳斯,SP,巴西
b坎皮纳斯大学化学研究所(由),邮政信箱6154,13084 - 971年的坎皮纳斯,SP,巴西
c巴西农业研究公司Embrapa土壤),22460 - 000,RJ、巴西里约热内卢
d坎皮纳斯大学化学研究所(由),邮政信箱6154,13084 - 971年的坎皮纳斯,SP,巴西。电子邮件:(电子邮件保护)
介绍
联合国预测估计,世界人口将在96亿到2050年。目前的预测表明,喂养如此巨大的人口需要大幅增加(~ 70%)整体粮食产量到2050年。为了实现这一目标,巴西等发展中国家的农业生产率需要显著增加,以提供更高效、可持续的和包容的食物系统抗击贫困和饥饿人口众多。一个完成这项任务所需要的最重要的因素是土壤肥力的理解为了最有效地管理它。
为了达到这个目标,数以百万计的土壤分析执行每年在世界各地增加作物产量。在巴西,大约每年400万土壤肥力分析执行,和土壤有机质(SOM)的一个主要因素,土地管理的支持。然而,两个主要的传统方法确定SOM (Walkley-Black和干燃)耗时和昂贵的,因此不适合大规模使用。此外,Walkley-Black方法是对环境的破坏,产生残留,需要治疗,因此,是不适合可持续农业实践。1
作为替代传统的方法,可见近红外(可见光)可见光光谱可以提供快速、低成本和准确的结果SOM分析以一种环境友好的方式。半岛综合体育官方APP下载德甲同时,方法是无损,不需要额外的样品制备。比较这两种方法如图1所示。
图1所示。比较潮湿的SOM分析和可见光谱方法。
然而,可见光谱宽,叠加组成的乐队,因此这种类型的光谱的应用SOM决定需要多元回归模型的开发能力的关联这些乐队与SOM引用值。半岛综合体育官方APP下载德甲同时,土壤矩阵非常异构、复杂和需要一个巨大的数量的样本,以创建健壮的可见-校准模型。由于这些问题,机器学习方法概括力量曾在高的发展模式。在合适的机器学习方法中,我们突出了支持向量机(SVM)。2
支持向量机
支持向量机是一种基于弗拉基米尔·n·Vapnik提出的机器学习方法,它使用隐式映射的输入矩阵(可见光谱)到一个高维特征空间定义为一个特定的内核函数;在这种情况下,径向基函数(RBF):2
$ $ K \离开({{x_i}, {x_j}} \右)= exp \离开({- \γ{{\左\ | {{x_i} - {x_j}} \右\ |}^ 2}}\右),{\ rm{}} \伽马> 0 $ $
(1)
在特征空间中,线性超平面是由每个类的支持向量之间的最大差距,这超平面设置来解决最初的分离问题。支持向量机还可以扩展到通过加减一个积极的回归问题k数量的y我参考价值,创造一个积极的(y我+k)和消极类(y我- - - - - -k)。在这种情况下,最优分离超平面将经过的原始值y我,因为最好的分离y我+ 0。在线性回归模型中,y预测价值可以使用线性回归函数估计:
y=w·K(x)+b
(2)
在哪里w和b回归线的斜率和偏移量。最优w和b通过最小化方程3和4。
最小化:$ ${1 \ / 2}\左右\ | w \ \ | + C \; \ mathop \ \和limits_ {i = 1} ^ n \离开({{\ xi _i} + \ xi _i ^ *} \右)$ $
(3)
主题:$ $ \左\{{\矩阵{{{y_i} - w。K \离开({{x_i}} \右)- b \;le \ varepsilon + \ \; {\ xi _i}} \ cr {w。K\left( {{x_i}} \right) + b - {y_i}\; \le \;\varepsilon + \;{\xi _i}} \cr {{\xi _i},\xi _i^{\rm{*}} \ge 0} \cr } } \right\}$$
(4)
在哪里ε是敏感参数代表了容忍错误和C成本参数,控制每个支持向量的影响。松弛变量ζ我和ζ我*介绍了占样本不在于ε敏感区域。3
在这个过程中两个参数的组合必须优化、成本参数(C)已经描述和RBF内核参数(γ)。γ是regularisation RBF函数的参数,控制这个函数的宽度。为了减少所需的时间来寻找这最佳组合,可以使用贝叶斯优化。贝叶斯优化算法试图减少交叉验证的均方根误差(RMSECV)在一个特定的域参数;在这种情况下(103到103]C和γ。该算法选择的组合C和γ点提供RMSECV最大的潜在的改进。4支持向量机模型和贝叶斯优化在Matlab中实现R2016b统计和机器学习工具箱11.0。4
材料和方法
为了获得一个光谱库,代表巴西的主要生产地区,42471年从巴西的几个地区收集土壤样本。SOM参考分析是基于Walkley-Black方法。这些分析与伊布实验室合作,巴西拥有认证水平的巴西农业研究公司(“巴西农业研究公司”的土壤)和ISO / IEC 17025:2005认证。
样本在可见光谱采集之前,烤箱干40岁°C 48小时,用橡皮锤打破土壤集群和颗粒的大小是由筛控制(Ø< 2毫米)。使用可见光谱仪光谱获得定制的决心,称为SpecSoil-Scan (Speclab控股有限公司巴西坎皮纳斯- SP)。这个工具可以分析每批40土壤样本和光谱范围是432 - 2448 nm,光谱分辨率为3.3 nm。
主成分分析(PCA)模型应用于光谱数据集发现离群值。霍特林T值高的样品2和残差光谱数据(问统计数据)在5%的显著性水平被认为是离群值。霍特林T2利用相关,衡量的距离从中心的数据和样品吗问残差表示未建模的可见光谱。5
代表样本选择模型的开发和验证,导致14157 28314样品的校正集和验证集。
结果与讨论
所有土壤样品的原始可见光谱如图2所示,在光谱是由黑线表示。近红外光谱包含有用的信息与SOM,由于吸收CC, C = C, CH, CN, NH和化学乐队哦。SOM的可见区域,信息可以确定从吸收乐队由于生色团和黑暗的土壤。6
图2。原始可见土壤光谱(a)和(b)预处理光谱。
减少基线变异和光谱噪声,可见光谱被Savitzky-Golay平滑预处理和一阶导数,窗口大小为11分。7预处理光谱如图2 b,吸收带的主要变化在400 - 600,1100,1400,1800 - 2000和2200 - 2400海里突出显示,最常见的土壤样本。6
的三个主要吸收带是在该地区500 - 650 nm、1400 nm和1900 nm。吸收在500 - 650海里可以与矿物质含有铁和乐队在1400 nm和1900 nm的哦。吸收带在1100 - 1150海里可以联系到芳烃和碳氢键,并在2200 - 2500海里,他们主要是由于涉及metal-OH的振动。6
使用校正样本构建的支持向量机模型和最优组合的选择C和γ值进行如上所述。为了避免过度拟合的回归模型,验证集被认为是一组未知样本,这些样本的选择没有影响C和γ参数的支持向量机模型。
显示参考与预测值的散点图的SVM模型如图3所示。由于大量的样本包含递归的彩条每个插入的参考价值预测的值在这个阴谋。SOM参考含量两组分布范围进行评估。的R2卡尔,R2瓦尔RMSEC和RMSEP关闭指示之间的一致性校准和验证集。换句话说,充分支持向量机回归模型建模的巨大多样性的土壤光谱库没有过度拟合模型。
图3。参考图与SVM模型预测值的校准(a)和验证(b)组。
分析预测复发的值在图3中,可以得出这样的结论:大部分样本预测与SOM的价值观接近参考的。只有少数样本(深蓝色)的预测价值的参考价值。
这一事实也可以观察到在图4中,显示了直方图的预测误差校准和验证集。直方图显示,大多数样本预测与残留的2×RMSE两组,而几个样本预测更高的残留物。
图4。直方图的预测误差校准(a)和验证(b)组。
结论
支持向量机算法成功地处理一个广泛而复杂的土壤光谱库确定SOM的内容。巴西的土壤非常多样化和异构关于化学成分和土壤有机质含量。的鲁棒性提出的涉及可见光谱方法和机器学习创造了很高的期望的可能性减少/消除使用重金属在土壤肥力分析试剂。同时,方法有潜力用作替代传统方法在未来。土壤肥力的知识,支持绿色分析方法,可以为提高可持续的农业生产力。
确认
作者感谢西班牙de Ciencia e Tecnologia de Bioanalitica (INCTBio),慰问Nacional de Desenvolvimento Cientifico e学府(CNPq、巴西、465389/2014-7和303994/2017-7),Coordenacao de Aperfeicoamento de Pessoal de含量比(斗篷、巴西、财务代码001)和Fundacao德帕罗尽管做Estado de圣保罗(FAPESP,必须占州政府巴西,2014/508673)对金融支持。我们也感谢Speclab控股有限公司提供样品和SpecSoil-Scan可见设备®,“巴西农业研究公司”(项目编号里14.05.01.001.01.00.00)。
引用
- de Souza F.B. de桑塔纳,上午和R.J. Poppi,土壤有机质分析“绿色的方法使用一个国家近红外光谱库与学习机器”,科学。总环境。658年,895 - 900 (2019)。https://doi.org/10.1016/j.scitotenv.2018.12.263
- c·科尔特斯和诉Vapnik支持向量网络”,马赫。学习。20.273 - 297 (1995)。https://doi.org/10.1023/A: 1022627411411
- 公关Filgueiras J.C.L.阿尔维斯,C.M.S.悲伤,E.V.R.卡斯特罗,J.C.M.迪亚斯R.J. Poppi,“多元校正模型的残差评价趋势排列测试”,Chemometr。智能。实验室系统。。133年,33-41 (2014)。https://doi.org/10.1016/j.chemolab.2014.02.002
- Mathworks,统计和机器学习工具TM用户指南R2017a。MatLab,页1 - 9214 (2017)。
- r .兄弟A.K. Smilde,“主成分分析”,肛交。方法。6,2812 - 2831 (2014)。https://doi.org/10.1039/c3ay41907j
- b·斯坦伯格R.A. Viscarra Rossel Mouazen上午,j . Wetterlind m . Mouazen和j . Wetterlind“可见光和近红外光谱在土壤科学”,半岛综合体育官方APP下载德甲放置阿格龙。107年,163 - 215 (2010)。https://doi.org/10.1016/s0065 - 2113 (10) 07005 - 7
- a . Savitzky和M.J.E.戈利”,平滑和分化的数据简化的最小二乘法程序”,肛交。化学。36岁,1627 - 1639 (1964)。https://doi.org/10.1021/ac60214a047