logo资料库

猕猴桃近红外光谱MLR建模中的波长选择.pdf

第1页 / 共6页
第2页 / 共6页
第3页 / 共6页
第4页 / 共6页
第5页 / 共6页
第6页 / 共6页
资料共6页,全文预览结束
中国科技论文在线 猕猴桃近红外光谱 MLR 建模中的波长选择# http://www.paper.edu.cn 傅霞萍,应义斌** (浙江大学生物系统工程与食品科学学院,杭州 310058) 摘要:光谱波长选择方法在近红外光谱分析建模中相当重要。本研究采用逐步回归分析 (stepwise regression analysis)法和连续投影算法(successive projections algorithm, SPA),建立猕猴桃维生素 C 含量的定量多元线性回归(multiple linear regression,MLR) 预测模型。以 108 个猕猴桃样品为检测对象, 在剔除异常样品基础上,将四分之三样品作为 校正集,剩余四分之一作为预测集,分别建立 SMLR 和 SPA-MLR 模型。SPA-MLR 模型的预测 性能和稳定性均优于 SMLR 模型,校正集的相关系数和误差分别为 0.91 和 6.17 mg/100g, 预测集的相关系数和误差分别为 0.89 和 9.6 mg/100g。结果显示:有效的波长选择可以简 化模型,提高建模效率。 关键词:近红外;波长选择;逐步回归分析;连续投影算法 中图分类号:O657.3 Wavelength selection in MLR modeling of kiwifruit near infrared spectra FU Xiaping, YING Yibin (College of biosystems engineering and food science, Zhejiang University, HangZhou 310058) Abstract: Wavelength selection is very important in near infrared spectroscopy. In this paper, stepwise regression and successive projections algorithm (SPA), were used to establish multiple linear regression (MLR) quantitative prediction model for vitamin C content of kiwifruit. 108 kiwifruit samples were detected. After outlier removing, three quarters of sampels were used for calibration and the remaining one quarter were used for prediciton. SMLR and SPA-MLR models were established. The prediciton results and robustness of SPA-MLR model were better than those of SMLR model, for calibration: r=0.91, RMSEC=6.17 mg/100g, for validation: r-0.89, RMSEP=9.6 mg/100g. The results showed that valid wavelength selection can simplify the model and improve modeling efficiency. Keywords:Near infrared; Wavelength selection; Stepwise regression; Successive projections algorithm 0 引言 近红外(near infrared,NIR)光谱结合定量校正模型的分析技术是快速、无损检测样品 组分含量的一项新技术,本世纪来已获得越来越多人的关注,应用的领域、对象非常广泛[1]。 光谱波长选择在近红外光谱分析技术中相当重要。在应用 NIR 光谱分析技术进行光谱 定性、定量分析时,为了选择更适合于所测样品品质、包含待测样品品质更多信息的波长, 5 10 15 20 25 30 需要解决对复杂光谱中冗余信息的剔除问题,在测定谱区对与所测品质信息相关的波长点进 行优化选择,减少建立数学模型的光谱数据点,提高建模效率。 35 目前在多元线性回归建模中常用的波长选择方法主要有相关系数法、方差分析法、逐步 回归分析法(stepwise regression analysis)、连续投影算法(successive projections algorithm, SPA)、遗传算法(genetic algorithm,GA)等。相关系数法通过计算和选取光谱阵各个波 长点数据与组分浓度数据的相关系数实现波长选择,方差分析法通过对校正集光谱阵在各波 40 长下的方差分析结合一定阈值来选择波长区间;这两种方法选择的波长往往都不是最优的。 遗传算法比较容易收敛到全局最优,但是由于其随机性,无法保证每次波长选择结果的一致, 基金项目:高等学校博士学科点专项科研基金(20070335027);中央高校基本科研业务费专项资金 作者简介:傅霞萍,(1980-),女,讲师,主要研究方向:农产品品质无损检测技术与装备 通信联系人:应义斌,(1964-),男,教授,主要研究方向:农产品/食品品质与安全的快速无损检测技术 与装备. E-mail: yingyb@zju.edu.cn - 1 -
中国科技论文在线 http://www.paper.edu.cn 而且其迭代过程要花费大量的时间,限制了它的使用[2]。 连续投影算法用于 MLR 建模的变量筛选可以降低共线性问题[3],SPA-MLR 模型的预测 性能在与其它建模方法预测结果的比较中也体现出其优势[4-5]。 本研究采用连续投影算法进 行有效波长的选择,建立猕猴桃维生素 C 含量的定量预测 MLR 模型,并与逐步多元线性回 归模型的预测结果进行比较分析。 1 材料与方法 1.1 实验材料 本研究所用的实验材料是从果品批发市场购买的“Zespri Green”猕猴桃样品,共用了 108 个。样品采购回来后先在实验室条件下(室温 25℃左右,相对温度 65%左右)放置一段时 间,使样品状态基本适应实验条件;在光谱采集前,用纱布轻轻擦拭表皮进行简单的清理, 然后对样品进行按序编号。 1.2 光谱采集 本研究所用的光谱仪器为美国海洋光学仪器公司生产的微型光纤光谱仪(Ocean Optics Inc., USA),光谱仪的波长范围为 200-1100 nm,波长分辨率为 3.2 nm。采用半透射的光谱 检测方式采集水果的透射光谱,水果放置在托盘上,光源置于水果传输带两侧。光照射到水 果上与果肉发生作用后,透射光通过接收光纤被检测器接收。为了防止杂散射光的干扰并适 应水果形状的变化,托盘与水果表面接触处采取了防漏光措施。在测量水果光谱之前,首先 要测量参比光谱和暗场光谱作为背景。 光谱采集软件采用的是由研究团队成员在光谱仪配套软件提供的二次开发功能上用 Visual C++编程语言所开发的动态光谱采集软件。 1.3 维生素 C 含量的检测方法 在本研究中,猕猴桃维生素 C 含量采用高效液相色谱分析方法进行测定,仪器选用美 国 Waters-600 型高效液相色谱仪(Waters, Milford, MA),并配 Waters 紫外检测器,检测波 长为 245 nm,C18 色谱柱,流动相为 pH2.55 的正磷酸水溶液。用 4.5%的偏磷酸溶液作为提 取液,标样和样品溶液的进样量均为 5 μL。 1.4 数据分析 光谱数据主要用了 OMINC v6.1(Thermo Electron Corp., USA)、TQ Analyst v6(Thermo Electron Corp., USA)和 MATLAB(MathWorks Corp., USA)等软件进行处理和分析。在综 合原始光谱、Chauvenet 检验(马氏距离)、杠杆值和学生残差 t 检验等对异常样品进行剔 除的基础上,本研究采用多元线性回归进行定量建模分析。多元线性回归又称逆最小二乘法 或 P 矩阵法,是早期近红外光谱定量分析常用的校正方法,在 MLR 中只要知道样品中某些 组分的浓度就可以建立其定量模型,唯一的要求就是选择好对应于被测组分的特征光谱吸 收。关于该方法的具体介绍在很多文献中都有,此处不再赘述。本研究中,我们主要结合波 长逐步回归分析和连续投影算法这两种波长筛选方法,分别建立 SMLR 模型和 SPA-MLR 模型。 (1)逐步回归分析方法 [2] 逐步回归法是 MLR 中选择回归变量的一种常用数学方法,即利用逐步回归法按一定显 45 50 55 60 65 70 75 - 2 -
中国科技论文在线 http://www.paper.edu.cn 著水平筛选出统计检验显著的波长,再进行多元线性回归计算。逐步回归法是逐个选入对输 80 出结果有显著影响的变量,每选入一个新变量后,对选入的各变量逐个进行显著性检验,并 剔除不显著变量。如此反复选入、检验、剔除,直至无法剔除且无法选入为止。具体算法参 见文献[3]。早期的近红外光谱分析大都采用 MLR 方法,逐步回归法在波长选取方面起到了 重要的作用。在使用逐步回归法时经常遇到的问题是输入变量间具有多重交互作用,输入变 量不仅与输出相关,而且彼此相关。在此情况下,模型中的一个输入变量可能会屏蔽其它变 量对结果的影响。 85 (2)连续投影算法 [4, 5] 连续投影算法,能够从光谱信息中充分寻找含有最低限度的冗余信息的变量组,使得变 量之间的共线性达到最小;同时能大大减少建模所用变量的个数,提高建模的速度和效率。 其算法原理为: 90 分别记 xk (0)和 N 为初始的迭代向量和需要提取的变量的个数,光谱矩阵的列变量数为 J 个,SPA 的算法步骤如下: ①在第 1 次迭代开始前( n = 1),任选光谱矩阵的任意 1 列 j,把校正光谱阵的第 j 列赋 值给 xj ,记为 xk (0); ②把还没被选入的列向量位置的集合记为 s,s = { j,1 ≤ j≤J,j ∉ { k (0) ,…,k ( n- 95 1) } } ; ③分别计算 xj 对剩下列向量的投影,Pxj= xj - ( xT j xk ( n - 1) ) xk ( n - 1) ( xT k ( n - 1) xk ( n - 1) ) - 1, j∈s; 100 105 110 ④记 k (n) = arg(max(‖Pxj‖) , j∈s); ⑤令 xj = Pxj,j∈s; ⑥ n = n +1,如果 n
115 120 125 130 中国科技论文在线 http://www.paper.edu.cn 图 1 猕猴桃原始光谱 Chauvenet 检验结果 Fig. 1 Chauvenet test result for kiwifruit original spectra 图 2 猕猴桃光谱与 Vc 含量的杠杆值和学生残差 t 检验结果 Fig.2 Leverage and student residue T test result of kiwifruit spectra and vitamin C content 图 1 和图 2 分别是猕猴桃原始光谱的 Chauvenet 检验与杠杆值和学生残差 t 检验的结果。 根据马氏距离值,被认为有可能是光谱异常样品数量较多,其中距离值最大的四个样品分别 是 29 号样、6 号样、87 号样和 12 号样。杠杆值和学生残差 t 检验结果显示,除了以上四个 样品外,7 号样的杠杆值也较大。综合考虑两个检验的结果,我们将这五个样品视作异常样 品。未剔除异常样品前,原始光谱所建 PLSR 模型的留一交互验证结果为:r=0.79, RMSECV=9.65 mg/100g;剔除这两个样品后,PLSR 的留一交互验证结果为:r=0.81, RMSECV= 9.36 mg/100g,可见剔除异常样品对模型还是有促进作用的。 2.2 光谱模型的建立与分析 2.2.1 猕猴桃维生素 C 含量的 SMLR 模型 表 1 猕猴桃维生素 C 含量的 SMLR 建模结果 Tab. 1 SMLR modeling results of vitamin C content of kiwifruits RMSEC (mg/100g) RMSEP (mg/100g) 包含变量信息(%) 波长数 5 10 15 20 25 6 r 0.73 0.82 0.88 0.92 0.94 0.75 10.6 8.79 7.39 6.06 5.43 10.2 10.8 12.1 18.4 19.6 22.2 10.1 - 4 - 53.2 67.7 77.2 84.6 22.2 56.8 RPD 1.4 1.3 0.8 0.8 0.7 1.5
中国科技论文在线 http://www.paper.edu.cn 135 140 在建立猕猴桃维生素 C 含量的 SMLR 模型时,分别选取 5 个、10 个、15 个、20 个和 25 个波长进行建模,得到每个模型的相关系数 r,RMSEC 和 RMSEP 等结果,根据结果再 在较优波长数附近进行进一步寻优。猕猴桃维生素 C 含量的 SMLR 建模结果如表 1 所示: 随着波长数的增加,校正相关系数变大而 RMSEC 变小,但 RMSEP 也变大,选用 5 个波长 所建模型的结果相对较好,然后继续在 5 个波长附近寻优,得到 6 个波长时的 SMLR 模型 结果最优,r=0.75,RMSEC 和 RMSEP 分别为 10.2 mg/100g 和 10.2 mg/100g。从以上结果可 以发现,猕猴桃维生素 C 含量的 SMLR 模型相关系数较低,误差较大,模型预测结果的 RPD 值<1.5,说明模型预测性能和稳定性欠佳。 145 150 155 图 3 猕猴桃维生素C含量的 SPA-MLR 建模结果 Fig. 3 SPA-MLR modeling results of vitamin C content of kiwifruits 2.2.2 猕猴桃维生素 C 含量的 SPA-MLR 模型 在对猕猴桃维生素C含量进行 SPA-MLR 建模时,将变量范围设为 3-30,分别计算该范 围内使用不同 变量数时校 正集和预 测集的相关 系 数与误差。猕 猴桃维生素 C含量的 SPA-MLR 建模结果如图 3 所示,可以发现:校正集的相关系数基本上是随变量数(即波长 数)的增加逐渐升高,而误差的趋势正好相反,但是对于预测集,相关系数和误差与变量数 之间则没有明显的变化规律。选用 28 个波长所建模型的结果相对较好,RMSEC 和 RMSEP 分别为 6.17 mg/100g 和 9.6 mg/100g。 与猕猴桃维生素C含量的 SMLR 建模结果相比,SPA-MLR 模型结果明显优于 SMLR 模 型结果,相关系数较高,误差较小,且 RMSEC 与 RMSEP 均比较接近,说明 SPA-MLR 模 型的预测性能和稳定性均较优。但 MLR 模型对猕猴桃维生素C含量的总体预测效果依然欠 佳,模型的 RPD 值均小于 3,模型稳定性有待提高。表 2 所示是分别是猕猴桃维生素C含 量的 SMLR 较优模型和 SPA-MLR 较优模型所选波长,两种方法所选的建模波长差异较大。 - 5 -
160 165 170 175 180 185 中国科技论文在线 http://www.paper.edu.cn 表 2 SMLR 较优模型与 SPA-MLR 较优模型所选波长 Tab. 2 Selected wavelengths of SMLR and SPA-MLR models SMLR 模型所选波长(nm) 563.78, 702.38, 1018.45, 1024.80, 1030.72, 1031.99 3 结论 SPA-MLR 模型所选波长(nm) 843.08, 847.85, 851.32, 863.89, 866.92, 869.94, 874.27, 878.16, 882.47, 904.46, 910.05, 918.22, 930.23, 1020.15, 1042.13, 1045.93, 1048.88 本文主要研究猕猴桃可见/近红外光谱多元线性回归建模中的波长选择。经过异常样本 剔除后,最终用于维生素C含量定量分析的猕猴桃样本数为 102 个。建立猕猴桃维生素 C 含量 MLR 模型,比较了基于逐步回归和连续投影算法两种波长选择方法的对维生素C含量 模型预测性能的影响,结果显示:SPA-MLR 模型的预测性能和稳定性均优于 SMLR 模型。 [参考文献] (References) [1] NICOLAI B M , BEULLEUNS K, BOBELYN E, et al. Nondestructive measurement of fruit and vegetable quality by means of NIR spectroscopy: A review [J]. Postharvest Biology and Technology, 2007, 46: 99-118. [2] 褚小立, 袁洪福, 陆婉珍. 近红外分析中光谱预处理及波长选择方法进展与应用[J]. 化学进展, 2004, 16(4): 528-542. [3] ZOU X, ZHAO J, Malcolm J W, et al. Variables selection methods in near-infrared spectroscopy[J]. Analytica Chimica Acta, 2010, 667: 14-32. [4] KAWAKAMI HARROP GALVAO R, FERNANDA PIMENTEL M, CESAR UGULINO ARAUJO M, et al. Aspects of the successive projections algorithm for variable selection in multivariate calibration applied to plasma emission spectrometry[J]. Analytica Chimica Acta, 2001, 443: 107-115. [5] ARAUJO M C U, SALDANHA T C B, GALVAO R K H, et al. The successive projections algorithm for variable selection in spectroscopic multicomponent analysis[J]. Chemometrics and Intelligent Laboratory Systems, 2001, 57: 65-73. [6] 许禄. 化学计量学方法[M]. 北京: 科学出版社, 1995. [7] 陈斌,孟祥龙,王豪. 连续投影算法在近红外光谱校正模型优化中的应用[J]. 分析测试学报, 2007, 26(1): 66-69. - 6 -
分享到:
收藏