中国科技论文在线
http://www.paper.edu.cn
基于 MC-UVE、GA 算法及因子分析对葡萄
酒酒精度近红外定量模型的优化研究 #
王怡淼1,2,朱金林3,张慧4,赵建新1,顾小红2**
(1. 江南大学食品学院,无锡 214122;
2. 江南大学食品科学与技术国家重点实验室,无锡 214122;
3. 浙江大学控制科学与工程学院,杭州 310027;
4. 张家港出入境检验检疫局,张家港 215600)
摘要:本实验主要对葡萄酒酒精度偏最小二乘(Partial least squares, PLS)回归模型进行优
化研究。使用近红外光谱仪采集葡萄酒样本的光谱数据,用于建立酒精度定量模型,实现在
线快速检测。使用蒙特卡罗无信息变量消除(MC-UVE)和遗传算法(GA)进行变量选择,
基于被选择的变量分别进行 PLS 和因子分析(Factor analysis, FA)建立回归模型。结果表明,
MC-UVE-GA-FAR 模型预测集相关系数为 0.946、预测均方根误差为 0.215,效果优于
MC-UVE-GA-PLS 模型。虽然与基于全范围原始光谱所建 PLS 回归模型相比,模型效果略
有下降,但是模型所选变量个数仅为 6,极大地简化了模型,说明 MC-UVE 和 GA 算法可
以实现模型的优化。
关键词:近红外光谱;葡萄酒;遗传算法;蒙特卡罗无信息变量消除;因子分析
中图分类号:TS207.3
5
10
15
20
Optimization of Near Infrared Quantitative Model for
Wine Alcohol Content Based on MC-UVE, GA Algorithm
and Factor
Wang Yimiao1,2, Zhu Jinlin3, Zhang Hui4, Zhao Jianxin1, Gu Xiaohong2
25
(1. School of Food Science and Technology, Jiangnan University, Wuxi, Jiangsu 214122, China;
2. State Key Laboratory of Food Science and Technology, Jiangnan University, Wuxi, Jiangsu
30
35
40
214122, China;
3. College of Control Science and Engineering, ZheJiang University, Hangzhou 3100027, China;
4. Zhangjiagang Entry-Exit Inspection and Quarantine Bureau of P.R.C., Zhangjiagang, Jiangsu
215600, China)
Abstract: This study is focused on the optimization of the partial least squares (PLS) regression model
of wine alcohol content. The near-infrared spectroscopy was used to collect the spectral data of the
wine samples and the data was used to establish the quantitative model of alcohol to achieve rapid
on-line detection. Partial least squares (PLS) regression model and factor analysis(FA) model were
established based on the selected variables, chosen by Monte-Carlo uninformative variable elimination
(MC-UVE) and genetic algorithm (GA). The results showed that the MC-UVE-GA-RAR model, which
yielded correlation coefficient of 0.946 and root mean square error of prediction of 0.215, was superior
to the MV-UVE-GA-PLS model. In comparison of the performances of the full-spectra PLS regression
model, the model based on the selected wave numbers were slightly lower, but 6 variables in total were
selected, which greatly simplified the model. The study indicates the MC-UVE and GA algorithms can
optimize the model.
Key words: Near-infrared spectroscopy; Wine; Genetic algorithm; Monte-Carlo uninformative
variable elimination; Factor analysis
基金项目:国家质检总局科技项目(2015IK143)
作者简介:王怡淼(1992 年-),女,硕士研究生,主要研究方向:食品快速检测
通信联系人:顾小红(1971 年-),女,高级工程师,主要研究方向:图谱解析,食品快速无损检测. E-mail:
guxh@jiangnan.edu.cn
- 1 -
中国科技论文在线
http://www.paper.edu.cn
45
0 引言
葡萄酒在我国起源较早,有着悠久的历史,同时,随着人们生活条件的改善以及我国酿
酒技术的提高,葡萄酒越来越被大众所接受,成为餐桌上的必备饮品。葡萄酒的主要成分包
括酒精、糖类、醇类、有机酸、维生素、多酚类物质等,每天适量饮用能够增强免疫力,抗
氧化[1],预防癌症、动脉硬化[2]、糖尿病等。葡萄酒的品质目前仍依靠专业的品酒师进行感
50
官评价,或者依靠质谱等大型设备对其进行理化检测,但上述两种方法不仅耗时耗力,而且
前期投入较大,对样品预处理要求高。因此为了快速智能地对葡萄酒品质进行检测,提高葡
55
萄酒的市场价值,需要一种快速无损精确的检测方法。
近年来,国内外已有许多针对葡萄酒快速检测的研究。主要利用红外光谱技术[3,4]、高
效液相色谱法[5]、气相色谱-质谱联用[6]等方法结合化学计量学对葡萄酒中的一些成分进行快
速检测,其中又以红外光谱技术最为简便快速,能满足工业生产在线无损检测的要求。
Urbano-Cuadrado [7]等人利用近红外光谱对葡萄酒样本的 15 个参数分别建立了 PLS 模型,大
部分模型效果良好;王豪[8]等人使用傅利叶近红外光谱结合化学计量学方法快速测定葡萄酒
中的酒精度;D. Cozzolino[9]使用近红外光谱对葡萄酒中的酚类化合物浓度进行预测。
通常,在对葡萄酒定量模型进行校准时都是使用全光谱,但其中往往包括了一些与样品
60
无关的信息,这不仅影响建模效率,而且会降低模型的稳定性和准确性。因此,选择合适的
算法对变量进行筛选是很有必要的,应用变量选择来简化模型,提高建模的效率。在利用近
红外光谱技术建立模型时,最常用的变量选择方法有模拟退火(SA)[10],遗传算法(GAs)
[11],人工神经网络(ANN)[12],无信息变量消除法(UVE)[13]和连续投影算法(SPA)[14]。
本研究主要基于 GA 和 MC-UVE 算法选择最有效的特征波长,并进一步对葡萄酒酒精度进
65
行因子分析(FA),探究葡萄酒定量模型的优化方法。
1 实验
1.1 样品
试验的样品均来自张家港出入境检验检疫局,117 个样品分别产自西班牙(n=11),智
利(n=38),澳大利亚(n=16),法国(n=42),阿根廷(n=4),美国(n=3),意大利
70
(n=3),密封保存在 4℃的冰箱中。实验前将样品放置于 25℃下 2h 后进行采样。
1.2 近红外光谱采集
使用 FT-NIR 光谱仪(Thermo Fisher,USA)进行近红外光谱采集,每次实验前开机预
热 1 h。光谱采集范围为 4000-10000 cm -1(1000-2500 nm),扫描次数 16 次,分辨率为 8 cm-1。
在透射模式下对每个样品进行光谱采集。将样品在 25℃下放置 2 h 后,然后将样品置于光程
75
1mm 的矩形石英比色皿中,使用 RUSULT 软件收集光谱数据并控制仪器,光谱数据输出格
式为吸光度。每个样品扫描 10 次,得到平均值。
1.3 参考值的测定
酒精度的测定:酒精计法[15] 。
- 2 -
中国科技论文在线
1.4 光谱预处理
http://www.paper.edu.cn
80
由于近红外光谱吸收灵敏度较差且吸收峰重叠较严重,因此近红外光谱数据中除了样本
信息,还会包含许多与样本无关的信息,如仪器状态、光的散射、外部环境噪音等,这可能
导致近红外光谱信噪比降低、基线漂移等情况。因此,需要对光谱信息进行预处理,以此来
降低无关信息对建模结果的影响。本实验采用了各种预处理方法,包括 Savitzky-Golay 九点
平滑,多元散射校正(MSC),基线校正(baseline)、一阶导数(1st der)和二阶导数(2nd
85
der)等。
1.5 因子分析方法(FA)
因子分析是基于概率回归模型框架下进行的[16],与传统的回归分析模型相比,概率模
型具有几个优势[17]:(1)在概率建模框架下,能够将有效的最大期望(EM)化算法纳入
到参数学习中;(2)可以以有原则的方式制定概率模型的混合形式;(3)可以通过概率模
90
型解决数据遗漏问题;(4)可以对概率模型进行进一步的贝叶斯(Bayes)处理,用于自动
确定潜变量模型的维度。但是,PCA 和 PCR 的概率模型都有一个限制假设:不同的过程变
量使用相同的噪声方差。为了解决这个问题,将因子分析引入概率模型中。
传统的FA模型集中在高斯分布的潜变量t上,而原始测量变量x被视为t和噪声e的线性组
合,其目的是找到最可能的参数集[18]。传统的FA模型只集中在一个无监督的数据集上,而
监督的FA分析试图在一对数据集X和Y之间建立模型,X= [x1, x2, . . . , xn]T∈Rn×m ,Y = [y1,
y2, . . . , yn]T∈Rn×r,其中m代表X的测量变量的数量,r代表Y的测量变量的数量,监督FA模
型的结构如下方程式所示:
95
100
其中Ax∈Rm×k,Ay∈Rr×k,分别是X和Y的因子载荷矩阵。 t∈Rk×1,是潜在因子向量,
而ex∈Rm×1,ey∈Rr×1分别是X和Y的测量噪声。在本实验中,x即代表波长,y即代表酒精度。
1.6 蒙特卡罗无信息变量消除法(MC-UVE)
UVE 可以消除无用的信息变量,通常使用稳定性来评估每个变量的可靠性。在 UVE 算
法中,使用 leave-one-out(LOO)交叉验证,而对于 MC-UVE 来说,是使用 MC 交叉验证
105
来获得稳定性的值,这两者的区别在于,LOO 交叉验证一次只留一个样品用于验证,而 MC
交叉验证一次筛选出大部分样品以进行验证。这增强了验证对建模的影响,并提高了选出最
佳模型的可能性[19]。通过 MC 算法,从训练集中随机选择一定量的样本作为用于构建 PLS
子模型的训练子集,并且该过程重复 M 次。然后,计算 PLS 回归系数 b(M×p)的矩阵,
通过下式计算每个变量 j 的稳定性:
110
其中 mean(bj)和 std(bj)是变量 j 的回归系数的平均值和标准偏差。绝对稳定性越大,相
应变量越重要。
1.7 遗传算法(GA)
遗传算法是基于自然遗传和自然选择过程建立的一种优化方法,主要包括五个基本步
- 3 -
115
120
中国科技论文在线
http://www.paper.edu.cn
骤:(1)变量编码;(2)初始化群体;(3)计算适应度值;(4)复制;(5)变异。不
断重复步骤(3)-(5),直到达到终止条件[20]。应用遗传算法对近红外建模波长进行优化选择是
基于该算法能够不断的对模型进行简化以及对有利于提高建模效果的波段或者波长点进行
优化组合,从而达到最佳的预测效果[21]。
1.8 模型的评估
应用校正相关系数(R2
cal)和预测相关系数(R2
pre),校正均方根误差(root mean square
error of calibration,RMSEC)和预测均方根误差(root mean square error of prediction,RMSEP)
对所开发的模型进行评估[22]。一般来说,好的模型应具有较高的 R2
pre 值和较低的
RMSEC 和 RMSEP[23]。
cal 和 R2
2 结果与讨论
125
2.1 葡萄酒近红外光谱
图 1 显示了随机选取的 20 个葡萄酒样品的近红外透射光谱图,从图中可以看出,不同
产地的葡萄酒具有相似的近红外吸收峰。其中,在 4996cm-1 处的吸收峰,其吸光度接近 3,
说明此时透过样品的近红外光很微弱,极易受到噪声等外界环境的影响,因此在分析时应把
其剔除。6862cm-1、4996cm-1 两处较强的吸收峰分别与葡萄酒中碳水化合物和水的-OH 基团
的倍频与合频吸收相关,4300-4500cm-1 波段内的小峰主要与样品中各组分的 C-H 键的合频
吸收有关,而 5250-6000cm-1 的峰则是与 C-H 键的二倍频吸收有关[24]。
130
图 1 葡萄酒样本近红外透射光谱图
Fig. 1 NIR transmission spectra of wine samples
135
2.2 样品的酒精度含量
葡萄酒样品中酒精度含量较为集中,符合用于建模的组分含量应尽量均匀分布的原则,
因此可直接用于建模。参考国标法测定的葡萄酒样品中酒精度含量,作为建模时的标准数据,
具体数据如表 1 所示。
140
表 1 葡萄酒样品酒精度参考值
Table 1 alcohol content of wine samples
Index
Max
Min
Mean
SD
alcohol content(%vol)
14.7
11.0
12.8
0.9
- 4 -
中国科技论文在线
http://www.paper.edu.cn
2.3 使用全谱结合 PLS 分析方法建立的酒精度回归模型
对光谱预处理后使用全谱范围进行 PLS 分析,建立回归模型。从表 2 可以看出,光谱
进行预处理后对模型的性能影响不大,使用原始光谱建立的定量模型 R2 和 RMSEC 分别为
0.997 和 0.053,因此使用原始光谱数据进行进一步分析。
145
表 2 使用不同的预处理方法建立的酒精度 PLS 模型
Table 2 PLS modeling of alcohol content after using different pre-processing methods
Pretreatment
Raw
MSC + Derivative
Baseline+ Derivative
Derivative +SNV
Smoothing + SNV
Calibration
Cross-validation
RMSEC
0.053
0.056
0.056
0.066
0.064
R2
0.997
0.996
0.996
0.994
0.995
RMSECV
0.057
0.066
0.070
0.234
0.067
R2
0.996
0.995
0.994
0.938
0.994
2.4 基于 MC-UVE 方法的变量选择
MC-UVE 算法是用于消除与样本无关的变量。在进行分析时,使用稳定性指标对变量
进行评估,以此来决定该变量的重要性。图 2 所示为通过 MC-UVE 获得的酒精度的每个变
150
量的稳定性值。虚线表示阈值,选择绝对值大于阈值的变量用于建模。对于 MC-UVE 算法,
选择变量的数量非常关键,如果变量数量较少,有用信息会被忽略;如果将不相关的变量包
含进去,将会影响模型的预测性。校正模型 RMSEC 计算方法为每增加 10 个变量,则进行
重新计算。同时,作为 GA-PLS 模型输入的隐变量(LVs),数目设置为 1 到 10,根据 R2
确定最佳的 LV 值。在这项工作中,当 LV 值为 4 时,获得了最高的 R2
建立的 MC-UVE-PLS 模型的预测结果如表 4 所示。与全频谱 PLS 模型相比,R2
为 0.942,RMSEP 为 0.220。
pre
pre。使用 29 个变量
pre 略有降低
155
图 2 使用 MC-UVE 算法对酒精度预测的变量的稳定性分布
Fig. 2 Stability distribution of variables for prediction of the alcohol content by MC-UVE method
160
2.5 基于 GA 算法的变量选择
在经过 MC-UVE 选择之后,变量数减少到 29 个,为了对模型进行进一步简化,将
MC-UVE 选择的 29 个变量作为 GA 算法的输入。经 GA 运算后的光谱变量选择结果如表 3
所示,将所选择的光谱变量数建立 PLS 校正模型(MC-UVE-GA-PLS),并用未知样品进行
预测,R2
pre 及 RMSEP 见表 3。同时,对基于全谱数据集并且经过 MC-UVE-GA 算法选择的
变量进行 FA 分析,建立 MC-UVE-GA-FAR 模型,选定波长数为 6,模型的参数为 R2
pre=0.946,
RMSEP=0.215,高于 MC-UVE-GA- FAR 模型的参数。表明概率偏最小二乘分析方法能够提
高模型的性能,6 个波长被认为是用作 FA 模型输入的最优变量,分别是 4018.93cm-1、4022.78
cm-1、4026.64 cm-1、4234.91 cm-1、4238.77 cm-1、4242.63 cm-1。
165
- 5 -
中国科技论文在线
http://www.paper.edu.cn
与基于全光谱的 PLS 模型相比,MC-UVE-GA-FAR 模型的 R2
pre 有所下降,RMSEP 有
所上升,但 MC-UVE-GA-FAR 模型中使用的变量远低于全谱 PLS 模型,这将有助于简化预
170
测模型,实现葡萄酒快速检测的要求。图 3 显示了两个模型的预测结果的散点图,它描绘了
预测值和实测值的分布:它们呈现良好的线性相关性。
表 3 不同模型的酒精度预测集
Table 3 Different models for alcohol content prediction.
Model
Number of variables
Full-PLS
MC-UVE-PLS
MC-UVE-GA-PLS
MC-UVE-GA-FAR
1557
29
6
6
R2
pre
0.997
0.942
0.938
0.946
Predition
RMSEP
0.117
0.220
0.228
0.215
175
图 3 预测集酒精度实测值与预测值散点图(a)全光谱 PLS 模型结果(b)MC-UVE-GA-FAR 模型结果
Fig. 3 Scatter plot of measured versus predicted alcohol content of the prediction set (a) The results of full
spectra-PLS model (b) the results of MC-UVE–GA–FAR
180
3 结论
185
190
195
本实验是基于葡萄酒酒精度快速无损检测要求的优化研究。对 117 个葡萄酒样本进行近
红外光谱采集,以采集到的光谱数据的平均值为基础,分别进行 MC-UVE 和 GA 算法以选
择最佳波长,同时建立 PLS 回归模型和 FA 回归模型。结果表明,基于原始光谱的
MC-UVE-GA-FAR 模型效果优于 MC-UVE-GA-PLS 模型,虽然 R2
pre 略低于使用全范围原始
光谱建立的 PLS 回归模型,但是极大地减少了用于建模的变量个数,简化了模型,说明
MC-UVE 和 GA 结合是变量选择的有效方法,能够实现对葡萄酒酒精度在线快速无损检测
方法的优化。
[参考文献] (References)
[1] Frankel E N, German J B, Kinsella J E, et al. Inhibition of oxidation of human low-density lipoprotein by
phenolic substances in red wine [J]. The Lancet, 1993, 341(8843): 454-457.
[2] Bianca F, Alexandra L, Michael A. Consumption of red wine with meals reduces the susceptibility of human
plasma and low-density lipoprotein to lipid peroxidation [J]. The American Journal of Clinical Nutrition 1995,
61(3): 549-554.
[3] Ferrari E, Foca G, Vignali M, et al. Adulteration of the anthocyanin content of red wines: Perspectives for
authentication by fourier transform-near infrared and 1h nmr spectroscopies [J]. Anal Chim Acta, 2011, 701(2):
139-151.
[4] Urbano Cuadrado M, Luque de Castro M D, Perez Juan P M, et al. Comparison and joint use of near infrared
spectroscopy and fourier transform mid infrared spectroscopy for the determination of wine parameters [J]. Talanta,
- 6 -
中国科技论文在线
http://www.paper.edu.cn
2005, 66(1): 218-224.
[5] Geana E I, Popescu R, Costinel D, et al. Verifying the red wines adulteration through isotopic and
chromatographic investigations coupled with multivariate statistic interpretation of the data [J]. Food Control,
2016, 62:1-9.
[6] 陈士恒, 章晴, 史晓梅, et al. Dspe-gc/ms 快速检测葡萄酒中 52 种农药残留 [J]. 食品科学技术学报, 2014,
32(3): 14-22.
[7] Urbano-Cuadrado M, Luque de Castro M D, Pérez-Juan P M, et al. Near infrared reflectance spectroscopy and
multivariate analysis in enology [J]. Analytica Chimica Acta, 2004, 527(1): 81-88.
[8] 王豪, 邬蓓蕾, 林振兴, et al. 傅立叶变换近红外光谱法快速测定葡萄酒中的酒精度 [J]. 中国酿造, 2008,
7): 72-74.
[9] Cozzolino D, Kwiatkowski M J, Parker M, et al. Prediction of phenolic compounds in red wine fermentations
by visible and near infrared spectroscopy [J]. Analytica Chimica Acta, 2004, 513(1): 73-80.
[10] Swierenga H, Wülfert F, de Noord O E, et al. Development of robust calibration models in near infra-red
spectrometric applications [J]. Anal Chim Acta, 2000, 411(1): 121-135.
[11] Leardi R, Lupiá?ez González A. Genetic algorithms applied to feature selection in pls regression: How and
when to use them [J]. Chemometrics Intellig Lab Syst, 1998, 41(2): 195-207.
[12] Blanco M, Coello J, Iturriaga H, et al. Nir calibration in non-linear systems: Different pls approaches and
artificial neural networks [J]. Chemometrics Intellig Lab Syst, 2000, 50(1): 75-82.
[13] Centner V t z, Massart D s-L, Noord O E d, et al. Elimination of uninformative variables for multivariate
calibration [J]. Anal Chem, 1996, 68(21): 3851-3858.
[14] Araújo M C U, Saldanha T C B, Galv?o R K H, et al. The successive projections algorithm for variable
selection in spectroscopic multicomponent analysis [J]. Chemometrics Intellig Lab Syst, 2001, 57(2): 65-73.
[15] GB/T 15038-2006 葡萄酒、果酒通用分析方法 [S].
[16] Zheng J, Song Z, Ge Z. Probabilistic learning of partial least squares regression model: Theory and industrial
applications [J]. Chemometrics Intellig Lab Syst, 2016, 158:80-90.
[17] 陈家益, 赵忠盖, 刘飞. 鲁棒 ppls 模型及其在过程监控中的应用 [J]. 化工学报, 2016, 67(7): 2907-2915.
[18] Ge Z, Member, IEEE. Supervised latent factor analysis for process data regression modeling and soft sensor
application [J]. IEEE Transactions on Control Systems Technology, 2016, 24(3).
[19] Xu Q-S, Liang Y-Z, Du Y-P. Monte carlo cross-validation for selecting a model and estimating the prediction
error in multivariate calibration [J]. J Chemom, 2004, 18(2): 112-120.
[20] Jie D, Xie L, Fu X, et al. Variable selection for partial least squares analysis of soluble solids content in
watermelon using near-infrared diffuse transmission technique [J]. J Food Eng, 2013, 118(4): 387-392.
[21] 马红辉, 王中江, 袁天军, et al. 烟草中淀粉近红外光谱变量的筛选及校正模型的建立 [J]. 烟草科技,
2015, 48(8): 37-43.
[22] Cozzolino D, Kwiatkowski M J, Waters E J, et al. A feasibility study on the use of visible and short
wavelengths in the near-infrared region for the non-destructive measurement of wine composition [J]. Analytical
& Bioanalytical Chemistry, 2007, 387(6): 2289-2295.
[23] Cozzolino D, Cynkar W U, Shah N, et al. Multivariate data analysis applied to spectroscopy: Potential
application to juice and fruit quality [J]. Food Res Int, 2011, 44(7): 1888-1896.
[24] 向伶俐, 李梦华, 李景明, et al. 近、中红外光谱法融合判定葡萄酒产地 [J]. 光谱学与光谱分析, 2014,
34(10): 2662-2666.
200
205
210
215
220
225
230
235
240
- 7 -