20 世纪70 年代以来, 化学计量学方法与计算机技术的结合使得人们不仅可以根据红外、近红外、核磁等光谱信息进行物质结构鉴定, 而且可以根据标准品的光谱和相关定量、定性信息建立数学模型、实现对未知样品的定量与定性分析 。信号弱、没有典型的吸收特征峰而被长期忽视的近红外光谱也在各个领域的定量、定性分析中得到了广泛应用。在中药、烟草等天然产物领域, 运用红外、近红外光谱信息进行样品的产地、道地性的模式识别工作有很多 。但目前对于更为精细的植物部位( 如烟叶部位) 的识别研究尚很少见, 而在中药材、烟叶的质量管理中, 部位的划分和识别是十分重要的。
文献的研究表明对于傅里叶近红外光谱, 采用一阶导数光谱可以取得最好的产地识别结果, 故本文对2003 年和2005 年单一产地的烟叶样本的红外和近红外谱图经过一阶导数处理后, 均匀、轮流选取样本集的四分之一作为检验集, 令模型参数, 取不同区间光谱进行烟叶上中下部位预测。
本文利用红外光谱和近红外光谱信息进行烟叶部位的识别, 以探索这类光谱信息是否能够区分更为细微的植物部位差异, 并探讨了模式识别模型中有关参数( 如光谱区间、光谱预处理方法等) 对判别结果的影响。本文采用文献提出的基于光谱主成分分析( PCA) 与马氏距离的判别分析模型进行烟叶上、中、下部位的识别, 样品光谱距哪个部位的类中心距离最小就属于哪个部位。由于主成分个数的选择无法事先确定, 主成分取得过多会引入不必要的噪声并造成过拟合( 即建模效果很好但预测效果很差) , 而取得过少会丢失重要的信息。