基于LIBS的山药饮片产地溯源研究
一、引言
激光诱导击穿光谱作为一种新兴的基于原子发射光谱的元素分析技术,凭借样品前处理简单、微损甚至无损、在线原位检测等优点,已被广泛应用于地质勘探、工业监测、医学检测等方面,是一种极具应用前景的成分分析技术。近年来,LIBS在中药成分检测领域逐渐兴起。运用LIBS信号强度变化率结合移动窗标准差法快速评价朱砂和雄黄混合过程,结果证明了LIBS在监测中药制药生产方面的潜力。采用LIBS技术测定了18种波兰草药中钙、钾和镁等其他金属元素(钠、铜、铁、锰、锌等),并对其中的钙、钾和镁进行定量分析,结果与一致。将近红外光谱与LIBS光谱相结合来区分国产和进口黄芪,使用近红外光谱的SVR系数与35个LIBS谱峰值进行识别准确率达95.8%,与单独使用近红外光谱(91.5%)相比,准确率提高了4.3%。以上研究证明了LIBS技术在中药成分检测中的可行性。然而,基于LIBS技术的中药产地溯源研究较少,仍处于起步阶段,目前的研究都存在药材产地数量少,识别准确率较低等问题。因此,基于LIBS技术结合人工智能算法对不同产地的山药进行系统性研究。我们搭建LIBS试验系统并结合多元散射矫正-改进遗传算法-支持模型来识别8种不同产地的山药饮片。八种产地的山药饮片磨粉过筛后制成粉末压片,通过采集山药饮片的LIBS光谱,分别使用单一分类器与光谱预处理、特征提取及模式识别算法的模型对光谱的识别结果进行对比。结果显示,LIBS技术结合模型可以准确且快速识别山药产地。
2.实验部分
2.1 仪器
所用的LIBS实验装置如图1所示
2.2 样品制备
用八类不同产地的山药饮片,如表1所示,由于山药饮片产地、炮制工艺以及价格各不相同,导致它们药用价值存在差异。实验中样本的处理流程如图2所示。首先,使用研钵将饮片研磨成粉过100目筛。然后,使用电子天平称量9g硼酸粉末和1g样品粉末,在压样机30t压力下将待测样品压制成直径为40mm的圆饼状压片。每种产地的山药饮片使用3个重复样本,共制备24个压片。
表1实验所用药材饮片
3.结果与讨论
3.1 光谱分析
各类药材饮片(S1-S8)的平均光谱及典型峰值如图3所示。各类药材的平均光谱整体趋势一致,所含谱峰基本相同,但峰强度各不相同,分析认为不同产地的山药富集能力存在差异,道地山药对一些金属元素的富集能力大于非道地产区山药。图中,谱峰代表的金属元素有K,Na,Ca,Mg,Al等,非金属元素有C,H,O及C-N键等。其中,K元素特征谱线(769.90nm)的峰值最强,即山药饮片中K元素含量最多,相关研究表明山药根茎对K元素的富集能力最强。为剔除光谱中大量的冗余信息,观察图3并选择峰值较为明显的35条特征谱线作为特征提取的预选谱线,如表2所示。
图2药材饮片的平均光谱
表2所选特征谱线
3.2 单一分类器产地溯源
对八种产地山药饮片24565维的原始光谱进行产地溯源,使用SVM,KNN和EML三种模式识别方法的分类结果如图4所示。图中显示,三种模型的交叉验证集和测试集准确率均在90%以上,SVM模型的分类效果最好,交叉验证集准确率为93.50%,测试集准确率为96.43%。由于山药饮片产地种类多、光谱维度高,原始信号数据量大且包含噪声和冗余特征,致使分类耗时长且分类准确率低,因此有必要对原始光谱进行数据预处理和特征提取。
图4原信号产地溯源结果
3.3 模型改进
首先,使用三种预处理方法对八种产地山药饮片的原始光谱进行处理。在SG卷积平滑法中,选用5,7,9和11的窗口宽度进行参数优化,通过比较识别准确率,确定本研究中所用窗口宽度为5。在WT预处理过程中,小波函数采用常用的db2,db4,db8,sym2,sym5和sym8,分解层数采用1-9层,最终确定选用db2函数2层小波分解为WT的最优参数。经过预处理后,各类光谱的CV均值和标准差如图5所示。图5显示,无预处理时光谱的波动性最大,各类光谱的CV均值为12.54%,经过三种预处理后CV均值明显下降,光谱的稳定性明显提升。MSC和WT的CV均值较为接近且小于SG卷积平滑法的CV均值,表明MSC和WT对光谱稳定性的提升效果好于SG卷积平滑法。WT的CV均值小于MSC,但WT各类光谱CV的标准差较大,即各类光谱的波动差距较大,而MSC各类光谱的波动差距较小,MSC在减小光谱波动性方面整体表现较好。
图5各产地山药光谱CV均值和标准差
对预处理后的光谱数据进行特征提取。按表2选出35条特征谱线后,分别使用PCA和IGA进行特征提取。不同光谱预处理下PCA选择的主成分数量与累积贡献率的关系如图6所示。当累积贡献率达到99%以上时,MSC、SG卷积平滑、WT三种预处理方式下各选择6,5和5个主成分,其累积贡献率分别为99.23%(黑线)、99.03%(红线)、99.07%(蓝线)。针对不同预处理和模式识别方法处理的光谱,使用IGA提取的特征数量如表3所示。
图6成分累积贡献
表3在各方法下IGA提取的特征数量
表4各模型分类结果排序
表4显示,排名前十的模型中接近一半的模型使用了MSC预处理方法,接近一半的模型使用了SVM模式识别方法。结果表明,MSC预处理方法和SVM模式识别方法有助于准确识别山药饮片产地。测试集准确率排名前五的模型均使用了IGA进行特征提取,在识别种类多、识别难度大的情况下,IGA比PCA更能清楚辨别光谱中的非线性关系,同时受噪声的影响更小。MSC-IGA-SVM模型的产地溯源效果最好。MSC-IGA-SVM模型的交叉验证集准确率为96.9%,测试集的准确率为97.32%,与直接使用原信号建立的最好模型SVM(96.43%)相比,测试集准确率提高了0.87%。同时,MSC-IGA-SVM模型将输入变量的维度减少了99.93%。
MSC-IGA-SVM模型对八种山药饮片产地溯源的混淆矩阵如图7所示,除了S4和S7有错误分类现象外,其他类别均能正确识别。S1和S2虽然产地相同,但两批山药饮片炮制工艺不同,价格相差较远,因此品质存在差异,能进行精确分类。而对于S4和S7,两种产地山药产地虽然不同,但存在错分现象。10.7%的S4错分为S7,同时10.7%的S7错分为S10。
为进一步探究错误分类原因,对IGA选取的特征进行三维成像,如图8所示,S4与S7存在重叠区域,其数据存在相似性。S4为广西南宁无硫高温烘焙的价值为31元/500g的山药饮片,S7为安徽池州无硫低温烘焙的价值为18.5元/500g的山药饮片。两者产地相差较远,且炮制工艺不同,难以辨别的原因推测是山药种植品种、种植条件等方面存在共性。
图7MSC-IGA-SVM模型分类结果的混淆矩阵
图8MSC-IGA数据图
(a):前三个特征;(b):次三个特征
四、总结
针对山药饮片的产地溯源问题,使用LIBS技术结合MSC-IGA-SVM模型对产地识别的准确度进行了改善。使用KNN、SVM和EML分类器对八类光谱直接使用原信号进行分类,SVM模型具有较强鲁棒性,效果最好,其准确率为96.43%。使用预处理(MSC、SG卷积平滑、WT)、特征提取(PCA和IGA)的方法对模型改进,MSC-IGS-SCM模型的识别效果最好,其能有效降低光谱波动性,同时输入变量维度降低了99.93%,将测试集准确率提升为97.30%。结果表明,LIBS技术结合MSC-IGA-SVM模型能够准确且快速对山药饮片进行产地溯源。