引 言
近年來國內(nèi)大米市場混亂,各種低檔、劣質(zhì)稻米冒充品牌稻米銷售,嚴(yán)重侵犯了消費(fèi)者的利益,甚至危及生命安全。而目前,稻米品質(zhì)與品種的鑒別方法主要為感覺法與化學(xué)分析法。感覺法通過形狀、色澤以及氣味對大米品質(zhì)進(jìn)行鑒定,主要依賴鑒別者的經(jīng)驗(yàn),缺乏嚴(yán)格的科學(xué)依據(jù);常規(guī)化學(xué)分析法則存在耗時(shí)長、耗資大以及操作復(fù)雜等缺點(diǎn)而難以滿足市場經(jīng)營中快速鑒別的需要.而可見/近紅外反射光譜技術(shù)因其快速、高效以及無損的特點(diǎn),已被廣泛地應(yīng)用于石油化工、探礦、制藥以及紡織等領(lǐng)域。近年來,可見/近紅外光譜結(jié)合模式識別技術(shù),進(jìn)一步在楊梅、燕麥等農(nóng)產(chǎn)品的分類中獲得了成功的應(yīng)用,對丹參、白術(shù)、蛇床子等中藥材產(chǎn)地與真?zhèn)舞b別也取得了滿意的結(jié)果。在稻谷的相關(guān)研究中,可見/近紅外光譜技術(shù)也已用于其直鏈淀粉、蛋白質(zhì)、脂肪以及氨基酸含量與稻谷儲存年份的分析。本文將采用可見/近紅外反射光譜技術(shù)對稻米的品種與真?zhèn)芜M(jìn)行鑒別,為稻米品種的快速無損鑒別提供新的方法。
1 材料與方法
1.1樣本來源與數(shù)據(jù)采集
于超市購買了泰國香米、夜郎貢米、珍珠米、泰國糯米四種稻米樣本;于湘西質(zhì)量技術(shù)監(jiān)督局獲得劣質(zhì)米(珍珠米偽品)樣本。每種稻米采集樣本35份,合計(jì)175份。隨機(jī)抽取150份(每種30份)作為訓(xùn)練集,其余25份(每種5份)作為預(yù)測集。樣本于45℃下恒溫烘干24h后,于玻璃皿中進(jìn)行光譜掃描,米樣上表面均與玻璃皿上端保持平齊。測樣于暗室中進(jìn)行,以鹵素?zé)魹槲ㄒ还庠?光纖探測器頭部與樣本之間保持垂直,下部距離樣本0.5cm,每一樣本重復(fù)測量30次取其均值。
1.2 光譜預(yù)處理
由于光譜在小于400nm與大于2300nm的波段噪聲較大,因此本研究選用400~ 2300nm波段作為有效光譜數(shù)據(jù)進(jìn)行分析。將有效光譜經(jīng)S.Golay平滑后,采用標(biāo)準(zhǔn)歸一化(SNV)方法進(jìn)行除噪。
1.3 數(shù)據(jù)降維與波段選擇
如果將光譜數(shù)據(jù)直接作為變量輸入進(jìn)行建模,不但會因變量太多而增加建模難度,而且會引入噪聲而降低模型的預(yù)測精度。為了避免這一問題,本研究采用主成分分析(PCA)以實(shí)現(xiàn)光譜數(shù)據(jù)的降維。同時(shí),如能選用特征波段進(jìn)行建模,將信噪比低的波段刪除,可能會獲得比全波段建模更好的結(jié)果。因此,本研究將對全波段與特征波段兩種建模方法進(jìn)行比較分析以獲得較優(yōu)模型。
1.4 人工神經(jīng)網(wǎng)絡(luò)模型
在光譜分析中,人工神經(jīng)網(wǎng)絡(luò)是一種重要的模式識別方法,其中多層誤差反向傳播神經(jīng)網(wǎng)絡(luò)方法(back-propagation,BP)應(yīng)用尤廣,具有強(qiáng)大的非線性建模能力,特別適合解決復(fù)雜的映射問題。而作為一種有機(jī)物,稻米內(nèi)部的理化性質(zhì)與其可見/近紅外反射光譜之間正是一種復(fù)雜的映射關(guān)系,因此,本研究將全波段與特征波段降維后的數(shù)據(jù)分別導(dǎo)入DPS中,采用BP算法建立不同稻米的鑒別模型。
2 結(jié)果與討論
2.1 稻米樣本的可見/近紅外漫反射光譜
圖1為5種稻米部分可見/近紅外漫反射光譜曲線。從圖中可看出,不同品種稻米的反射光譜的波形有稍許差異,而同種稻米樣本的光譜則有一定的聚集趨勢,但憑肉眼難以準(zhǔn)確區(qū)分。分析時(shí),先將光譜數(shù)據(jù)轉(zhuǎn)化為ASCII碼,在Unscramble 9.7中完成預(yù)處理后進(jìn)行PCA分析。
圖1 5種稻米樣本的可見/近紅外反射光譜
2.2 PCA分析與特征波段提取
訓(xùn)練集樣本經(jīng)PCA降維分析后,分別以前3個(gè)主成分PC 1、PC 2、PC 3作為x、y、z坐標(biāo),建立各樣本的三維得分圖(圖2),以表征樣本在該三維空間中的分布。由于前3個(gè)主成分對光譜矩陣的累積方差貢獻(xiàn)達(dá)91.82%,因此,樣本在三維空間的分布可大體反映其在超維空間的分布特征,表征出不同稻米的聚類結(jié)果。從圖2中可看出,各種稻米有良好的聚類趨勢,可進(jìn)行定性分析,但要取得精確的定量分析結(jié)果,還需要建立鑒別能力更強(qiáng)的模型。
由于PCA分析的前3個(gè)主成分已包含了絕大部分的分類信息,因此,可根據(jù)不同波段的光譜對前3個(gè)主成分的貢獻(xiàn)值分析出稻米分類的特征波段。在Unscramble 9.7中,得出前3個(gè)主成分的X-加載圖,以表征各波段對模型前3個(gè)主成分的貢獻(xiàn)大小(圖3).以波譜區(qū)域?qū)C 1的貢獻(xiàn)值為主要參考指標(biāo),并綜合考慮對PC 2與PC 3的貢獻(xiàn)值,得出400~500nm、910~1300nm與1940~2300nm三個(gè)波段為稻米鑒別的特征波段。根據(jù)水、淀粉、蛋白質(zhì)的吸收特征,可分析出910~1400nm、1940~2300nm兩段特征波段主要反映了不同稻米營養(yǎng)成分的差異,而400~500nm這一位于可見光部分的特征波段則主要反映了形狀與顏色的差異。
圖2 5種稻米前3個(gè)主成分的得分聚類
圖3 不同譜區(qū)對PCA分析前3個(gè)主成分的貢獻(xiàn)值
圖4 兩種模型訓(xùn)練集前12個(gè)主成分的累積可信度
在建立模型過程中,如果所選取的主成分過少,將會因不充分?jǐn)M合而導(dǎo)致模型預(yù)測準(zhǔn)確度降低;而若選用的主成分過多,則會產(chǎn)生過擬合現(xiàn)象而導(dǎo)致模型預(yù)測的準(zhǔn)確率下降。因此,本研究通過交互驗(yàn)證確定最佳主成分?jǐn)?shù),即在累積可信度(累積方差貢獻(xiàn))變化不大的情況下選取較少的主成分?jǐn)?shù).將全光譜與特征光譜分別進(jìn)行PCA分析后,所得前12個(gè)主成分的累積可信度如圖4所示。由圖可知,兩種方法前9個(gè)主成分的累積可信度在99.5%以上,包含了光譜數(shù)據(jù)絕大部分的特征信息。
2.3 BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測結(jié)果與比較分析
表1 兩種模型對25個(gè)未知樣本的預(yù)測結(jié)果
注:(1)~(5),泰國香米;(6)~(10),夜郎貢米;(11)~(15),珍珠米;(16)~(20),泰國糯米;(21)~(25),珍珠米偽品
利用訓(xùn)練集中的150個(gè)樣本,以PCA降維得到的前9個(gè)主成分作為BP神經(jīng)網(wǎng)絡(luò)的輸入變量,在DPS中建立PCA-BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型。建模分析時(shí),泰國香米、夜郎貢米、珍珠米、泰國糯米、劣質(zhì)米分別賦值為1.0000、2.0000、3.0000、4.0000、5.0000;BP網(wǎng)絡(luò)各層間采用Sigmoid激勵(lì)函數(shù),其中Sigmoid參數(shù)取0.9,動態(tài)參數(shù)取0.6,最小訓(xùn)練速度設(shè)為0.1,允許誤差設(shè)為0.0001,最大迭代次數(shù)設(shè)為3000次.通過調(diào)節(jié)隱含層的節(jié)點(diǎn)數(shù)反復(fù)地驗(yàn)證以優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),得到最佳的BP網(wǎng)絡(luò)結(jié)構(gòu)為9-6-5三層BP神經(jīng)網(wǎng)絡(luò)模型。用模型對預(yù)測集的25個(gè)未知樣進(jìn)行預(yù)測,結(jié)果表明兩類模型對所有樣本預(yù)測的正確率均達(dá)100%(表1)。為獲得最佳建模方法,分析了兩種方法對25個(gè)未知樣的預(yù)測結(jié)果。兩類模型對預(yù)測集的擬合結(jié)果與標(biāo)準(zhǔn)值之間的回歸關(guān)系見圖5。由圖可知,兩回歸方程的斜率都接近于1,但特征波段模型預(yù)測集決定系數(shù)(R 2= 0.9994)比全波段模型(R 2= 0.9988)稍高,而預(yù)測標(biāo)準(zhǔn)誤差(SEP= 0.0390)與預(yù)測誤差均方根(RMSEP= 0.0383)則比全波段模型(SEP=0.0519;RMSEP= 0.0550)稍低,說明特征波段模型具有更好的預(yù)測效果,是一種優(yōu)選方法。
圖5 全波段模型(a)與特征波段模型(b)對未知樣本預(yù)測值與標(biāo)準(zhǔn)值之間的關(guān)系
3 結(jié) 論
對5種稻米的分析結(jié)果表明,采用可見/近紅外光譜技術(shù)進(jìn)行稻米品種與真?zhèn)蔚蔫b別是可行的,從而為稻米品種與真?zhèn)蔚目焖佟o損鑒別提供了一種新方法。比較分析結(jié)果表明,利用特征波段所建立的模型比全波段模型具有更高的預(yù)測精度,說明特征波段提取是進(jìn)行模型優(yōu)化的有效手段。
審核編輯:湯梓紅
評論