核主成分分析在异型纤维识别中的应用
陆辉 万燕 姚砺
(东华大学 计算机学院,上海 201602)
摘 要 异型纤维自动检验过程中,传统边沿检测方法受到图片质量的影响较大。核主成分分析,直接从原始的灰度图像提取高阶统计信息,相对受图片质量影响较小。本文中,通过核主成分分析方法,提取图像特征,利用支持向量机分类器,实现对异性纤维的自动检验,并应用到异型纤维识别系统中,取得了预期的效果。同时实验结果表明,使用非线性核函数的识别率明显优于线性核函数的识别率。
关键词 核主成分分析;核方法;支持向量机
1 引言
异型纤维为新型服装面料和纺织新产品的开发提供了丰富的原料。人工法或半自动法识别纤维截面,不但费时、费力,而且精度低、数据稳定性较差。采用计算机技术进行异型纤维的识别分类工作,可以更有效、方便地检验纤维产品的各项指标。
在异型纤维的自动识别过程中,特征提取与分类是识别的核心内容与关键。传统的特征提取算法一般均使用提取边缘、普通角点等方法提取特征,此方法由于纤维图像受样本制作、图像拍摄和纤维切片变形等因素的影响,变形和噪声较为严重,通常难以从图片中获得传统检验方法所需要的准确的传统特征信息——周长,面积等,并且传统的特征信息提取的结果受到人为主观因素的干扰,所以往往不能充分的表征纤维。因此传统的特征提取算法往往无法达到较高的识别率。
统计学习理论的核方法[1]在模式识别领域获得了成功的应用。核方法基本思想是通过非线性变换,将输入数据映射到高维特征空间[1.4]。它可以使在输入空间无法线性分类的数据通过变换,在特征空间中实现线性分类。本文所研究的核主成分分析(Kernel Principal Component Analysis,KPCA)[2]、支持向量机(Support Vector Machine,SVM) [3]都是基于这一理论基础的。KPCA是由Schölkopf 等人利用核技术将经典的主分量分析(Principal Component Analysis ,PCA)推广而来,实验结果表明KPCA 不仅能够抽取非线性特征,而且具有更优的识别结果。KPCA及其衍生的算法已经在目标检测、模式分类等领域取得了不错的成果[5-7]。
本文采用KPCA结合SVM实现异型纤维识别系统。算法将异型纤维截面的灰度图像转换为列向量,构成输入空间;利用KPCA实现提取特征;用SVM实现异型纤维分类。实验表明,此算法不仅能识别正常的异型纤维,而且对于受噪声干扰比较严重及变形比较严重的异型纤维,也能取得较好的识别效果。
2 核主成分分析算法的应用
2.1 核主成分分析简介
核方法的基础是样本空间到特征空间的一种非线性映射。利用核方法可以高效地计算内积;有效地降低分类平面的复杂度(图1);将样本空间映射到任意维特征空间变成可能,有效解决在传统线性特征提取中的丢失非线性特征的问题。
核主成分分析(KPCA)是核方法的一种,其原理是将核方法运用到主成分分析(PCA)上,解决了主成分分析(PCA)无法提取非线性特征的问题,从而优化特征提取的效果。
图1 从非线性可分到线性可分
2.2 核主成分分析在异型纤维识别中的应用
变形、受到噪声干扰的图像占采集到的纤维样本的截面图像中的绝大多数。当这些图像经过二值化后,难以取得识别所需要的周长、面积等特征。本文研究的目标是提出一种抗干扰能力强、能克服较大变形的纤维识别算法。
KPCA是一种高效的机器学习算法,能有效地提取数据中的非线性结构[2];并且KPCA具有很强的泛化能力,因此能适应异型纤维图像的样本分类[1]。对于异型纤维图像的传统特征,如周长、面积等,经过KPCA的非线性映射,必定在特征空间中有这些特征的象,同时也保留了重要的隐性非线性特征。在文献[1]中,KPCA对于添加了高斯噪声和speckle噪声的图像重建已经取得了非常好的效果,因此KPCA对于异型纤维图像识别中抗噪声干扰有很好的借鉴作用。KPCA在目标识别、模式分类的预处理中取得的突出效果[5] 也为异型纤维图像的识别提供了很好的参考。
另外,SVM已经在模式分类领域取得巨大的成功[2],其优越性表现在:SVM是根据结构风险最小化原则,尽量提高学习机的泛化能力;SVM是求解一个凸优化问题,因此局部最优解一定是全局最优解。
综上所述,本文选择KPCA来对异型纤维图像进行特征提取,将提取到特征参数,使用SVM进行分类。
2.3 算法流程
1)图像预处理
选取 个异型纤维的截面图像,将其转化为灰度图像。将这些图像缩放到相同大小,并将其灰度值按像素的行或列方向展开,得到大小为图像长与宽像素数的积 的一维向量,记为 。这些向量所属的 就是输入空间。本系统中, 取300;图像缩放到 ,即 取900。
2)构建特征空间
为了在特征空间中进行线性分类,构造特征空间 ,定义映射为
计算核矩阵 。设
(1)
其中 为核函数(表1)。
表1 常用的核函数
主成分分析是计算样本数据最大方差的正交方向,KPCA则是将这一想法推广到特征空间上。
在特征空间中, 的协方差矩阵
(2)
的特征向量 ,并且存在系数 ,使得
(3)
计算特征空间中特征向量的问题转换成成求解核方程
(4)
由于PCA算法要求 ,中心化 ,用 替换 ,其中
(5)
计算 的特征值与特征向量 ,其对应在特征空间H中的特征向量 ,有
则 需要满足如下条件:
(6)
这样既可以最大限度保留数据中的现有结构,又不会丢失重要的非线性特征。
3)特征提取
特征提取就是在特征空间中进行投影,将求得的特征值 从小到大进行排序,选择前 个特征值对应的特征向量用于特征空间投影,特征值越大,所对应的特征向量累计的方差越大即对核矩阵中的贡献度越大[2]。考虑到本系统中,纤维图像本身的维数不高,如果 m的值取得较大,则不能有很好的降维效果,并且置信区间也较大[1];反之,则会丢失过多的图像特征。所以选则64作为m的值。
对于需要进行特征提取异型纤维图像,按图像预处理的步骤,转换为大小为 的一维向量 。
那么 在特征空间上的投影 ,应该是
(7)
4)SVM的训练
对于 种异型纤维各选择 张图像作为训练样本,依次经过预处理、特征提取。得到 个大小为 的一维特征参数向量,指定类别序号 ,作为多类别的SVM分类器的输入,得到分类函数 。本系统中p取5,q取100。
(8)
5)SVM的分类
对于未知类别的异型纤维图像进行同样的预处理,得到大小为 的一维特征参数向量 ,对于满足 的 ,则判定该异型纤维属于第 类。
2.4 系统结构
图像的预处理:首先要进行各种预处理,获取单个异型纤维截面图像(图2)。
特征提取:本文采用KPCA算法进行特征提取。
模式分类:本文采用SVM算法进行分类。
系统结构如图(图3),其中虚线框为本文的算法在系统中的部分。
(a)十字 (b)星型 (c)三角 (d)哑铃(c)VY
图2 异型纤维截面图像
图3 异型纤维识别系统系统流程
2.5 实验结果
实验中,采用5种异型纤维图像(星型、十字型、VY型、哑铃型、三角型),每种各60张共300张图像,将其转换为灰度值向量,作为KPCA的输入数据构建特征空间;每种图像重新选取100张,作为SVM训练样本;另选40张作为预测样本。
实验一 对比多项式核函数  与线性核函数  识别率
从实验一结果(表1)中,可知多项式核明显优于线性核,即非线性的核函数的特征提取效果明显优于线性核函数。当核函数取  是优于其它结果。
表2 对异型纤维在不同核函数下的识别率(%)比较
|
方法
|
参数
|
星型
|
十字型
|
VY型
|
哑铃型
|
三角型
|
合计
|
|
训练
|
预测
|
训练
|
预测
|
训练
|
预测
|
训练
|
预测
|
训练
|
预测
|
训练
|
预测
|
|
多项式(c=1)
|
d=3
|
100%
|
72.5%
|
100%
|
85%
|
100%
|
90%
|
100%
|
100%
|
100%
|
82.5%
|
100%
|
86%
|
|
|
d=4
|
100%
|
77.5%
|
100%
|
87.5%
|
100%
|
95%
|
100%
|
100%
|
100%
|
82.5%
|
100%
|
88.5%
|
|
|
d=5
|
100%
|
80%
|
100%
|
90%
|
100%
|
95%
|
100%
|
100%
|
100%
|
82.5%
|
100%
|
89.5%
|
|
|
d=6
|
100%
|
80%
|
100%
|
90%
|
100%
|
92.5%
|
100%
|
100%
|
100%
|
82.5%
|
100%
|
89%
|
|
线性
|
|
100%
|
70%
|
100%
|
75%
|
100%
|
87.5%
|
100%
|
100%
|
100%
|
82.5%
|
100%
|
83%
|
实验二 研究多项式核函数不同参数  的识别率
表3 对异型纤维在不同核函数下的识别率比较
|
方法
|
参数
|
星型
|
十字型
|
VY型
|
哑铃型
|
三角型
|
合计
|
|
训练
|
预测
|
训练
|
预测
|
训练
|
预测
|
训练
|
预测
|
训练
|
预测
|
训练
|
预测
|
|
多项式(d=5)
|
c=1
|
100%
|
80%
|
100%
|
90%
|
100%
|
95%
|
100%
|
100%
|
100%
|
82.5%
|
100%
|
89.5%
|
|
|
c=5
|
100%
|
80%
|
100%
|
90%
|
100%
|
95%
|
100%
|
100%
|
100%
|
82.5%
|
100%
|
89.5%
|
|
|
c=10
|
100%
|
80%
|
100%
|
90%
|
100%
|
95%
|
100%
|
100%
|
100%
|
82.5%
|
100%
|
89.5%
|
|
|
c=100
|
100%
|
80%
|
100%
|
90%
|
100%
|
95%
|
100%
|
100%
|
100%
|
82.5%
|
100%
|
89.5%
|
从实验二结果(表2)中可知,多项式函数中的系数c对识别率的影响可以忽略不计。
算法对于变形比较严重的异型纤维图像(图4)的识别结果(表3)。

图4 变形的异型纤维
表4 变形的异性纤维识别结果分析
|
图像
|
实际类型
|
判定类型
|
是否正确
|
判错原因估计
|
|
图 (a)
|
十字
|
十字
|
是
|
|
|
图 (b)
|
十字
|
十字
|
是
|
|
|
图 (c)
|
十字
|
十字
|
是
|
|
|
图 (d)
|
星型
|
星型
|
是
|
|
|
图 (e)
|
星型
|
星型
|
是
|
|
|
图 (f)
|
星型
|
星型
|
是
|
|
|
图 (g)
|
三角
|
星型
|
否
|
图像被碾压过,出现了剥落,图像质量太差。
|
|
图 (h)
|
三角
|
三角
|
是
|
|
|
图 (i)
|
三角
|
三角
|
是
|
|
|
图 (j)
|
VY
|
VY
|
是
|
|
|
图 (k)
|
VY
|
VY
|
是
|
|
|
图 (l)
|
VY
|
十字
|
否
|
发生粘连现象,截取后,图像不完整。
|
3 结束语
本文采用KPCA算法,并结合SVM算法实现异型纤维识别系统,为异型纤维识别提出了一种新的思路。将KPCA方法运用到系统中,充分利用了灰度图像中隐含的特征信息来进行识别,而SVM算法为本系统提供了一种稳定的分类算法。本文提出的识别算法在实际应用过程中,取得了较好的识别效果。
本系统弥补了传统边沿检测的方法对图像质量要求较高、难以提取轮廓不清晰的异型纤维图像的缺点。实验表明,本系统不仅能识别正常的异型纤维,而且对于受噪声干扰比较严重及变形比较严重的异型纤维,也取得了较好的识别效果。
作为本文工作开展的教育部基础研究项目“纤维的计算机图像自动识别和纺织品成分分析系统”,已于2007年12月正式通过上海市出入境检验检疫局鉴定。
参考文献
[1] Klaus-Robert Muller,Sebastian Mika,Gunnar Ratsch,Koji Tsuda,Bernhard Scholkopf. An Introduction to Kernel-based Learning Algorithms. IEEE TRANSACTIONS ON NEURAL NETWORKS,2001,12(2):181
[2] Scholkopf B,Smolla A,Muller K. Nonlinear Component Analysis as a Kernel Eigenvalue Problem. Neural Computation,1998,10(5):299
[3] John Shawe-Taylor,Nello Cristianini.Support Vector Machines and other kernel-based learning methods. Cambridge University Press,2000
[4] Bernhard Scholkopf,Sebastian Mika,Chris J. C. Burges,Philipp Knirsch,Klaus-Robert Muller,Gunnar Ratsch,and Alexander J. Smola. Input Space vs. Feature Space in Kernel-based Methods. IEEE TRANSACTIONS ON NEURAL NETWORKS,1999,10(5):1000
[5] Tat-Jun Chin,David Suter. Incremental Kernel Principal Component Analysis. IEEE TRANSACTIONS ON IMAGE PROCESSING,2007.,16( 6) :1662
[6] Fei Chen,Chongzhao Han. Time Series Forecasting Based on Wavelet KPCA and Support Vector Machine. Proceedings of the IEEE International Conference on Automation and Logistics,2007 August 18 – 21:1487
[7] 黄国宏,邵惠鹤. 核主元分析及其在人脸识别中的应用. 计算机工程,2004,30(13):13
收稿日期:12月30日 修改日期:1月21日
作者简介:陆辉(1983-),男,硕士研究生,研究方向:数字图像处理;万燕,女,副教授/博士,硕士生导师,研究方向:数字图像处理;姚砺,男,副教授/博士,硕士生导师,研究方向:数字图像处理,软件测试。
|