求助 高光谱遥感图像分类图像分类

  摘要:高光谱图像监督分类中,为了避免休斯效应需要大量的训练样本,但在实际应用中对样本进行标注成本非常高,因此,得到高质" />
免费阅读期刊
论文发表、论文指导
周一至周五
9:00&22:00
基于主动学习的高光谱图像分类方法
  摘要:高光谱图像监督分类中,为了避免休斯效应需要大量的训练样本,但在实际应用中对样本进行标注成本非常高,因此,得到高质量的训练样本显得十分重要提出一种基于主动学习的高光谱图像分类方法,通过对区域关注度的统计,有效地结合图像光谱和空间特性,基于主动学习方法获取信息量较大的训练样本,从而较大幅度提高了分类的精确度实验结果表明,所提算法比传统的随机取样监督分类法和主动学习方法在分类精确度上有较大的优势 中国论文网 http://www.xzbu.com/8/view-4759211.htm  关键词:关注度; 支持向量机; 期望最大化; 主动学习; 高光谱遥感图像   中图分类号:TP391.41 文献标志码:A   0引言   遥感图像分类在现实生活中有着非常广泛的应用,如地质勘探与地球资源调查、城市遥感与规划管理、环境与灾害监测、现代精细农业、测绘以及考古等遥感图像精准分类是诸多应用的基础问题,同时也是热点问题近十几年,卫星传感器技术得到了不断发展,遥感图像的光谱和空间分辨率不断提高,目前较为流行的高光谱成像系统包括AVIRIS、HYDICE、ARCHER、HYMAP和HYPERION通过这些成像系统获取的遥感图像所蕴含的信息得到了极大丰富,这为高光谱图像分类和聚类分析提供了新的契机,目前国内外学者提出了很多相关算法和方法,几乎所有经典的机器学习方法都被应用到图像分类和聚类分析中分类方面诸如基于最大似然和贝叶斯估计的方法[1]、基于核和决策树的方法[2]、基于图的方法[3],而在基于核的方法[4]中,支持向量机(Support Vector Machine,SVM)在分类中的表现较为突出;聚类方面的大多数方法都是通过像元之间的相似性,利用统计学方法对图像进行聚合[5]但是,单一使用分类或者聚类方法无法充分利用图像中所包含的光谱和空间信息,所以在文献[6]中使用监督分类方法初始化聚类分割区域的标签,再通过流域变换获取最优的分割图像,最终在分割区域内对分类图像的结果标签进行投票,分割区域将标记为投票最高的类别,其分类的最终结果优于单一的分类或聚类方法文献[7]用投票的方式对聚类结果和分类结果进行整合,最终使用分类所得的标签投票决定分割区域的类别,然后再对结果进行降噪处理,其最终精确度也比传统方法高但是,这两种方法都需要使用大量的训练样本来构造分类器,分类成本都比较高为了减少分类器对训练样本数量的需求,提高训练样本质量成为首要问题近几年,主动学习方法在寻找包含信息量较大、质量较高的训练样本时表现突出[8]   本文提出一种基于主动学习的高光谱图像分类(Hyperspectral Image Classification based on Active Learning, HICAL)方法,关注如何在减少训练集数量的同时提高分类精确度,结合了分类和聚类方法,充分利用高光谱图像的光谱和原始空间特征,找到信息量较大的分割区域,进而获取信息价值较高的训练样本,最终有效提高分类器的分类效果   1基于主动学习的高光谱图像分类方法   1.1问题描述   为了尽可能地降低高光谱图像分类精确度和所需的训练样本数量的比例,一方面需要充分利用高光谱图像所蕴含的信息,另一方面需要提高训练样本的质量   HICAL方法是以分类和聚类结果结合后所构建的框架为基础,使用本文提出的关注度计算方法对结合后的区域进行统计,以找到信息量较高的区域新的训练样本将在关注度较大的区域中产生,以此来提高训练集的质量   1.2HICAL方法   1.2.1聚类分析   本文使用期望最大化(ExpectationMaximization,EM)算法对高光谱图像进行聚类分析在统计计算中,EM是在概率模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量在使用EM算法过程中,可以假设所有的样本都是符合高斯分布   EM算法对图像进行聚类过程中,为了使算法尽快收敛,将高光谱图像的光谱波段进行分组求均值,以此来减少参与计算的光谱波段数量聚类所得到的分割图像通过四联通的方式进行区域划分,并且给这些区域唯一标号得到的带有标号的区域分割图将作为模板,在后续迭代过程中与分类结果进行整合   1.2.2监督分类   获取聚类结果之后,需要对图像进行监督分类本文在分类过程中使用支持向量机(SVM)方法SVM是目前监督分类使用较多的分类算法,是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,具有较好的泛化能力和学习能力   二分的支持向量机最终目标是找到一个(d-1) 维的决策面,将测试样本分成两类在使用SVM进行图像分类时,总是将像元的特征通过一个核函数映射到一个较高维度的空间,这样使样本的区分度更大,通常使用高斯核函数(Radial Basis Function,RBF)   在二分问题中,通常将决策函数表示如下:   其中:SV表示得到的支持向量集合,对应的αi不等于0   使用SVM对多类问题进行分类时,通常采取两种策略一种是一对一(OneAgainstOne,OAO)的方式,另一种是一对多的方式(OneAgainstAll,OAA),本文采用OAO的方式   HICAL方法在第一次监督分类过程中,需要少许的训练样本,通过SVM构造分类器,且监督分类的步骤在整个分类过程中是迭代进行的,每当新的训练样本被增加到训练集时,都会重新构造分类器,对图像进行新一轮分类   1.2.3整合聚类和分类结果   在获取聚类和监督分类结果后,借鉴文献[7]中方法对两个结果进行整合,以聚类连通区域为模型对监督分类结果进行区域划分,并给出标号最终在整合结果中的每一个区域内,都包含一个或一个以上的像元,这些像元分类标记的类别可能比较集中,也可能比较分散,这些分类标记主要取决于监督分类器的预测
  1.2.4获取新样本来源区域   获取整合结果之后,需要在结果所包含的区域中找到包含信息量较大的区域实验中总是更为关注那些含有较多像元,且分类标签比较分散的区域这样的区域如果分类准确度较高,将会很大程度地提高总体分类精确度因此,对区域的关注度给出如下公式定义:   其中:b为区域i包含像元个数ni的权重基数,用户可根据情况自己选择;t为迭代抽样的次数,其意义是,随着迭代的进行,在较大区域已经得到关注和抽样之后,对于这些区域的关注度将会不断下降,这样在防止大区域过分取样的同时,可以很好地兼顾到小样本区域,所以,可以很好地解决以往算法对小样本区域分类精确度不高的难题   获取不同区域的关注度值之后,为了更集中、更有效地提高请求询问的训练样本的质量,将通过设定阈值来选取需要取样的区域最终在t次迭代中将选取满足如下条件的区域作为新训练样本的来源区域:   1.2.5新样本选择   获取样本来源区域后,可以定义迭代中所需新样本的数量Ut对来源区域j∈Γt的取样数量可以表示为μj,且满足μj≥0在来源区域取样的方式有两种:S0和S1,其中S0是按照随机方式在来源区域中选择,而S1是根据来源区域中找到上一次监督分类器标记的最多标签类和次多标签类的子区域,按照两个子区域的样本比例进行抽取   1.2.6主动学习过程   本文的HICAL方法迭代过程通过主动学习方式来实现整个过程分为两个阶段:1)初始化分类器阶段,即初始监督分类阶段,在此阶段首先需要提供少量的训练集,训练初始分类器;2)循环取样阶段,也是主动学习的主要阶段,这个阶段在未标记样本中使用关注度进行查询,获取信息量较大的整合区域,从而进一步找到需要标注的样本,标注之后追加到原有的训练集中,重新对分类器进行训练,这个过程不断循环,直到达到停止条件这个停止条件可以有多种,比如新训练样本数量达到上限,或者是已经达到迭代取样的次数等   迭代结束后,将最后一次迭代所产生的分类结果和初始的聚类结果,按照聚类区域为模板,对所有分类产生的标签进行投票,区域内所有的像元将归属到得票最高的标签类最后进行降噪处理   2实验及分析   2.1实验环境   本文实验环境:中央处理器Intel Core Duo PGHz,内存2GB,32位Windows 7操作系统;软件平台为Matlab R2012a   2.2实验数据集   高光谱图像分类实验使用的是印第安纳州农林区域图像数据集(Indian Pines)   印第安纳州农林区域图像拍摄于1992年,使用红外成像光谱仪(AVIRIS)获取,其内容是印第安纳州西北区域的某一农业森林区的地表信息整幅图像包含145×145像元,空间分辨率为20m,有220个波段,其中20个水吸收波段将在实验前被除去图像反映了16种不同的地物信息图1(a)显示这个高光谱数据的假彩色图像;图1(b)显示了其真实的地物信息,不同的颜色代表不同的类别本次实验针对的感兴趣区域总共有10366个样本,过去相关文献中多数是在每一类别中随机抽取10%的样本作为训练样本,这样的抽样方式对样本比较少的类别来说是非常不利的为了和传统的分类方式对比,在实验中也将采取这样的抽样方式,但抽样的百分比会降低   2.3实验过程和结果分析   2.3.1HICAL方法与传统随机取样方法比较   本实验将本文的HICAL方法与传统随机取样方法进行对比表1中显示了各个算法的整体分类精确度(Overall Accuracy,OA)、平均分类精确度(Average Accuracy,AA)、Kappa系数以及每种地物的分类精确度SVM和SVM+EM算法[7]是在每一个类别中随机抽取10%的样本(1029个)作为训练集,其中SVM+EM也是结合光谱和空间特征的分类方法作为对比,本文算法将在每类随机抽取4%的训练样本(407个)上进行   通过式(2)计算出每一个分割区域的关注度值,这样就可以选出一些关注度较高的区域作为新训练样本来源区域实验中取γt=0.15,每一次迭代对样本的抽取数量做出限定,为了和传统的方法比较,实验中只进行4次迭代,每次迭代取样本数Ut=50分别使用S0和S1方法对新样本来源区域进行取样(如表1所示)   迭代起始阶段,大样本区域的关注度值会比较高,这样在开始的迭代过程中可以有部分提高分类器的分类准确度,迭代后期,关注的重心转向区域较小的分割区从表1中可以看到,在迭代4次后,训练样本总数为607,远小于随机抽取10%的1029,但Alfalfa、Grass/pasturemowed和Oats三个小样本区域的分类精确度已经得到了非常显著的提高这说明HICAL方法可以有效地解决这种小样本区域的分类难题,最终获取的分类结果无论是整体分类精确度还是平均分类精确度都得到了明显提高(如表1)   2.3.2HICAL方法和相关主动学习方法比较   本实验将HICAL方法和目前较新的且表现优秀的主动学习方法进行比较[9]实验中,初始化分类器时需要80个训练样本(每一类别5个),每一次迭代都将获取50个新样本标注为训练集,同时设定每一次迭代的阈值都为γt=015在初始取样方法和所获得的训练样本总数都相等的情况下,LORSALALMLL、MPMLBPAL两种算法使用四种不同的方式迭代获取训练样本:RS(Random Selection)、MI(Mutual Information)、BT(Breaking Ties)、MBT(Modified Breaking Ties)表2中给出了这些不同方法获取的分类结果可以看出,本文提出的方法在总体分类精度上更为出色   3结语   本文提出了一种基于主动学习的高光谱图像分类方法HICAL,能够充分利用图像的光谱特征和原始空间特征,同时使用一种新的高效的区域关注度计算方法对结合区进行统计,根据统计后的数值能够非常精确地找到信息量价值较高的区域,进而获取质量较高的未标记样本以此提高整体训练集的质量,在训练样本较少的情况下能够有效提高整体分类精确度和平均分类精确度,从而降低分类精确度和训练样本数量的比值
  本文方法在分类过程中较之传统的分类方法更能解决样本失衡的问题,能够有效地解决小样本区域的分类难题;同时文中所提出的分类方法扩展性较强,在分类和聚类算法的选择上比较宽松,可以使用诸如K均值、自组织迭代技术等算法进行替代在HICAL方法迭代过程中,关注度阈值的选取和样本数量的设置,以及对区域样本的选择方法将是我们进一步研究的内容;同时我们也将关注其他分类和聚类算法,以期减少算法的时间复杂度   参考文献:   [1]LANDGREBE D A. Signal theory methods in multispectral remote sensing [M] . New York: Wiley, 2003.   [2]MOUSTAKIDIS S, MALLINIS G, KOUTSIAS N, et al. SVMbased fuzzy decision trees for classification of high spatial resolution remote sensing images [J]. IEEE Transactions on Geoscience and Remote Sensing, ):149-169.   [3]BAI J, XIANG S M, PAN C H. A graphbased classification method for hyperspectral images [J]. IEEE Transactions on Geoscience and Remote Sensing, ):803-817.   [4]LI CH, KUO BC, LIN CT, et al. A spatial contextual support vector machine for remotely sensed image classification [J]. IEEE Transactions on Geoscience and Remote Sensing, ):784-799.   [5]MAULIK U, SAHA I. Modified differential evolution based fuzzy clustering for pixel classification in remote sensing imagery [J]. Pattern Recognition, ):.   [6]TARABALKA Y, CHANUSSOT J, BENEDIKTSSON J A. Segmentation and classification of hyperspectral images using watershed transformation [J]. Pattern Recognition, ):.   [7]TARABALKA Y, BENEDIKTSSON J A, CHANUSSOT J. Spectralspatial classification of hyperspectral imagery based on partitional clustering techniques [J]. IEEE Transactions on Geoscience and Remote Sensing, ):.   [8]TUIA D, MUNOZMAR J, CAMPSVALLS G. Remote sensing image segmentation by active queries [J]. Pattern Recognition, ):.   [9]LI J, BIOUCASDIAS J M, PLAZA A. Spectral spatial classification of hyperspectral data using loopy belief propagation and active learning [J]. IEEE Transactions on Geoscience and Remote Sensing, ): 844-856.
转载请注明来源。原文地址:
【xzbu】郑重声明:本网站资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有,如有不愿意被转载的情况,请通知我们删除已转载的信息。
xzbu发布此信息目的在于传播更多信息,与本网站立场无关。xzbu不保证该信息(包括但不限于文字、数据及图表)准确性、真实性、完整性等。高光谱图像_百度百科
清除历史记录关闭
声明:百科词条人人可编辑,词条创建和修改均免费,绝不存在官方及代理商付费代编,请勿上当受骗。
高光谱图像
在10l范围内的光谱图像称为高光谱图像(Hyperspectral Image)。经过20世纪后半叶的发展,无论在理论上、技术上和应用上均发生了重大的变化。其中,高光谱图像技术的出现和快速发展无疑是这种变化中十分突出的一个方面。通过搭载在不同空间平台上的高光谱传感器,即,在的紫外、、和区域,以数十至数百个连续且细分的光谱波段对目标区域同时成像。在获得地表图像信息的同时,也获得其光谱信息,第一次真正做到了光谱与图像的结合。与多光谱相比,高光谱影像不仅在信息丰富程度方面有了极大的提高,在处理技术上,对该类光谱数据进行更为合理、有效的分析处理提供了可能。因而,高光谱图像技术所具有的影响及发展潜力,是以往技术的各个发展阶段所不可比拟的,不仅引起了界的关注,同时也引起了其它领域(如医学、农学等)的极大兴趣。
高光谱图像特点
高光谱图像
高光谱图像在医疗上的应用
高光谱图像
高光谱图像
肉眼识别与高光谱图像
高光谱图像
高光谱图像
高光谱图像
高光谱遥感的发展得益于成像光谱技术的发展与成熟。
三维数据块
成像光谱技术是集探测器技术、精密光学机械、微弱信号检测、计算机技术、于一体的综合性技术。其最大特点是将成像技术与光谱探测技术结合,在对目标的空间特征成像的同时,对每个空间经过形成几十个乃至几百个窄以进行连续的光谱覆盖。这样形成的数据可以用“三维”来形象地描述,如右所示。其中x和y表示二维平面像素信息,第三维(λ轴)是波长信息坐标轴。高光谱图像集样本的图像信息与光谱信息于一身。图像信息可以反映样本的大小、形状、缺陷等外部品质特征,由于不同成分对光谱吸收也不同,在某个特定波长下图像对某个缺陷会有较显著的反映,而光谱信息能充分反映样品内部的物理结构、化学成分的差异。这些特点决定了高光谱图像技术在农产品内外部品质的检测方面的独特优势。
高光谱影像是收集及处理整个跨电磁波谱的信息,不像是人类的眼睛,只能接触到可见光。而高光谱的接触机制、比如虾蛄的眼睛它的光谱能够接触到红外线延伸到紫外线的范围。高光谱的能力能够使虾蛄分辨出不同的珊瑚、猎物,或则猎食者,而这些正是人类所缺少的.
清除历史记录关闭matlab高光谱图像分类_中华文本库
高光谱图像分类 - 《机器学习》课程项目报告 高光谱图像分类 —— 基于 CNN 和 ELM 学院信息工程学院 专业电子与通信工程 学号
学生姓名曹发贤 同组...
高光谱图像预处理的Matlab并行化研究_数学_自然科学_专业资料。2015年 8月 计 ...并行优 化 中图法分类号 :TP302.7 文 献标 识号:A 文章编号:...
一种新的高光谱图像分类方法 - 龙源期刊网 http://www.qikan.com.cn 一种新的高光谱图像分类方法 作者:杨月桃 王茂芝 郭科 来源:《无线互联科技》2013 年第...
^”~ \ 亡& } 样本数目 图1.5高光谱图像分类靛Hughes现象 图中,m表示训练...【42】胡昌华,李国华,刘涛,周志杰.基于MATLAB6.X的系统分析与设计 一小波分析....
高光谱图像 ? ……数学建模与matlab 二十一世纪是数据的世纪海量数据分析已经...优化问题模型:有约束与无约束数学规划,遗传算 法和蚁群算法,分类与聚类,随机...
质量评价 中图分类号: TP301. 6 文献标识码: B 文章编号: 1672 - 5867( ...资助 1 1. 1 MATLAB 环境下高分辨率影像与多光谱 影像融合遥感图像融合的预处理...
理论研究 适意信息 基于Matlab的高光谱遥感数据降维并行计算分析刘春①~,陈燕①,辛亮①(①同济大学测量与国土信息工程系,上海200092,②现代工程测量国家测绘局重点...
GDA的高光谱遥感数据分类,标准英文版论文,对高斯判别分析有详细描述,附有matlab...高光谱遥感技术作为一种新型的对地观测技术,其谱像合一的高光谱遥感图像携带了...
INP 高光谱数据(数据全称:Indiana Indian Pines,大小 145*145*200)进行分类。...实验结果与分析: 心得体会:经过本次试验,我不仅学会利用 Matlab 软件对遥感图像...
关键词:高光谱遥感影像;小波降噪;小波变换;分形维 中图分类号:P237.3 文献...将此算法在 matlab 中实现后可得到分维图,如图 3 所示。 [11] ; 2) 取...豆丁微信公众号
君,已阅读到文档的结尾了呢~~
HYPERSPECTRAL IMAGE CLASSIFICATION:高光谱图像分类分类,图象,image,高光谱,图像分类,高光谱图像,Image,光谱图象,谱图像
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
HYPERSPECTRAL IMAGE CLASSIFICATION:高光谱图像分类
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='http://www.docin.com/DocinViewer-4.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口论文推荐| 侯榜焕:面向高光谱图像分类的半监督空谱判别分析
面向高光谱图像分类的半监督空谱判别分析
侯榜焕1, 王锟2, 姚敏立1, 贾维敏1, 王榕1
1. 火箭军工程大学信息工程系, 陕西 西安 710025;
2. 国家计算机网络应急技术处理协调中心, 北京 100029
收稿日期:;修回日期:
基金项目:国家自然科学基金青年科学基金();中国博士后科学基金()
第一作者简介:侯榜焕(1985-), 男, 博士生, 研究方向为信号处理、机器学习、高光谱图像处理等。E-mail:
通信作者:王榕, E-mail wangrong07@tsinghua.org.cn
摘要:为充分利用高光谱图像蕴藏的空间信息提升分类精度,提出了面向高光谱图像分类的半监督空谱判别分析(S3DA)算法。考虑高光谱图像数据集的空间一致性,首先利用少量标记样本定义类内散度矩阵,保存数据集同类像元的光谱近邻结构;再利用无标记样本定义空间近邻像元散度矩阵,揭示像元间的空间近邻结构和地物的空间分布结构信息。S3DA既保持数据集在光谱域的可分性,又保存了无标记样本蕴藏的空间域近邻结构,增强了同类像元和空间近邻像元在投影子空间的聚集性,从而提升分类性能。在PaviaU和Indian Pines数据集的试验表明,总体分类精度分别达到81.50%和71.77%。与传统的光谱方法比较,该算法能有效提升高光谱图像数据集的地物分类精度。
关键词:高光谱图像分类特征提取判别分析空谱联合半监督学习空间近邻
Semi-supervised Spatial-spectral Discriminant Analysis for Hyperspectral Image Classification
HOU Banghuan1, WANG Kun2, YAO Minli1, JIA Weimin1, WANG Rong1
Abstract: In order to make full use of the spatial information embedded in the hyperspectral image to improve the classification accuracy, a semi-supervised spatial-spectral discriminant analysis (S3DA) algorithm for hyperspectral image classification is proposed. According to the spatial consistency property of hyperspectral image, the intra-class scatter matrix infered from a little labeled samples preserves the spectral similarity of the same class pixels, while the spatial local pixel scatter matrix defined by the unlabeled spatial neighbors uncovers the spatial-domain local pixel neighborhood structures and the ground objects detailed distribution. The S3DA method not only maintains the spectral-domain separability of the data set, but also preserves the spatial-domain local pixel neighborhood structure, which promotes the compactness of the same class pixels or the spatial neighbor pixels in the projected subspace and enhances the classification performance. The overall classification accuracies respectively reach 81.50% and 71.77% on the PaviaU and Indian Pines data sets. Compared with the traditional spectral methods, the proposed method can effectively improve ground objects classification accuracy.
Key words: hyperspectral image classificationfeature extractiondiscriminant analysisspatial-spectralsemi-supervised learningspatial neighbors
高光谱遥感图像由数十数百个波段组成,每个像元可表示为一条连续的光谱曲线,即图谱合一。目前已广泛应用于环境监测、国防建设和目标探测等领域[1-5]。由于波段数多、信息冗余多且波段间相关性强,直接进行地物分类时易出现“维数灾难”问题[3-5],致使处理过程复杂化,分类精度和分类效率明显降低。因此,如何减少数据冗余、发掘内在结构、提取有用判别信息,是提升高光谱图像分类性能的关键。
研究者们已提出一系列特征提取方法。经典方法如主成分分析(principal component analysis, PCA)[6]和线性判别分析(linear discriminant analysis, LDA)[7],均为全局线性方法。PCA以方差最大化寻求全局最佳逼近,LDA利用了样本的判别信息保持样本集的可分性;虽然它们都有效减小了数据冗余,但无法真正揭示高光谱数据集的非线性多模结构。基于流形学习的拉普拉斯映射(Laplacian eigenmap, LE)[8]和局部线性嵌入(local linear embedding, LLE)[9],能处理非线性的高维数据,但存在新样本学习问题。其线性化算法是局部保持投影(locality preserving projection, LPP)[10]和邻域保持嵌入(neighborhood preserving embedding, NPE)[11],具有良好的非线性流形学习能力,且方便处理新样本,但这类方法忽视了样本的判别信息,破坏了数据集的可分性,限制了分类精度的提高。为充分利用少量标记样本的判别信息和大量无标记样本蕴藏的非线性结构信息,半监督判别分析(semi-supervised discriminant analysis,SDA)[12]、半监督局部费舍尔判别分析(semi-supervised local Fisher discriminant analysis,SELF)[13]和半监督局部判别分析(semi-supervised local discriminant analysis,SELD)[14]等算法应运而生。这些算法充分利用少量标记样本的判别信息来保持数据集的可分性,还深入发掘未标记样本包含的局部流形结构信息或方差信息,改善了特征提取效果,提升了分类能力[15]。
以上算法只利用了光谱数据,未考虑高光谱图像数据集特有的地物空间分布结构信息对特征提取和分类的作用。高光谱数据集图谱合一,空间位置靠近的像元具有较强的光谱相关性,且距离越近,相关性越强[1-2];从地物分布看,空间近邻像元在很大概率上属于同类地物,相同类别地物在图像中往往呈现集中性或呈块状分布[16-26]。联合使用空间信息和光谱信息(简称空谱)的方式,有基于合成核分类器的多模特征融合[16]、基于图像滤波或图像分割的分类后处理[17-19]等,但这几种方式都属于在分类过程中加入空间信息。对空谱联合特征提取的研究相对较少。主要有在光谱特征、纹理特征等多模特征空间提取低维特征[20],或者对基于光谱特征空间提取的低维特征进行图像域平滑滤波[21-22],但都没有在特征提取算法函数中考虑高光谱地物的空间分布信息;文献[23-25]在流形学习构建相似图时,考虑了空间距离的影响,但无监督算法的本质,决定了此类算法无法进一步提高后续的地物分类精度。
针对以上问题,本文提出面向高光谱分类的无监督空间近邻像元均值嵌入(local pixel mean embedding, LPME)和半监督空谱判别分析(semi-supervised spatial-spectral discriminant analysis, S3DA)。通过空间近邻像元散度的最小化,最大限度保存了高光谱图像像元的空间近邻结构,实现了空间近邻像元均值嵌入;在此基础上,S3DA充分利用标记样本的判别信息来保持数据集的可分性,使同类地物像元和同一空间邻域内像元的聚集关系在投影子空间保持不变,更好揭示了高光谱图像数据集图谱合一的本质属性,从而提升分类性能。在PaviaU和Indian Pines高光谱数据集上验证了本文算法的有效性。
1 本文算法1.1 线性判别分析(LDA)
记nl个有标记的训练样本构成的样本集为 ,其中 ,投影后的数据 。LDA算法能利用样本集Xl的判别信息,构建同类数据的类内散度矩阵SW和异类数据的类间散度矩阵Sb,寻求一个最佳投影方向使异类数据的类间散度极大化、同类数据的类内散度极小化,以保持数据集在投影子空间的可分性。其中
c是类别数;ni是第i类的样本数;xji表示第i类的第j个样本;μi是第i类样本的均值向量,μ是样本集Xl的均值向量。
LDA的目标函数为
最佳投影向量a即广义特征值问题Sba=λSWa的最大的非零特征值对应的特征向量。由于类间散度矩阵Sb的秩为c-1,故最多存在c-1个非零特征值和对应的特征向量,即LDA算法最多可以提取出c-1个低维嵌入特征。当nl<d时,即小样本情况下,SW是奇异矩阵,无法直接求解,必须进行正则化处理[9, 26]。
1.2 空间近邻像元均值嵌入(LPME)
高光谱图像数据集具有明显的空间聚集属性,即空间上近邻的像元在很大概率上属于同类地物,其光谱特征也有较强的相似性和一致性[16-27]。为此,高光谱图像数据集的像元间的空间近邻结构,应该在投影后的特征空间中得到保持。
令 代表像元 的空间近邻区域,即以像元xi为中心的大小为ω×ω的正方形空间邻域,其中ω为奇正整数,是空间邻域的大小。当像元xi位于图像边缘或角落时,空间邻域内的空缺像元以中心像元xi填充。对某个较小的空间邻域内的像元,其均值向量在很大程度上代表着此处像元的典型光谱特征[26]。受LDA的类内散度矩阵启发,定义空间近邻像元散度矩阵为
mi是以xi为中心的空间邻域 内所有像元的均值向量;xik是xi的空间邻域 内的第k个空间近邻像元。空间近邻像元散度hi,表征着以xi为中心的空间邻域 内的像元,即空间近邻像元,与均值向量mi的离散程度[27]。HW为样本集Xl所有样本的空间近邻散度之和。
定义样本集Xl的总体散度矩阵St为
易知St=SW+Sb。为不失一般性,将数据中心化,即Xl中所有样本减去均值向量。中心化后μ=0,St可写为St=XlXlT。
与LDA的原理类似,本文提出LPME算法,使空间近邻像元在投影后尽量靠近其均值向量,使空间近邻像元散度极小化,以保存图像的空间近邻结构和地物的空间分布信息;同时,使总体散度St最大化,最大限度保存数据的方差信息和多样化信息[27-29]。LPME的目标函数定义为
LPME利用了样本集Xl及其空间近邻像元,但没有使用Xl的标记信息,故是无监督的。最佳投影向量a即广义特征值问题Sta=λHWa的最大的非零特征值对应的特征向量。
1.3 半监督空谱判别分析(S3DA)
LDA是监督算法,只能利用标记样本的光谱信息,学习得到的投影方向保存了数据集的判别信息,能够使投影子空间中同类数据更加靠近、异类数据更加分散。当LDA应用于高光谱特征提取时,无法利用高光谱图像特有的地物空间分布信息,其学习得到的子空间只反映了同类像元的光谱近邻结构(相似性关系),破坏了像元间特有的空间近邻结构。如果在特征提取过程考虑地物的空间分布信息,就能保存更多的像元间的空间近邻细节结构信息,从而降低局部空间邻域内像元在低维特征空间的波动起伏。
反之,LPME是无监督的,只能利用高光谱图像数据集的特有的地物空间分布信息,保存像元间的空间近邻结构,使提取的低维特征符合地物的空间分布规律。然而,LPME没有考虑像元的标记信息,即没有保存同类像元间的光谱近邻结构信息。对同类地物大片均匀分布区域的两个光谱近邻的同类像元,如果空间距离较远,LPME无法将其直接联系起来。为此,假如在算法中融入判别信息,就能够更好地提升投影方向的判别能力,增强低维嵌入特征的类别可分性。
由于标记样本的获取代价比较昂贵,而未标记样本数量庞大且容易获得;同时,利用标记样本只能保存图像的同类地物的光谱近邻结构,而像元的空间近邻结构只需使用未标记样本即可得到。基于此,本文提出S3DA算法。其目标函数为
S3DA能同时利用少数标记样本和较多的未标记样本,将高光谱图像的光谱信息和空间信息自动融合,以保存光谱近邻同类像元的判别信息和空间近邻像元的分布信息;S3DA使用的未标记样本,都位于标记样本的周围,有明确的空间分布和物理解释,更符合高光谱图像数据集的本质属性,因此能够提取更有效的判别特征。由于ω2nl>d很容易满足,此时样本数大于维数,故HW很容易满秩,有效避免了奇异性。矩阵St的秩由nl和d决定,能提取的低维特征数大于c-1(当nl>c时),较多的维数能更好地表达数据集的本质特征;由于St能最大限度保存样本集的方差信息和多样化信息,有利于提升分类精度[27-29]。
在求解时,此问题转化为广义特征值问题,即
其前r个最大特征值λ1>λ2>…λr对应的特征向量a1, a2, …, ar组成最优投影矩阵A。
1.4 LPME和S3DA求解步骤
LPME和S3DA算法求解的具体步骤为:
输入:包含N个样本点的高光谱图像数据集 ,N=I×J,用于训练投影矩阵的标记样本集 ,类别数c,嵌入维数r,空间邻域大小ω。
(1) 求类内散度矩阵SW。
(2) 求空间近邻像元散度矩阵HW。
(3) 求训练样本集总体散度矩阵St。
(4) 求解广义特征值问题,得到对应的特征向量a1, a2, …, ar组成的最优投影矩阵 。
输出:低维数据Y=ATX。
2 试验数据及设置2.1 试验数据集
为评估本文LPME和S3DA的分类性能,使用具有代表性的PaviaU[19]和Indian Pines[27]高光谱遥感数据集进行分类试验。
(1) PaviaU数据集:该数据集图像是2002年由ROSIS传感器获取的航空遥感图像,地点在意大利北部Pavia大学区域。图像大小为610×340像素,空间分辨率为1.3 m;包含了430 nm到860 nm光谱范围内的115个波段,光谱分辨率为4 nm到12 nm;去除噪声影响严重的波段后,剩余103个波段。该图像参考数据样本共计42 776个,含有9类地物信息。其假彩色图像和真实地物信息如图 1所示。
图 1 PaviaU高光谱图像Fig. 1PaviaU hyperspectral image
(2) Indian Pines数据集:该数据集图像由AVIRIS传感器拍摄的美国西部的农业植被区域。图像大小为145×145像素,空间分辨率为20 m;包含了400 nm到2500 nm光谱范围内的224个波段,光谱分辨率为9.7 nm到12 nm;去除噪声影响严重的波段后,剩余200个波段用于试验。该图像参考数据样本共计10 249个,含有16类地物信息。其假彩色图像和真实地物信息如图 2所示。
图 2 Indian Pines高光谱图像Fig. 2Indian Pines hyperspectral image
2.2 试验设置
试验中,与Baseline、LDA、SDA、SELF、SELDlpp[14]和SELDnpe[14]等进行对比。其中Baseline是对未降维数据直接分类的结果,LDA是经典的监督算法,SDA、SELF、SELDlpp和SELDnpe是半监督算法。为避免小样本时出现奇异,LDA的类内散度矩阵SW加上了单位矩阵正则项,正则系数设置为10-3。SDA的参数α和SELF的参数β分别在{0.1, 0.5, 2.5, 12.5, 62.5}和{0, 0.1, 0.2, …, 0.9, 1.0}中选取,使分类精度最优。SDA、SELDlpp和SELDnpe在构建近邻图时,光谱近邻数k设置为5。S3DA和LPME的空间邻域ω设置为3。LDA、SDA提取的低维特征数量为c-1,其余算法的嵌入维数上界均设置为30。
在学习投影矩阵时,训练样本包括标记样本集 和无标记样本集 ;Xu由每类地物随机选取的300个样本点组成(对不足300个样本的类别,选取除Xl之外的全部样本),nu是选取的无标记样本的总数。试验中,监督方法LDA只使用Xl作为训练样本;半监督方法SDA、SELF、SELDlpp与SELDnpe,使用标记样本集Xl和无标记样本集Xu进行学习;LPME和S3DA只使用Xl,但隐含地使用了Xl中每个样本的无标记的空间近邻像元;由于LPME是无监督的,故只使用Xl的数据,不使用Xl的标记信息。
在分类时,所有算法均使用Xl作为训练样本,剩余全部样本均为测试样本。使用最近邻分类器(nereast neighbor,NN),并采用总体精度(overall accuracy, OA)、平均精度(average accuracy,AA)和Kappa系数作为评价指标。为提高实验的精确度和可靠性,重复进行10次,每次随机选取训练样本,将10次试验的分类精度求平均值。
3 试验结果及分析3.1 PaviaU试验结果及分析
根据试验设置,图 3为各算法在PaviaU数据集上不同维数下的分类精度曲线,表 1为不同标记样本数下的最大总体分类精度。
图 3 不同算法在不同标记样本、不同维数下的分类精度Fig. 3Overall accuracies of different algorithms with different labeled samples in different dimensions
表 1不同标记样本下的最大总体分类精度(平均精度±标准差)Tab. 1Classification accuracies varied with different number of labeled samples(mean±std)
56.81±4.52
56.28±4.65
62.35±5.15
57.05±4.50
60.38±4.35
60.20±4.62
63.03±5.85
66.10±6.06
62.07±3.18
52.21±3.32
69.10±3.92
62.41±3.22
67.94±3.02
68.12±2.92
71.74±4.27
73.53±4.06
64.15±3.04
60.28±2.24
72.22±3.60
64.56±3.01
71.04±2.25
71.06±2.57
75.95±1.67
77.71±1.36
66.74±2.58
62.94±2.00
74.88±2.04
67.24±2.51
74.16±1.57
74.30±1.06
78.01±1.45
79.03±1.60
67.20±1.22
68.41±2.01
75.91±1.97
67.78±1.16
75.05±1.40
75.39±1.37
79.50±1.64
80.79±1.60
69.45±1.35
69.61±1.09
77.94±1.85
70.09±1.25
78.48±0.95
78.27±0.77
80.44±1.14
81.50±0.99
由图 3可知,随着嵌入维数的增加,各算法的分类精度不断增加,并逐渐达到最大值,之后不再升高,或者逐步降低。这是由于各个算法在本征维数时取得最优的分类精度,而嵌入在高维数据中的本征维数是未知的、不可确定的。当低维嵌入特征逐步增加时,其包含的判别信息越来越丰富,分类精度也相应地变大;但当达到本征维数时,分类精度取得最优值;此时,如果嵌入特征的维数再增加,有可能引入冗余信息或噪声,致使分类精度不再提高,甚至逐渐降低。由图可知,保留30个低维嵌入特征时,各算法均取得了最大分类精度,满足了分类任务的要求。
在表 1中,当每类地物取5、10、15、20、25、30个标记训练样本(对样本数不足50个的类别,最多选取一半)和300个未标记训练样本的情况下(S3DA使用的未标记样本是标记样本的8倍,即40、80、120、160、200、240个),各算法的最大总体分类精度随着标记样本数的增加而增加,这是因为标记样本越多,包含的标记信息越丰富,提取的低维特征的判别能力越强,其分类精度越好。在不同的标记样本数目下,相比其他算法,S3DA的分类精度始终是最高的,LPME仅次于S3DA。LPME比其他算法提高约2%~7%,S3DA高出其余算法约3%~10%,且S3DA始终高于LPME约1%~3%;同时,训练样本越少,S3DA相对LPME的分类精度提升越明显。
这是因为,LDA使数据集的类内散度最小化,即同类的光谱近邻像元在投影后靠近其均值向量,保存了高光谱图像的光谱近邻结构和同类地物的光谱相似性关系;SDA、SELF、SELDlpp和SELDnpe等算法,在LDA的基础上还保存了流形结构等信息,但他们都没有考虑高光谱图像的空间聚集属性。而本文的LPME算法,能使高光谱图像的空间近邻像元散度极小化,即空间近邻像元在投影后靠近其均值向量,保存了像元间的空间近邻结构和地物的空间分布信息,从而达到了较高的分类精度。S3DA集成了LDA和LPME的优势,同时利用了标记样本和无标记样本,不仅通过类内散度极小化保证投影子空间的类别可分性,还保存了图像的空间近邻结构,增强了同类像元和同一空间邻域像元的在低维空间的聚集性,使提取的低维特征更符合高光谱图像数据集的本质属性,从而强化了判别能力,改善了特征提取效果。
表 2是选取30个标记样本时各类地物的分类精度。S3DA和LPME在大部分地物类别都具有较好的分类效果,尤其是“Meadows”和“Bare Soil”的分类精度比其余算法提高约5%~25%,这是因为这两类地物在图像中呈大片块状均匀分布,有利于S3DA和LPME提取出更有判别力的低维特征。图 4为对应的分类图,可以看出S3DA和LPME获得了更多光滑区域,尤其是在图中圆圈所示的“Bare Soil”区域,错分点明显减少。但是,空间聚集特性的引入,也使得部分错分点呈块状分布,即错分像元的空间近邻像元也倾向于被错分,这在实际应用中需要加以注意。
表 2PaviaU数据集各类地物在不同算法下的分类精度Tab. 2Class-specific accuracies in PaviaU data set by different algorithms
Metal Sheets
总体精度(OA)
平均精度(AA)
图 4 在PaviaU上各算法的分类识别图Fig. 4Classification maps of different algorithms in PaviaU data set
3.2 Indian Pines试验结果及分析
在Indian Pines数据集上也进行了试验,图 5为各算法在不同标记样本下不同维数下的分类精度曲线,表 3为对应的最高总体分类精度。
图 5 不同算法在不同标记样本、不同维数下的分类精度Fig. 5Overall accuracies of different algorithms with different labeled samples in different dimensions
表 3不同标记样本下的最大总体分类精度(平均精度±标准差)Tab. 3Classification accuracies varied with different number of labeled samples(mean±std)
42.95±3.03
43.42±3.09
44.64±3.25
49.03±3.71
42.33±2.93
42.78±2.64
53.77±3.43
57.08±3.51
49.41±2.22
48.20±2.56
51.95±2.32
56.29±2.23
49.27±2.42
50.20±2.26
59.19±1.93
61.32±1.74
51.45±2.16
51.14±2.02
56.20±1.73
59.98±2.14
52.15±1.46
54.09±1.64
63.91±2.32
66.05±2.11
54.77±1.89
54.95±2.86
60.24±1.53
62.90±1.56
55.58±1.40
57.65±1.53
68.11±1.66
69.15±1.43
56.46±1.24
58.76±1.61
62.19±1.95
63.88±0.50
57.20±0.89
59.92±0.88
68.63±1.33
69.63±1.14
57.15±1.60
60.27±1.44
63.96±1.59
65.31±1.36
58.30±0.96
61.08±1.28
70.79±0.83
71.77±0.57
从图 5和表 3可以看出,其他几种算法的分类精度均低于本文提出的LPME和S3DA。在不同的标记样本数下,LPME比其他算法提高约5%~10%,S3DA高出其余算法约6%~14%,且S3DA始终高于LPME约1%~4%。同时,训练样本越少,S3DA相比LPME的分类精度提升也越明显。
这是因为LDA在线性二分类问题中应用效果较好,但本数据集具有多模非线性属性,虽然它能够保证不同类别数据的可分性和同类数据的聚集性,却无法利用高光谱数据集特有的空间信息;SDA、SELF、SELDlpp和SELDnpe等半监督算法,充分利用了标记样本的判别信息,保持了数据集的可分性,且通过较多的未标记样本挖掘数据集的光谱近邻流形结构或最大的方差信息,保存了数据集的非线性属性,但他们利用的未标记样本均是随机选取的,其潜在分布是未知的,也没有明确的物理意义,无法符合高光谱图像中不同地物的空间分布规律。反之,S3DA使用的未标记样本,是标记样本的空间近邻像元,有明确的空间分布和物理意义,更符合高光谱图像数据集的本质属性,使同类像元和空间近邻像元的相似性和聚集性在投影子空间保持不变,因此能够提取更有效的判别特征,取得更高的分类精度。
3.3 空间邻域大小与无标记样本数的影响
S3DA利用空间近邻的无标记样本来保存图像的空间近邻结构,故空间邻域大小ω与S3DA利用的无标记样本数有直接的对应关系;同时,由于无标记样本的选取有明确物理意义,故无标记样本数量受空间邻域大小限制,无法自由选择。在Indian Pines和PaviaU数据集中选取30个标记训练样本进行试验。试验中,ω分别选取为3、5、7、9、11、13,即选取的无标记样本总数为240、720、、。
图 6是不同ω时的分类精度。由图 6可知,随着ω值的增加,尽管无标记样本数在增加,但S3DA的分类精度却逐步下降。这是因为随着ω值增加,空间邻域内的像元逐步增加,与中心像元距离逐步增大,属于同类地物的概率逐渐变小,即属于异类地物的概率逐步增大,像元的均值向量偏离了同类地物的典型光谱特征,使像元在投影后也偏离了同类地物,故分类精度不断降低。由图 6可知,当ω值较小时,即选取较少的无标记样本时,分类精度最高;这意味着较少的计算量,在实际应用中具有重要意义。
图 6 不同ω值下的分类精度Fig. 6Overall accuracies with different ω
3.4 时间复杂度分析
LDA的复杂度分别为O((nl+c)d2);SDA将数据集的流形结构信息引入LDA,复杂度为O((nl+c)d2+nud2+2nu2d);SELDlpp和SELDnpe集成了LDA的判别能力和LPP、NPE的流形结构保存能力,复杂度为O(nld2+3nu2d+2nud2),SELDnpe计算重构系数额外还需要O(nudk3);SELF充分利用了样本的方差信息,复杂度为O(3nl2d+2nld2+nud2)。本文算法LPME和S3DA的复杂度分别为O(ω2nld2)和O((ω2nl+nl+c)d2),主要取决于空间邻域ω、波段数d和标记样本总数nl。
由于nu通常大于nl,故SDA、SELF、SELDlpp、SELDnpe的计算量相对较大,LDA和本文S3DA、LPME的计算代价较小。试验硬件平台为Intel(R) Core(TM) i7- GHz CPU和16.0 GB RAM,软件版本为Matlab7.0。
以选取30个标记样本为例。表 4是各算法的运行时间。本文S3DA和LPME的运行时间大于LDA,但小于SDA、SELF、SELDlpp和SELDnpe,这与复杂度分析的结论一致。由于Indian Pines数据集的波段数是PaivaU的近2倍,且地物类别较多,每次选取的样本总数也较多,故Indian Pines数据集上各算法耗时比PaviaU数据集多。表中SELF的运行时间最长,这主要是因为程序设计的原因。
表 4各算法的运行时间Tab. 4Time cost of different algorithms
Indian Pines
本文结合高光谱图像的图谱合一特性,提出了面向高光谱分类的无监督空间近邻像元均值嵌入和半监督空谱判别分析算法。该算法利用少量标记样本和较多的无标记空间近邻样本,通过类内散度矩阵和空间近邻像元散度矩阵极小化,使标记样本包含的判别信息和无标记样本蕴藏的空间近邻结构在投影子空间得以保存,强化了同类像元和空间近邻像元的聚集性,在特征提取过程中自动融入空间信息,提取了更有效的判别特征,提升了分类性能。在PaviaU和Indian Pines高光谱数据集的试验表明,总体分类精度分别达到81.50%和71.77%。与传统特征提取算法相比,分类精度有了明显地提升。
但本文算法只考虑了高光谱图像的判别能力和空间分布特性,没有考虑高维数据蕴藏的非线性流形结构,如何将三者同时结合起来提取更有效的特征,是下一步研究的内容。
【引文格式】侯榜焕,王锟,姚敏立,等。面向高光谱图像分类的半监督空谱判别分析[J]. 测绘学报,):, 1115. DOI: 10.11947/j.AGCS.1
学术前沿| 李清泉教授:基于位置大数据的城市内外部空间分析
院士论坛| 郭仁忠:地图学复兴问题
院士论坛| 王家耀:时空大数据时代:地图学的过去与未来
责任编辑:
声明:本文由入驻搜狐号的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
今日搜狐热点}

我要回帖

更多关于 高光谱图像分类指标 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信