特征选择中遗传算法的种群规模模一般设多大

当前位置: >>
并行免疫克隆特征选择算法
2008年10月 第35卷第5期西安电子科技大学学撮‘自然科学版)JOURNAL oF XIDIAN UNIVERSITYOct.2008 VoI.35No.5并行免疫克隆特征选择算法朱虎明,焦李成(西安电子科技大学智能信息处理研究所和智能意知与 图像理解教育部
重点实验室,陕西西安710071)摘要:针对模式识别中传统的封装式特征选择算法,难以得到较好的特征子集和复杂度较高的分类器评价特征子集的耗时问题,提出了一种用于特征选择的并行免疫克隆算法,采用免疫克隆算法搜索特征,并利用并行算法评价特征子集,即将神群中个体的适应度计算并行在多个计算节点上同时进行。将 该算法在Linux刀片集群上基于MPICH软件对UCI数据集进行特征子集选择算法仿真,特征子集采用最近邻分类并采用留一法验证评价.结果表明该算法选出的特征子集优于经典的顺序浮动前向搜索 算法衣标准遗传算法,与串行算法运行时同相比,在40个CPU时其加速比最高可达29.57. 关键词:模式识别;并行算法;特征选择,分类中圈分类号:TPl8 文献标识码:A 文章编号:1001-2400(2008)05―0853―05Parallel immune clonal selection for feature selectionZHU Hu―ming,J IAO Li―cheng(Ministryof Education Key Lab.of Intelligent Perception and Image Understanding,Research Inst.of IntelligentInformation Processing,Xidian Univ.,Xi’an710071,China)Abstract: is evaluatedFocusingonthe time-consuming problem of wrapper feature selection when the feature subset inpatternusing high-complexity classifiersrecognition,a novelparallel immune clonaluses anselection for feature selection algorithm(PICFS)is proposed.The presented methodimmune theclonalselection for feature selection;fitness of fe!ature neighbor classifier with resultsonsubset fitness isdetermined by evaluatingatnearestleave-one-out cross-validation in multiple computing nodesseveral standards UCI datasetsetsthe same algorithmtime.Experimentalshowthatthe proposedoutperforms the conventional genetic algorithm and classical sequential floating forward search algorithm in terms of classificationaccuracyaand greatly reduce the running time based speed-upasonMPlCH using the Linuxprocessorsareblade cluster,we have achieved Keyhighas29.57evenwhenupto40used.Words:patternrecognition;parallel algorithms;feature selection;classification网络数据挖掘、生物信息学和图像处理等领域产生了大量的海量高维数据,由于高维数据分类时容易 引起维数灾问题,它不仅使得分类器的性能下降,而且还增加了计算量.因此,在处理高维数据时,降维就成 为一个关键的预处理步骤.特征选择口3是常用的一种降维方法.从数据挖掘的流程来看,特征选择属于数据 的预处理阶段,特征选择后面一般要结合分类学习算法,因此按照结合方式可分为过滤和封装两种.封装式 特征选择算法直接用分类器准确率作为特征子集评估标准,由于不同学习算法偏好不同的特征子集,所以封 装式特征选择之后的学习效果好,但是其缺点是时间复杂度较高(如最近邻分类器),所以如何降低学习时间 成为研究的一个热点. 特征选择已经被证明是NP-hard问题,它可以看作是一个组合优化问题,即从D个特征中按某种优化收稿日期:2007―11―12 基金项目:国家863项目资助(2006AA012107)I国家自然科学基金资助(60703109,60603019)I高等学校博士学科点专项科研基金资助(20070701016)作者简介:朱虎明(1978一),男,讲师。西安电子辩技大学博士研究生,E-mail;zhuhum(园mail。xidian。edu.CR。万方数据   854西安电子科技大学学报(自然科学版)第35卷准则选出d个特征,随着D的增大,要搜索的特征空间急剧增加,这就使得许多传统的特征选择方法,如穷尽 式和分支界定法难以得到较好的特征子集.免疫克隆算法∞j是一个模拟自然免疫系统功能来求解问题的自 适应人工智能技术,能够兼顾全局搜索和局部搜索,快速收敛到较优解,已广泛应用在函数优化、组合优化 和数据挖掘等领域. 为解决传统封装式特征选择算法难以得到较好的特征子集和复杂度较高的分类器评价特征子集的耗时 问题,笔者提出了一种基于免疫克隆的并行特征选择算法(PICFS),利用免疫克隆算法极强的搜索能力来发 现较好的特征子集,在大规模集群上采用并行算法来降低算法运行时间.1并行计算1.1集群集群系统由节点和集群互连网络组成,再配置上全局软件,是一种松散耦合的多机系统.通过各节点的 并行运行,可以实现高性能的并行计算.集群的节点由机架式服务器或者刀片式服务器构成.网络通常选用 Myrinet,InfiniBand和千兆以太网. 目前在集群环境下应用最多的并行编程环境是消息传递模型口].在消息传递并行编程中,各个并行执行 的任务之间通过传递消息来交换信息、协调步伐、控制执行.消息传递模型目前的国际标准是MPI.MPICH 是目前国际上最重要的一种MPI实现. 1.2性能度量 并行算法分析中常采用加速比与效率分析.加速比S,一t/T,,其中T,是求解一个问题最快的串行算 法在最坏情况下的运行时间,而T。是求解同一个问题的并行算法在最坏情况下的运行时间.可见加速比是 评价算法的并行性对运行时间改进的程度.效率Ep―S,/p,其中P为处理器的个数,效率反映了并行系统 中处理器的利用情况.2并行免疫克隆特征选择算法2.1编码设计 对于特征选择问题使用二进制编码.1个个体表示1个特征子集,1个长度为咒的个体对应于1个竹维的二进制特征矢量.个体中的1表示对应特征项包含于所选特征子集中,0表示不包含.例如:一个个体编码为 A一{1001100110},就表示所选特征子集为X一{1,4,5,8,9}.字符串A=口。,a2,…,a;是某一特征子集的抗 体编码,记为A―e(X);而X称为抗体A的解码,记为:X一厂1(A);集J称为抗体空间,厂为,上的正实值 函数,称为抗体一抗原亲和度函数;抗原就是需要的特征子集,亲和度函数,的值就是某个分类器在抗体所 表示的特征子集上的分类精确率,显然其值越大,表示所选择的特征子集越好. 2.2并行计算亲和度 在基于免疫克隆的串行特征选择中,用工表示第i个个体的亲和度,A。。(£)就是用种群中的个体进行特 征选择后按最近邻分类并采用留一法验证的分类正确率,所以^一A。。(i). (1)根据式X―e-1(A)解码后,依据式(1)计算第志代抗体群亲和度,记F(曼):{,(X(惫)))一{厂(X1(足)),厂(X2(志)),…,厂(X。(足))).(2)由于是采用了留一法来评价最近邻分类的效果,所以最耗时的便是亲和度的计算,在串行算法中,在克隆个 体后,循环计算每个个体的适应度.在并行计算中,可以把循环进行分解,也就是把要计算适应度的个体通过 消息发送到集群中的多个节点中,然后并行计算亲和度,最后节点把计算好的适应度发送回来,也就是所谓 的主从式算法.算法流程如下: 步骤1 主节点获得参数处理器(CPU)个数N和克隆规模,z。. 步骤2计算每个节点要计算的个体数目M,由于CPU数目不一定能整除种群中的个体,所以能整除万方数据   第5期朱虎明等:并行免疫克隆特征选择算法855时每个CPU要计算的个体为Ml一,l。/N,不能整除时,将剩余的个体(M;一行,%N)给编号较大的那些 CPU多发送一个.这样每个CPU接收到的个体数目在不能整除时只差一个,这样就是一个简单的负载均衡 程序.主节点利用MPICH中的非阻塞型通信函数MPI Isend(&Ml,1,MPI INT,i,sTa901,MPI COMM.WORLD,&handle)命令发送;从节点利用MPICH中的阻塞型通信函数MPI.Recv(&M。,1, MPI.INT,0,rTagll,MPI.COMM.WORLD,&status)接收. 步骤3 主节点利用MPI.Isend发送个体编码到从节点. 步骤4各个从节点并行计算亲和度,并利用MPI.Isend发送回主节点. 步骤5 步骤1 主节点利用MPI Recv接收从节点返回的适应度值. 2.3并行免疫克隆特征选择算法框架 初始化:设定算法终止条件,给定变异概率P。、克隆规模珥、抗体种群规模7'1、抗体编码长度Z.In一{A:A一(A1,A2,…,A。),初始化后生成抗体种群空间为A^∈I,1≤k≤7"/}.(3)正整数竹称为抗体种群规模,抗体群A一{A。,A。,…,A.)为抗体A的1"/元组,是抗体种群空间P矢量的一个 点.随机产生初始抗体群A(o)={A。(o),A2(o),…,A。(o))∈P,进化代数k―o. 步骤2并行计算亲和度. 步骤3算法终止条件判断:如果满足就结束算法,否则继续. 步骤4对A(忌)进行克隆操作(T}),定义 y(志)=T}(A(志))一[-Tc(Al(五)),T宇(A2(愚)), f【 f(At(惫)) …,T?(A。(五))]T,(4)其中T}(A;(忌))一I;x A;(五),i=1,2,…,咒,1,为元素为1的gi维行向量,称抗体A,的q。克隆.、,qi(足)一Int卜xInt(x)表示大于z的最小整数.骞心圳J一卅’2’……(5)步骤5对l,(奄)进行免疫基因操作[4];免疫基因操作主要包括克隆重组(T})和克隆变异(T三).以概 率1对克隆后的群体进行重组操作,即K(愚)一E(1,i(惫),A,(是)),l,#(愚)∈Yf(是),J一1,2,…,吼,A,(志)∈A(忌),i,t一1,2,…,咒且i≠t重组策略实现抗体间的协作,促进不同抗体间信息的交流,有利于增加种群多样性,提高算法的搜索能力. 依据概率P。对克隆重组后的群体Y7(惫)进行变异操作,z(点)一T£(y7(足)). 步骤6并行计算亲和度.’.(6)步骤7对z(忌)进行克隆选择操作:Vi一1,2,…,,2,记Bi(愚)=max{Zi(惫))一{Zo(愚)Imax,(邑(愚)),.f一1,2,…,q。},克隆选择完成后得到下一代抗体群A(k+1). 步骤8返回步骤3. 2.4算法时间分析(7)在文中的特征选择算法中,最耗时的是近邻分类,它与特征的个数和分类器的评价方法有关,如果特征 个数为d,样本个数为m,评价方法为留一法,易知它的复杂度为O(dm 3),该算法均采用留一法验证,所以比 较不同算法的时间复杂度主要取决于每次进行特征评价时特征的个数.这里采用文献[5J的方法,用T(K) 表示评价特征个数为K时所花费的时间代价,又把评价一个特征花费的时间称为原子时间,记为t.就有 T(K)≈Kt.如一个个体为P一1001100110,那么特征子集的维数K。一5,评价这个特征子集所花费的时间 就为K,t.最后将每代中的时间求和就是总的时间复杂度.3对UCI数据集的对比实验及结果分析3.1数据集和实验参数 实验所用数据集来自UCInl,特征值均为数值.Ionosphere数据集样本为351个,特征维数为34,2类信万方数据   856西安电子科技大学学报(自然科学版)第35卷息;sonar数据集样本为208个,特征维数为61,2类信息;wpbc数据集样本为194个,特征维数为33,3类 信息.对于有数据丢失的wpbe数据集删掉了丢失数据的4个样本.数据集均采用最近邻分类和留一法 验证. 免疫克隆算法的参数选取有很大的技巧和经验,这里采用了文献中经常使用的参数:抗体群规模 靠=20,克隆规模为,l。=40,变异概率P。一0.05,抗体编码长度L等于数据集维数.所有数据结果都是15次 平均,运行代数:SGA为20倍的数据集维数,PICFS为7倍的数据集维数. 3.2时间复杂度和分类正确率 实验结果见表1,复杂度为15次计算的平均值.表1进化代数与时间复杂度数据集特征选择前/%SFFS/%SFS/%SGA/%PICFS/%表2总结了4种算法在3个UCI数据集上的分类精确率:顺 序浮动前向搜索(SFFS),SFS,SGA和PICFS,算法下面的数字是 正确识别率.进化算法的结果都是实验15次取平均值.图1给出了 PICFS在sonar数据集上的某一次分类精确率,可以看出随着代数 的增加,分类精确率也在增加,表明算法的有效性. 从表2首先可以看出采用特征选择算法后,分类的精确率都 有了很大的提高,文中的并行免疫克隆算法相比较传统的SFFS等 算法取得了更好的特征子集;由表1和表2还可以看出免疫克隆 算法用比遗传算法更少的特征评价次数,得到了更好的特征子集, 表明免疫克隆算法良好的搜索能力. 3.3实验分析和讨论 采用加速比和效率来研究算法的性能.加速比是评价算法的 并行性对运行时间改进的程度.效率则反映了并行系统中处理器的利用情况.表3给出了能被种群个体数量 40整除的CPU个数下,UCI数据集上的算法运行时间、加速比和效率.图2和图3是根据表3画出的并行 算法在UCI数据集上的加速比与效率分析图.从图2中可看出,随着结点数的增加,速度有明显提高;图2 表明2个到10个CPU时效率比较高(大于85%),当结点数增加到40时,效率下降到74%左右.这主要是 由于随着节点的个数不断增加,每个结点的计算量在不断减小,这样数据传送时间与整个时间的比值就越 大,导致效率逐渐降低.计算时的数据通信量主要是传输每个节点要计算的特征子集个数、特征子集和最后 从节点的结果返回.从图2还可以看出,当CPU从21增加到39时,加速比相对较差,这是因为种群中有40 个个体,CPU为20时,每个从节点计算2个个体的适应度,然后CPU数目从21变换到39时,至少有一个 节点仍然是要计算2个个体的适应度,当CPU数目和种群中的个体数据相同时,每个CPU计算一个个体的 适应度,所以加速比在CPU从21到39时变化不大,在40时有一个很大的提升,原因主要是尽管文中算法 考虑了负载均衡问题,但是负载均衡算法比较粗糙,所以负载仍然不是很均衡.图1 代数 *霉羹 称 求PICFS在sonar数据集上 的某一次分类精确事万方数据   第5期朱虎明等:并行免疫克隆特征选择算法857筮 鞠 鼻cPul"鼓CPu个数 图2 UCI数据集上的加速比图 图3 UCI数据集上的效率表3不同处理器个数下,时间、加速比、并行效率列表4结束语为解决传统封装式特征选择算法难以得到较好的特征子集和复杂度较高的分类器评价特征子集的耗时 问题,提出了并行免疫克隆特征选择算法.利用免疫克隆算法能够兼顾全局搜索和局部搜索的优点来发现较 好的特征子集,采用并行算法评价特征以降低算法运行时间.在Linux刀片集群上基于MPICH并行软件对 UCI数据集的仿真实验表明该算法选出的特征子集优于经典的SFFS和SGA算法,与串行算法运行时间比 较,在40个CPU时其加速比最高可达29.57.当然算法还有许多有待继续研究的问题,如并行免疫克隆特 征选择算法的参数研究、负载均衡和程序优化等. 参考文献:I-1-1 Kudo M,Sklansky J.Comparison of Algorithms that Select Features for Pattern Classifiers口].Pattern Recognition,2000,33(1):25―4L[23杜海峰,公茂果,焦李成。等.用于高维函数优化的免疫记忆克隆规划算法[J].自然科学进展,2004,14(8):925-933.Du Haifeng,Gong Function NumericalMaoguo,Jiao Licheng,et a1.Immune Memory Clonal Programming Algorithm for High-dimensionalOptimization[J].Progressin Natural Science,2004。14(8):925―933.[33Buyya R.High Performance ClusterComputing[M].NJ:Prentice-Hall,1999.[43丛琳,沙宇恒,焦李成.采用正交免疫克隆粒子群算法求解SAT问题[J].西安电子科技大学学报,2007,34(4):616―621.Cong[53 [63Lin。Sha Yuheng,Jiao Licheng.Orthogonal Immune Clone Particle Swarm Optimization for the SATProblem口].Journal of Xidian University,2007,34(4):616―621.Oh I S,Lee JS,Moon B R.Hybrid Genetic Algorithms for Feature Selection[J].IEEE TransonPattern Analysis andMachine Intelligence。2004,26(11):I 424―1 437.Blake C L,KeoghE,Merz C J.UCI Repository of Machine Learning Databases[DB/OL].[2007-10―1 53.http://www.ies.uci.edu/mlearn/MLRepository.html.(编辑:齐淑娟)万方数据   并行免疫克隆特征选择算法作者: 作者单位: 刊名: 英文刊名: 年,卷(期): 被引用次数: 朱虎明, 焦李成, ZHU Hu-ming, JIAO Li-cheng 西安电子科技大学,智能信息处理研究所和智能感知与图像理解教育部重点实验室,陕西,西 安,710071 西安电子科技大学学报(自然科学版) JOURNAL OF XIDIAN UNIVERSITY(NATURAL SCIENCE) ) 3次参考文献(6条) 1.Kudo M;Sklansky J Comparison of Algorithms that Select Features for Pattern Classifiers[外文期刊] .杜海峰;公茂果;焦李成 用于高维函数优化的免疫记忆克隆规划算法[期刊论文]-自然科学进展 .Buyya R High Performance Cluster Computing 1999 4.丛琳;沙宇恒;焦李成 采用正交免疫克隆粒子群算法求解SAT问题[期刊论文]-西安电子科技大学学报 .Oh I S;Lee J S;Moon B R Hybrid Genetic Algorithms for Feature Selection .Blake C L;Keogh E;Merz C J UCI Repository of Machine Learning Databases 2007本文读者也读过(3条) 1. 朱虎明.焦李成.ZHU Huming.JIAO Licheng 基于免疫记忆克隆的特征选择[期刊论文]-西安交通大学学报 ) 2. 吴秋逸.焦李成.李阳阳.邓晓政.WU Qiu-Yi.JIAO Li-Cheng.LI Yang-Yang.DENG Xiao-Zheng 自适应量子免疫克 隆算法及其收敛性分析[期刊论文]-模式识别与人工智能) 3. 何钦象.柯芬蓉.杨智春.HE Qin-xiang.KE Fen-rong.YANG Zhi-chun 周期变异概率的免疫克隆算法[期刊论文]控制理论与应用)引证文献(3条) 1.尚荣华.焦李成.吴建设.马文萍.李阳阳 用于非监督特征选择的免疫克隆多目标优化算法[期刊论文]-西安电子科 技大学学报(自然科学版) .栗茂林.梁霖.王孙安.刘弹 结合交叠区异点统计和相关分析的免疫克隆特征选择方法[期刊论文]-西安交通大学 学报 .廖玲.谢红薇.袁倩倩 基于TSP问题的免疫算法研究[期刊论文]-电脑开发与应用 2010(4)本文链接:.cn/Periodical_xadzkjdx.aspx
集成学习算法_IT/计算机_专业资料。集成学习算法 Vapnik 等提出的 SVM 是一种...因此,集成学习 算法中个体 SVMs 的特征子集的选择使用免疫克隆算法进行搜索。 ...利用免疫系统的 克隆选择机制,提出一种用于函数优化的改进免疫算法。其主要特点是...亲和度计算、选择、克隆、超变异、消亡 等,属随机优化算法,具有显示的并行性。...1958 年澳大利亚学者 Burnet 率先提出了克隆选择原理[...近几年,网 络和智能成为免疫算法发展的的特征之一...经过各位学者的不断专 研,免疫算法于其他算法的并行...进行总结概括,分析了 BP 神经网络的优缺点,针对 BP 神经网络不足,提出了一种新的特征提取方法, 即分形维数-免疫克隆选择特征提取算法,并对该算法进行阐述和分析...WSN 中考虑节点磨损的分布式自稳定网络寿命优化算法 66……一种并行模糊神经网络...99……基于选择性加载策略的电能质量数据处理 100……基于免疫克隆特征选择和欠...本文提出了一种基于克隆选择的免疫预测控 制算法,利用克隆选择算法实现滚动优法,...并行免疫克隆特征选择算... 暂无评价 5页 ¥2.00 基于免疫记忆克隆的特征....数据分类器和神经网络 等机制的特点,并且学习进化学习机理包括记忆学习、自组织...免疫算法基本原理是通过抗原与抗体的结合, 对抗体进行克隆选择、 超变异、 重组...免疫算法的特性:克隆选择、学习、记忆、鲁棒性和适应性。 2 解决车间生产调度问题的克隆选择算法 2.1 目标函数车间调度问题是一种多目标优化问题,它使所有工件的...现代科学发展的多层次、 多学科和 多领域的相互渗透、相互交叉和相互促进的特点...关键词:人工免疫系统,人工免疫算法 克隆选择算法、 阴性选择算法和免疫学习算 1...[解析] 多发性骨髓瘤、孤立性骨髓瘤、重链病、浆细胞白血病产生过量的单克隆免疫球蛋白;但在类风湿关节炎时,则产生IgM,IgG,IgA型类风湿因子(RF),均为多克隆免...
All rights reserved Powered by
copyright &copyright 。文档资料库内容来自网络,如有侵犯请联系客服。小木虫 --- 600万学术达人喜爱的学术科研平台
热门搜索:
&&查看话题
特征选择中的交叉验证
急急急!有一个疑问,现在有一个数据,对数据做特征选择!有两种做法:1 对全部数据进行不同的特征选择算法,然后进行交叉验证 2 先把数据集分成训练集和测试集,然后对每一组训练集进行不同特征选择算法,再进行建模&&哪种方法好啊?可不可以用第一种啊,因为比较方便,我只是想比较特征选择算法好坏
重新问一下,特征选择算法是只用在训练集上,还是在没有划分训练集和测试集之前作用在原始数据集上?还是两种都可以?另外,您说的那个grid方法我也不太理解,您是做特征选择的吗?
因为我是做互信息特征选择,不是lasso的
看你做分类还是聚类,聚类的话不用拆分数据,分类的话就需要分为测试和训练。
分类啊,但是我问师兄,他说他就没拆,在论文里说清楚了就行!因为没拆跑数据比较快,不知道对不对
基于互信息的我不太清楚,我只了解基于稀疏表示的。
没拆?选出来后再分训练和测试吗?
我只是看过一段时间的特征选择,聚类倒是全部训练,分类感觉只能在训练数据上进行吧?
我感觉都行吧,当然你说的那种更好,因为标准,但是太慢,而且只比较特征选择算法,同样标准也是公平的,我的理解。我给你发私信了,交流一下啊
那么在训练集上进行特征选择,这样就过滤掉一部分特征,但是测试集合上没有过滤掉,那么测试的时候,测试集要过滤掉这部分吗?还是直接拿来测试啊?
对,是这个意思!那么哪种方法行?还是都可以?
学术必备与600万学术达人在线互动!
扫描下载送金币更多最新文章相关作者文章搜狗:感谢您阅读实力干货 | 特征选择详解(下):缠绕法 本文版权归原作者所有,本文由网友投递产生,如有侵权请联系 ,会第一时间为您处理删除。}

我要回帖

更多关于 种群的特征 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信