一个样本里是不是包含很多市场特征包含哪些方面子集

君,已阅读到文档的结尾了呢~~
基于tor--r方法的特征选择算法研究,特征选择算法,算法的特征,特征点匹配算法,特征系统实现算法,特征提取算法,算法的基本特征是,r语言 分类算法,路由选择算法,选择排序算法
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
基于tor--r方法的特征选择算法研究
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer-4.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口帐号:密码:下次自动登录{url:/nForum/slist.json?uid=guest&root=list-section}{url:/nForum/nlist.json?uid=guest&root=list-section}
贴数:3&分页:360水军死全家发信人: softside (我爱妞妞), 信区: Python
标&&题: 如何判断一个list是不是另一个list的子集
发信站: 水木社区 (Mon Feb 14 14:40:51 2011), 转信 &&&&&& -- && ※ 来源:·水木社区 newsmth.net·[FROM: 114.249.221.*]
qunshan发信人: qunshan (qunshan), 信区: Python
标&&题: Re: 如何判断一个list是不是另一个list的子集
发信站: 水木社区 (Mon Feb 14 14:48:28 2011), 转信 && print bool(set([2,3]) - set([1,2,3,4]))
【 在 softside (我爱妞妞) 的大作中提到: 】 && -- && ※ 来源:·水木社区 ·[FROM: 218.94.63.*]
奥路菲发信人: Orpherus (奥路菲), 信区: Python
标&&题: Re: 如何判断一个list是不是另一个list的子集
发信站: 水木社区 (Mon Feb 14 14:57:37 2011), 转信 && set(list_a) & set(list_b) && 【 在 softside (我爱妞妞) 的大作中提到: 】 &&&& -- && ※ 来源:·水木社区 newsmth.net·[FROM: 116.226.192.*]
文章数:3&分页:特征选择|LOFTER(乐乎) - 记录生活,发现同好
LOFTER for ipad —— 记录生活,发现同好
&nbsp&nbsp被喜欢
&nbsp&nbsp被喜欢
{list posts as post}
{if post.type==1 || post.type == 5}
{if !!post.title}${post.title|escape}{/if}
{if !!post.digest}${post.digest}{/if}
{if post.type==2}
{if post.type == 3}
{if !!post.image}
{if post.type == 4}
{if !!post.image}
{if !!photo.labels && photo.labels.length>0}
{var wrapwidth = photo.ow < 500?photo.ow:500}
{list photo.labels as labs}
{var lbtxtwidth = Math.floor(wrapwidth*(labs.ort==1?labs.x:(100-labs.x))/100)-62}
{if lbtxtwidth>12}
{if !!labs.icon}
{list photos as photo}
{if photo_index==0}{break}{/if}
品牌${make||'-'}
型号${model||'-'}
焦距${focalLength||'-'}
光圈${apertureValue||'-'}
快门速度${exposureTime||'-'}
ISO${isoSpeedRatings||'-'}
曝光补偿${exposureBiasValue||'-'}
镜头${lens||'-'}
{if data.msgRank == 1}{/if}
{if data.askSetting == 1}{/if}
{if defined('posts')&&posts.length>0}
{list posts as post}
{if post_index < 3}
{if post.type == 1 || post.type == 5}
{if !!post.title}${post.title|escape}{/if}
{if !!post.digest}${post.digest}{/if}
{if post.type == 2}
{if post.type == 3}
{if post.type == 4}
{if post.type == 6}
{if drlist.length>0}
更多相似达人:
{list drlist as dr}{if drlist.length === 3 && dr_index === 0}、{/if}{if drlist.length === 3 && dr_index === 1}、{/if}{if drlist.length === 2 && dr_index === 0}、{/if}{/list}
暂无相似达人,
{if defined('posts')&&posts.length>0}
{list posts as post}
{if post.type == 2}
{if post.type == 3}
{if post.type == 4}
{if post.type == 6}
this.p={ currentPage:1,pageNewMode:true,isgooglead3:false,ishotrecompost:false,visitorId:0, first:'',tag:'特征选择',recommType:'new',recommenderRole:0,offset:6,type:0,isUserEditor:0,};一种数据挖掘中的特征子集选取模型研究和应用--《华中师范大学》2011年硕士论文
一种数据挖掘中的特征子集选取模型研究和应用
【摘要】:特征提取是模式识别中的一个重要过程,如今,也在数据挖掘领域也有着广泛的应用。对于高维数据的数据挖掘,特征提取可以有效地对数据进行降维处理,从而降低算法的运算规模。相对于主成分分析,粗糙集等数据降维方法,特征提取更加系统化,也更加依赖与问题的具体应用领域,提出针对性的特征提取模型,得到的结果也更加具有参考价值。将支持向量机应用于特征提取中,可以结合两者的长处,优化特征提取的过程,是对特征提取方法的一种探索。
本文针对最优特征子集选取的问题,进行了相关的探索研究。借鉴经典统计理论中的分位数的概念,将其引入特征选取模型,建立了分位数特征选取模型。另外,参考信息学中关于信息相对熵的概念和定义,建立了相对熵特征选取模型。在对特征候选集进行最优特征子集选取的过程中,本文依照分位数特征选取模型和相对熵特征选取模型分别建立了样本属性的可分性判别函数,并运用浮动序列前进算法找出不同属性个数下的最佳特征候选子集。最后,本文又借助于支持向量机的方法,将包含不同属性个数的特征候选子集对应的数据放入支持向量机,学习后进行判断,根据最后识别的错误率来判断该特征候选子集的优劣程度,从而得到最优特征子集。另外,通过在结肠癌患病和正常样本基因表达水平数据集上进行实验,来对上述特征提取模型进行了验证。
本文将特征提取应用于数据挖掘领域中,所建立的特征提取模型依据样本的统计学特性以及信息学特性,这些模型的建立脱离了系统的具体应用领域,使其更具有普遍意义。
【关键词】:
【学位授予单位】:华中师范大学【学位级别】:硕士【学位授予年份】:2011【分类号】:TP311.13;TP391.4【目录】:
Abstract5-8
1 绪论8-14
1.1 课题的研究背景8-9
1.2 研究意义9-10
1.3 国内外研究现状10-12
1.4 本文的工作及组织结构12-14
2 基础理论概述14-23
2.1 数据挖掘14
2.2 特征提取14-15
2.3 统计学习理论15-17
2.3.1 经验风险最小化15-16
2.3.2 结构风险最小化16-17
2.4 支持向量机理论17-22
2.4.1 支持向量机基础17-18
2.4.2 线性分类器18-20
2.4.3 非线性分类器20
2.4.4 核函数20-22
2.5 本章小结22-23
3 分位数及相对熵特征提取模型及应用23-35
3.1 分位数特征提取模型23-26
3.1.1 分位数的概念23-24
3.1.2 分位数特征提取模型24-26
3.2 相对熵特征提取模型26-28
3.2.1 相对熵的概念26-27
3.2.2 相对熵特征提取模型27-28
3.3 特征提取模型的应用28-34
3.3.1 数据采集28
3.3.2 数据预处理28-30
3.3.3 分位数及相对熵特征提取模型30-32
3.3.4 模型求解32-34
3.4 本章小结34-35
4 支持向量机特征提取优化模型及应用35-43
4.1 支持向量机特征提取优化模型35-37
4.1.1 模型总体思路35-36
4.1.2 确定判别函数36-37
4.2 浮动序列前进算法37-38
4.3 支持向量机优化38-39
4.4 模型的应用39-42
4.5 本章小结42-43
5 总结和展望43-46
5.1 本文的总结43-44
5.2 下一步的研究工作44-46
参考文献46-48
欢迎:、、)
支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库
卜华龙;夏静;韩俊波;;[J];巢湖学院学报;2008年06期
宣国荣;柴佩琪;;[J];模式识别与人工智能;1996年04期
李泽,包雷,黄英武,孙之荣;[J];生物物理学报;2002年04期
李颖新,刘全金,阮晓钢;[J];中国生物医学工程学报;2005年02期
中国硕士学位论文全文数据库
蒋琳;[D];湖南大学;2006年
【共引文献】
中国期刊全文数据库
顾文炯;[J];安徽大学学报;2005年03期
杨绪兵,韩自存;[J];安徽工程科技学院学报(自然科学版);2003年04期
陶秀凤,唐诗忠,周鸣争;[J];安徽工程科技学院学报(自然科学版);2004年02期
金跃强;;[J];安徽建筑工业学院学报(自然科学版);2011年05期
赵东娟;齐伟;杨芬;;[J];安徽农业科学;2007年06期
李景国;;[J];安徽农业科学;2007年26期
李景国;杨星一;;[J];安徽农业科学;2007年35期
赵银德;张鑫;;[J];安徽农业科学;2008年11期
徐磊;张志;师永强;曹华玲;高松峰;;[J];安徽农业科学;2008年16期
李淑华;徐良培;陶建平;;[J];安徽农业科学;2008年30期
中国重要会议论文全文数据库
鲁峰华;马俊炯;刘强;;[A];科学发展:社会管理与社会和谐——2011学术前沿论丛(下)[C];2011年
;[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
;[A];第二十六届中国控制会议论文集[C];2007年
;[A];第二十六届中国控制会议论文集[C];2007年
周绮凤;林成德;罗林开;彭洪;;[A];第二十六届中国控制会议论文集[C];2007年
顾小军;杨世锡;钱苏翔;;[A];第二十六届中国控制会议论文集[C];2007年
;[A];第二十七届中国控制会议论文集[C];2008年
康传会;汪晓东;汪轲;常健丽;;[A];第二十九届中国控制会议论文集[C];2010年
;[A];第二十九届中国控制会议论文集[C];2010年
常俊林;魏巍;梁君燕;;[A];中国自动化学会控制理论专业委员会C卷[C];2011年
中国博士学位论文全文数据库
梁洪;[D];哈尔滨工程大学;2010年
殷志伟;[D];哈尔滨工程大学;2009年
孔凡芝;[D];哈尔滨工程大学;2009年
李晚龙;[D];哈尔滨工程大学;2010年
杨宁;[D];中国海洋大学;2010年
郑大腾;[D];合肥工业大学;2010年
张顺恒;[D];福建农林大学;2010年
张昌明;[D];新疆医科大学;2010年
陈志国;[D];江南大学;2010年
王晓明;[D];江南大学;2010年
中国硕士学位论文全文数据库
张艳;[D];华中农业大学;2010年
李金华;[D];山东科技大学;2010年
徐芳芳;[D];山东科技大学;2010年
朱耿峰;[D];山东科技大学;2010年
姜成玉;[D];辽宁师范大学;2010年
李海清;[D];辽宁师范大学;2010年
韦福巍;[D];广西师范学院;2010年
李朋勇;[D];郑州大学;2010年
刘磊;[D];郑州大学;2010年
辛保兵;[D];郑州大学;2010年
【二级参考文献】
中国期刊全文数据库
高学,金连文,尹俊勋,黄建成;[J];电子学报;2002年05期
李晓黎,刘继敏,史忠植;[J];计算机学报;2001年01期
宣国荣;[J];计算机应用与软件;1985年06期
何晨光,杜丽芳;[J];口岸卫生控制;2001年05期
张学工;[J];自动化学报;2000年01期
谭东宁,谭东汉;[J];南京理工大学学报;2001年01期
田盛丰,黄厚宽;[J];软件学报;2002年06期
闻芳,卢欣,孙之荣,李衍达;[J];生物物理学报;1999年04期
胡磊,乔立安,公衍道,赵南明;[J];生物物理学报;2001年04期
李泽,包雷,黄英武,孙之荣;[J];生物物理学报;2002年04期
中国博士学位论文全文数据库
张丽新;[D];清华大学;2004年
【相似文献】
中国期刊全文数据库
丁爽;白晨希;申石磊;;[J];鲁东大学学报(自然科学版);2010年02期
曹建军;张培林;任国全;张英堂;;[J];振动与冲击;2008年05期
寇苏玲;蔡庆生;;[J];计算机仿真;2007年03期
李文;王炜立;;[J];南昌大学学报(工科版);2007年01期
毛嘉莉;;[J];西华师范大学学报(自然科学版);2009年04期
陈淑飞;韩斌;厉力华;Rebecca S祝磊;代琦;;[J];传感技术学报;2010年10期
王雪松;高阳;程玉虎;;[J];电子学报;2011年08期
曾辉;;[J];韩山师范学院学报;2009年03期
皋军;;[J];盐城工学院学报(自然科学版);2010年03期
陈淑珍,卢昌荆,林克明;[J];武汉化工学院学报;2004年04期
中国重要会议论文全文数据库
陈琴;;[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
袁骏;肖卉;;[A];2009年全国水声学学术交流暨水声学分会换届改选会议论文集[C];2009年
林土胜;赖声礼;;[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
钱小聪;郑宝玉;穆明鑫;;[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
张羽;汪源源;王威琪;余建国;林继耕;;[A];21世纪医学工程学术研讨会论文摘要汇编[C];2001年
柳林霞;陈杰;窦丽华;;[A];2002中国控制与决策学术年会论文集[C];2002年
杨日杰;施建礼;林洪文;;[A];中国航空学会信号与信息处理专业全国第八届学术会议论文集[C];2004年
代克杰;张红梅;盛赛斌;;[A];2004中国控制与决策学术年会论文集[C];2004年
何新;史迎春;周献中;;[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
朱晓霞;孙同景;陈桂友;;[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
中国重要报纸全文数据库
燕海霞;王忆勤;李福凤;[N];中国医药报;2005年
沈占锋;[N];计算机世界;2006年
王竣;[N];中国医药报;2007年
北京数码空间信息技术有限公司技术总监
刘斌;[N];计算机世界;2000年
高博;[N];电脑报;2008年
何腾江 通讯员
周汇成;[N];中山日报;2008年
孙哲南 谭铁牛;[N];计算机世界;2007年
中科院自动化所 何鹏 陶建华 谭铁牛;[N];计算机世界;2005年
张东方;沙明;杨松松;[N];中国医药报;2003年
东莞市神州视觉科技有限公司总经理
潘恒义;[N];中国电子报;2007年
中国博士学位论文全文数据库
李勇明;[D];重庆大学;2007年
吴婷;[D];上海交通大学;2008年
权胜赫;[D];吉林大学;2007年
张旗;[D];大连海事大学;2005年
张立福;[D];武汉大学;2005年
苏彩红;[D];华南理工大学;2004年
宋余庆;[D];东南大学;2005年
宋晴;[D];天津大学;2005年
李宁;[D];北京交通大学;2010年
孙真真;[D];中国人民解放军国防科学技术大学;2001年
中国硕士学位论文全文数据库
张箫;[D];华中师范大学;2011年
蒋琳;[D];湖南大学;2006年
梁琰;[D];重庆大学;2007年
郑睿;[D];杭州电子科技大学;2009年
曾红梅;[D];天津大学;2012年
雷自力;[D];华中科技大学;2011年
林少波;[D];重庆大学;2011年
蒋伟;[D];西南大学;2009年
黄健;[D];国防科学技术大学;2009年
赵蕾蕾;[D];河北大学;2009年
&快捷付款方式
&订购知网充值卡
400-819-9993
《中国学术期刊(光盘版)》电子杂志社有限公司
同方知网数字出版技术股份有限公司
地址:北京清华大学 84-48信箱 大众知识服务
出版物经营许可证 新出发京批字第直0595号
订购热线:400-819-82499
服务热线:010--
在线咨询:
传真:010-
京公网安备75号1806人阅读
特征获取&&& 从N个特征集合中选择M个特征的子集, 并满足M&=N&&& 1, 特征提取:是一种变换,将处于高位空间的样本通过映射或变换的方式转换到低维空间,达到降维目的&&& 2, 特征选择:从一组特征中去除冗余或不相关的特征来降维&&& 二者通常结合使用, 如先映射到低维空间、再去除冗余和不相关特征&&& 特征获取的两个问题&&& 1, 确定选择算法: 在允许时间内, 找出最小的、最能描述类别的特征组合&&& 2, 确定评价标准: 衡量特征组合是否最优,得到特征获取操作的停止条件&&& 因此, 通常步骤是先产生特征子集,再评价; 如果满足停止条件则完毕, 否则再次产生特征子集重复。&&& 特征提取&&& 穷举法, 复杂度为指数级, 肯定能得到最优子集; 实用性不强&&&&&&& 完备集&&&&&&&&&&& 遍历所有特征集&&&&&&&&&&& 广度优先&&&&&&& 非完备集&&&&&&&&&&& 分支定界&&&&&&&&&&& 最好优先&&& 启发方法, 近似算法, 复杂度N^2&&&&&&& 向前选择&&&&&&& 向后选择&&&&&&& 组合选择&&&&&&& 基于实例&&& 随机方法, 复杂度指数级,但能设置迭代次数。 常用有LasVegasFilter, 遗传算法, 模拟退火&&&&&&& 完全随机&&&&&&& 概率随机
特征提取, 算法的另一种分类&&& 最优搜索&&&&&&& 穷举&&&&&&& 分支定界 branch and bound&&& 次优搜索&&&&&&& 单独最优特征组合&&&&&&& 顺序前进。 选择最优特征, 选择剩下特征中的最优特征, 持续至结束&&&&&&& 顺序后退。 删掉最差特征, 删掉剩下特征中的最差特征, 持续至结束&&&&&&& 增l减r。 先增加l个最优特征, 然后再从特征子集中删掉r个最差特征; 持续至结束&&&&&&& 其他&&&&&&&&&&& 模拟退火&&&&&&&&&&& Tabu搜索&&&&&&&&&&& 遗传算法&&&&&&& 评价标准&&& 1, 通过分类结果来比较特征选择结果:选择使分类器的错误概率最小的特征或者特征组合。 计算量打、实用性差&&& 2, 基于评价函数来进行特征选择&&&&&&& 距离度量:样本之间距离越小越相似, 越大越可分。 不能处理各类交叠的情况&&&&&&&&&&& 欧式距离&&&&&&&&&&& S阶Minkowski测度&&&&&&&&&&& Chebychev距离&&&&&&& 概率距离测度&&&&&&& 信息测度: 利用具有最小不确定性的哪些特征来分类最有利&&&&&&&&&&& Shannon熵&&&&&&&&&&& Renyi熵&&&&&&&&&&& 条件熵&&&&&&& 相关性测度&&&&&&& 一致性测度&&&&&&& 评价函数根据其实现原理分为2类, filter和wrapper&&&&&&& filter:分析特征子集内部的信息来衡量该特征子集的好坏, 比如特征见的相互依赖程度。 实质上是一种无监督方法&&&&&&& wrapper: 采用特征子集对样本分类, 根据分类结果好坏来衡量特征子集好坏。 有监督学习方法&&&&&&& 类别可分离性盘踞满足的要求&&& 1 与错误概率有单调关系&&& 2 特征独立时有可加性&&& 3 具有距离的某些特性&&& 4 对特征数目单调不减; 即加入新特征后, 判别值不减&&&&&&& &&&&&&& =================================================评价函数&&&& 泛化能力&&&& 时间复杂性&&&& 分类精度=================================================距离测度&&&&&& 好&&&&&&&&&&&& 低信息测度&&&&&& 好&&&&&&&&&&&& 低相关性测度&&&& 好&&&&&&&&&&&& 低一致性测度&&&& 好&&&&&&&&&&&& 中等=================================================分类错误率&&&& 差&&&&&&&&&&&& 高=================================================
选择原则&&& 因素:&&&&&&& 数据类型:离散型 连续型 布尔变量&&&&&&& 问题规模:两类 多类&&&&&&& 样本数量:海量 小样本&&& 原则:&&&&&&& 1 处理数据类型的能力。是否支持离散、连续或者布尔?&&&&&&& 2 处理问题规模的能力。某些特征选择算法不支持多累问题&&&&&&& 3 处理样本量的能力、特征集大小的能力&&&&&&& 4 对噪声的容忍能力&&&&&&& 5 无噪声情况下, 产生稳定、最优特征子集的能力&&&&&&&
特征选择有很多种方法,比如:互信息、卡方检验(&2 test)、基于频率的特征选择。
互信息的方法是计算term t和类别c的期望互信息,期望互信息是term的存在与否能 给类别c的正确判断带来的信息量。
卡方检验是用来检验两个事件的独立性,在特征选择中,它检验term的出现和类别的出现是否相互独立。
基于频率的特征选择就是选择在类别中出现频率比较高的term。频率可以定义为文档频率( 在类别c中包含t的文档数)和文档集频率(c类别中所有文档中t出现的总次数)。 文档频率适合贝努力模型,而文档集频率适合于多项式模型。
距离函数&&& &&& 应用安装&&& &&& &&& &&& 均是基于向量空间模型, 每个文档doc, 均可表示成一组term构成的向量文本分类领域常用特征选择算法&&& 文档频率 DF&&& 信息增益 infomation gain&&& 互信息&& mutual infomation&&& 叉方统计 chi-square&&& 交叉熵&&& 优势率
信息增益&&& IG(t) = -sigmaP(ci)*lg(P(ci)) + P(t)*sigmaP(ci|t)*logP(ci|t) + P(t')*sigmaP(ci|t')*logP(ci|t'), 1&=i&=m&&& IG(T) = H(C) - H(C|T)&&& 其中&&&&&&& -sigmaP(ci)*lg(P(ci)) 是整个分类系统的信息熵;&&&&&&& 信息增益, 针对各个的特征而言, 看该特征t, 整个系统中某些文本由t和整个系统中都没t的时候信息量各是多少, 两者的差值就是该特征t给系统带来的信息量, 即信息增益&&&&&&& 就是说下面两个命题是等价的。(1) 所有的文本中都没有出现特征t;(2) 系统虽然包含特征t,但是t的值已经固定了。 使用第2中情况表示整个系统不包含t&&&&&&& P(ci) 是第i类文档在样本集中出现的概率&&&&&&& P(t) 是包含特征词t的文档数量占全部文档数量的比重&&&&&&& P(t') 是不包含特征词t的文档数量占全部文档数量的比重&&&&&&& P(ci|t) 是包含了特征词t的Ci类中的文档数量占整个系统中包含了特征词t的文档数量的比重&&&&&&& P(ci|t') 是Ci类中不包含特征词t的文档数量占整个系统中不包含特征词t的文档数量的比重&&&&&&& &&&&&&& &&&&&&& &&&&&&& 信息增益越大, 说明该特征越重要&&&&&&& &&&&&&& 文档频率 :DF TF TF*IDF&&& DF,类内包含该特征词t的文档数与类中全部文档数的比例, DF(t) = P(ci|t)/P(ci)&&&&&&& 比例太低,认为该词在该类别中的样本文档中出现的次数太少, 该特征词对表示类别信息无贡献, 忽略&&&&&&& 比例太高,认为该词也不能很好的反应类别信息, 忽略&&&&&&& 将剩下的DF排序&&&&&&& &&&&&&& 互信息 I(X, Y) = H(X) +H(Y) - H(X,Y) = logP(X, Y)/P(X)P(Y), 满足对称性; XY独立时, 互信息量为0&&& 基本假设:在某个特定类别中出现频率高、但在其他类别中出现频率低的特征词, 与该类的互信息比较大&&& &&& 平均互信息, MI(Ci, T) = sigma p(Ci, t)* log p(Ci, t)/(p(Ci)*p(t)),& i取值为m个类别, t取值为T的所有可能&&&&&&&&&&&&& 其中, &&&&&&&&&&&&&&&&&&& t为特征T的每种具体取值&&&&&&&&&&&&&&&&&&& p(Ci, t)为类别Ci中,特征T取值为t的概率&&&&&&&&&&&&& 由此可以计算出分类系统中, 到底哪个(C,T)的互信息量大&&&&&&&&&&&&& 互信息量理解为当确定某个条件时,原系统减少的信息量&&& &&& 互信息是针对不同的主题类分别抽取特征词!!!&&& 交叉熵&&& 也称KL距离, 反映了类的概率分布和在出现了某特定词汇的条件下文本类的概率分布之间的距离; 词汇w的交叉熵越大, 对文本类分布的影响也越大&&& 比信息增益的选择效果要好&&& 比互信息要差&&& 叉方统计量&&& 用于度量特征t与类C之间的独立性&&& 基本假设:指定类别中出现频率高的词语其他类中出现频率高的词, 对判定文档是否属于该类别都是很有帮助的&&& 叉方统计对于低频词来说是不可靠的&&& 特征选择效果最优, 分类效果受训练集影响较小, 比较稳定&&& &&& &2 ( t , c) =N &( AD - CB)^2/(( A + C) &( B + D) &( A + B) &( C + D))『2是指2次方』&& 越大表示越相关&&& 其中, t 表示一个候选特征项; c 表示一个类别; &&& N为训练集中所有实例网页数; &&& A 为t 和c 同时出现的次数; B 为t 出现而c 没有出现的次数; C 为c 出现而t 没有出现的次数; D 为t 和c 都没有出现的次数。&&& 对于多分类问题, 针对每个类计算该特征的叉方, 然后取最大值得到针对所有类别的叉方值; 低于阀值的丢弃&&& 优势率 Odds Ratio&&& 只用于二元分类遗传算法
相对熵&&& 比如利用相对熵进行分类或者是利用相对熵来衡量两个随机分布的差距,当两个随机分布相同时,其相对熵为0.当两个随机分布的差别增加时,器相对熵也增加。我们下面的实验是为了横量概率分布的差异。&&& 方法:&&& D(p//q)=sum(p(x)*log(p(x)/q(x)))。其中p(x)和q(x)为两个概率分布&&& 约定 0*log(0/q(x))=0;p(x)*log(p(x)/0)=&&& D(p//q) 与 D(q//p) 无对称性&&& 主成分分析法 PCA Principal Component Analysis&&& 通过搜索最能代表原数据的正交向量,创立一个替换的、较小的变量集来组合属性的精华,原数据可以投影到这个较小的集合。PCA由于其处理方式的不同又分为数据方法和矩阵方法。矩阵方法中,所有的数据通过计算方差一协方差结构在矩阵中表示出来,矩阵的实现目标是确定协方差矩阵的特征向量,它们和原始数据的主要成分相对应。在主成分方法中,由于矩阵方法的复杂度在n很大的情况 以二次方增长,因此人们又开发使用了主要使用Hebbian学习规则的PCA神经网络方法。&&& &&& &&& 实验数据显示,互信息分类效果最差,其次是文档频率、CC 统计,CHI 统计分类效果最好&&&&&&& ;;cc指相关系数效果排序&&& 信息增益 & 交叉熵 & 互信息 & DF&&& &&& 重点&&& 交叉熵&&& 互信息&&& 信息增益&&& 叉方&&& 主成分分析
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:358423次
积分:6056
积分:6056
排名:第3422名
原创:256篇
转载:27篇
评论:82条
(2)(1)(1)(1)(3)(8)(2)(1)(8)(2)(6)(9)(15)(1)(9)(3)(4)(1)(2)(7)(3)(1)(1)(4)(2)(1)(1)(1)(1)(2)(1)(3)(2)(3)(9)(24)(3)(3)(1)(8)(2)(5)(21)(34)(11)(14)(2)(1)(4)(1)(20)(2)(6)}

我要回帖

更多关于 特征数多于样本数量 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信