networkNN),是一种模仿生物神经网络嘚结构和功能的数学模型或计算模型神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改變内部结构是一种自适应系统。现代神经网络是一种非线性统计性数据建模工具常用来对输入和输出间复杂的关系进行建模,或用来探索数据的模式
神经网络是一种运算模型,由大量的节点(或称“神经元”)和之间相互的联接构成每个节点代表一种特定的输出函數,称为激励函数、激活函数(activation function)每两个节点间的联接都代表一个对于通过该连接信号的加权值,称之为权重这相当于人工神经网络嘚记忆。网络的输出则依网络的连接方式权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近也鈳能是对一种逻辑策略的表达。
它的构筑理念是受到生物(人或其他动物)神经网络功能的运作启发而产生的人工神经网络通常是通过┅个基于数学统计学类型的学习方法得以优化,所以人工神经网络也是数学统计学方法的一种实际应用通过统计学的标准数学方法我们能够得到大量的可以用函数来表达的局部结构空间,另一方面在人工智能学的人工感知领域我们通过数学统计学的应用可以来做人工感知方面的决定问题(也就是说通过统计学的方法,人工神经网络能够类似人一样具有简单的决定能力和简单的判断能力)这种方法比起正式嘚逻辑学推理演算更具有优势。
神经网络最重要的用途是分类为了让大家对分类有个直观的认识,咱们先看几个例子:
- 垃圾邮件识别:現在有一封电子邮件把出现在里面的所有词汇提取出来,送进一个机器里机器需要判断这封邮件是否是垃圾邮件。
- 疾病判断:病人到醫院去做了一大堆肝功、尿检测验把测验结果送进一个机器里,机器需要判断这个病人是否得病得的什么病。
- 猫狗分类:有一大堆猫、狗照片把每一张照片送进一个机器里,机器需要判断这幅照片里的东西是猫还是狗
向上例这种能自动对输入的东西进行分类的机器,就叫做分类器
分类器的输入是一个数值向量,叫做特征(向量)
就是线性代数中学到地特征向量,若果不懂会去看书或者看这里:
上面两个是同一个答主(马同学),寻根溯源细致入微,比我自己总结的好
若要全面认识神经网络,我觉得这一点基础还是要有的请不要忽视。
在垃圾邮件识别里分类器的输入是一堆0、1值,表示字典里的每一个词是否在邮件中出现比如向量(1,1,0,0,0……)就表示这封邮件裏只出现了两个词abandon和abnormal;第二个例子里,分类器的输入是一堆化验指标;第三个例子里分类器的输入是照片,假如每一张照片都是320*240像素的紅绿蓝三通道彩色照片那么分类器的输入就是一个长度为320*240*3=230400的向量。
分类器的输出也是数值第一个例子中,输出1表示邮件是垃圾邮件輸出0则说明邮件是正常邮件;第二个例子中,输出0表示健康输出1表示有甲肝,输出2表示有乙肝输出3表示有饼干等等;第三个例子中,輸出0表示图片中是狗输出1表示是猫。
分类器的目标就是让正确分类的比例尽可能高一般我们需要首先收集一些样本,人为标记上正确汾类结果然后用这些标记好的数据训练分类器,训练好的分类器就可以在新来的特征向量上工作了
先来看一下生物学上的神经元:
先湊合着看,画质不好
神经元大致可以分为树突、突触、细胞体和轴突。树突为神经元的输入通道其功能是将其他神经元的动作电位传遞至细胞体。其他神经元的动作电位借由位于树突分支上的多个突触传递至树突上
神经细胞可以视为有两种状态的机器,激活时为“是”不激活时为“否”。神经细胞的状态取决于从其他神经细胞接收到的信号量以及突触的性质(抑制或加强)。当信号量超过某个阈徝( Threshold )时细胞体就会被激活,产生电脉冲电脉冲沿着轴突并通过突触传递到其它神经元。
接受其他多个神经元传入的信号然后将这些信号汇总成总信号,对比总信号与阈值如果超过阈值,则产生兴奋信号并输出出去如果低于阈值,则处于抑制状态
一条直线把平媔一分为二,一个平面把三维空间一分为二一个 n?1 维超平面把 n 维空间一分为二,两边分属不同的两类这种分类器就叫做神经元。
大家嘟知道平面上的直线方程是ax+by+c=0等式左边大于零和小于零分别表示点(x,y)在直线的一侧还是另一侧,把这个式子推广到n维空间里直线的高维形式称为超平面,它的方程是:
神经元就是当h大于0时输出1h小于0时输出0这么一个模型,它的实质就是把特征空间一切两半认为两瓣分别属兩个类。
这个是我最喜欢的的关于神经元的图示(自己高清重置版)
输入的是特征向量,通过对其的学习可以得知,特征向量代表的是变化的方向
或者说,是最能代表这个事物的特征的方向
人有性别,身高手,脚五官等。
电脑有屏幕键盘,CPUGPU等。
特别是速度的方向物理中总是用一个矢量箭头代表方向,速度改变最大(增加或减少)的方向(所以后面要 求导数)
僦是特征值嘛,输入是特征向量权重和它相乘,那不就对应特征值么
有正有负,加强或抑制同特征值一样。
权重的绝对值大小代表了输入信号对神经元的影响的大小。
正如上面的例子输入一张图片,判断是是猫还是犬
第一层输入的有毛发,爪子牙齿类型等。
苐二层有头部腹部,腿部等
牙齿对腿部的影响就会比较小啊,牙齿和腿部之间的权重的绝对值就会小一些诸如此类。
还有另外的解釋上面中,我上面引用的是赞数最高的回答赞数第二高的回答,答主:YJango 的回答虽然略有些晦涩难懂,但我希望你能看一看思考思栲。
我们要割一刀得有割的角度和方向,而权重就负责调整方向,这和特征向量的方向是两回事
按答主:YJango 的方向来看,n维空间中塖以权重就好像是在不断的扭曲空间(空间变换),使不同类别的事物被扭曲到不同的一侧来找到一个合适的n?1维超平面。
上媔的神经元的图示我们总是减去 θ,说得通俗点要证明a>b可以证明a?b>0。
可拖动滑动条改变α的值来观察图像的变化
激活函数是用來加入非线性因素的,解决线性模型所不能解决的问题
神经网络的初始权值和阈值需要归一化0到1之间。
因为神经元的传输函数在[0,1]之间区別比较大如果大于1以后,传输函数值变化不大(导数或斜率就比较小)不利于反向传播算法的执行。反向传播算法需要用到各个神经え传输函数的梯度信息当神经元的输入太大时(大于1比如),相应的该点自变量梯度值就过小就无法顺利实现权值和阈值的调整)。
傳输函数比如sigmoid或logsig或tansig你可以把函数图像画出来,会发现[-1,1]之间函数图像比较徒,一阶导数(梯度)比较大如果在这个范围之外,图像就仳较平坦一阶导数(梯度)就接近0了。
感知器模型是一种最简单的神经网络模型结构,其网络结构包括输入层与输出层两层如下图所示:
其为具有两个输入神经元,一个输出神经元的感知器模型
我们知道该模型是可以做与或非运算的。
这是因为如果我们要做与或非運算那么对于输入x1,x2来说,其取值只能是0或1而我们的输出y=f(∑i=12wixi?θ)。
如果要做与运算那令阈值w1=1,w2=1,θ=2,则只有在x1=1,x2=1的时候才能激活输出层神经え输出1,其余情况均输出0
同样,如果做或运算那令阈值w1=1,w2=1,θ=1,则只要有一个输入xi=1即可激活输出神经元,输出1
如果对x1做非运算,那麼可以令阈值w1=?0.6,w2=0,θ=?0.5则如果x1=1,x2=0总输入为?0.6,小于阈值输出0,如果x1=0,x2=0总输入为0,大于阈值输出1。这里的激活函数为阶跃函数这个通过下面的三幅图也可以看得出来:
经过观察,可以发现对于只有输入层与输出层的感知机模型,∑i=12ωixi?θ是线性的其只能对线性数据進行划分,对于如下图的异或模型其实无法准确划分的。
但如果是两层网络(这里的两层指的是隐层与输出层因为只有这两层中的节點是有激活函数的),在隐层有两个节点那么此时就可以得到两条线性函数,再在输出节点汇总之后将会得到由两条直线围成的一个媔,这时就可以成功的将异或问题解决
记得之前做过的那道小学生题目吗?一条线把一个多边形分成两个三角形最后答案是画一条粗洳臂膀的线。
因此我们可以看到随着网络深度的增加,每一层节点个数的增加都可以加强网络的表达能力,网络的复杂度越高其表礻能力就越强,也就可以表达更复杂的模型
通过上面你的示例,我们也可以看到对网络的学习其实主要是对网络中各个节点之间的连接权值和阈值的学习,即寻找最优的连接权值和阈值从而使得该模型可以达到最优(一般是局部最优)
相邻两层是全连接,而层内是没囿连接的跨层之间也没有连接:
在给定训练数据集的情况下,可以构建一个神经网络来对这些数据进行拟合
构建过程主要分为2步:1)湔向传播 2)反向求导。
在前向传播过程中给定权值和bias矩阵,可以得到给定样本对应的预测值(激活值);在反向求导过程通过样本预測值与样本真实值之间的误差来不断修正网络参数,直至收敛
θbj表示隐层的第 j 个神经元的阈值,请举一反彡谢谢
由于前向传播阶段的权值和bias是随机初始化的,因此需要根据网络输出误差不断嘚对参数进行修正
这里要用到梯度下降法,不会的自己去百度高数上学过(倒三角的那个),但我觉得你连这点时间都懒得去用来查:给我认真学啊!!!!!
设 Tk 为预计输出,计算与实际输出的均方差
这样就将两层联系了起来。
同理就算拓展箌两层,三层甚至更多层的隐层都适用
对多层网络要确定选用几个隐蔽层。
Heche-Nielsen证明当各结点具有不同的阈值时,具有一个隐蔽层的网络可以表示其输入的任意函数但由于该条件很难满足,该结论意义不大
Cybenko指出,当各结點均采用S型函数时一个隐蔽层就足以实现任意判决分类问题,两个隐蔽层则足以实现输入向量的任意输出函数
网络层次的选取依经验囷情况而定,通常不宜过多
BP网络中各层结点数的选择对网络的性能影响很大。
对输出结点它取决于输出的表示方法囷要识别(或分类)的输入向量的类别数目。
比如要输出能表示8个不同向量的分类可以用8个输出结点,一个结点表示一类也可以采用彡个输出结点,用它们的二进制编码表示8个不同的分类
如果用了编码方式,会减少输出结点的数量但会增加隐蔽层的附加工作以完成編码功能,甚至有时需增加一个隐蔽层以满足要求
对输入结点,输入层的结点数通常应等于输入向量的分量数目
对隐蔽层结点数的选擇,Nielson等指出:
除了图像情况在大多数情况下,可使用4-5个隐蔽层结点对应一个输入结点
在图像情况下,像素的数目决定了输入结点的数目此时隐蔽层结点可取输入结点数的10%左右。
隐蔽层的结点数取得太少网络将不能建立复杂的判决界面;取得太多,会使得判决界面仅包封了训练点而失去了概括推断的能力
隐蔽层结点数的选择要根据实际情况和经验来定。
尽管BP訓练算法应用得很广泛但其训练过程存在不确定性。
选取了不适当的调节阶距(训练速率系数 η)
在训练过程中(如采用Sigmoid函数),加权调得較大可能迫使所有的或大部分的加权和输出sj较大从而使得操作会在S型函数的饱和区进行,此时函数处在其导数F’(s)非常小的区域内
由于茬计算加权修正量时,Δw正比于f′()因此当f′()→0时Δw→0,这使得相当于调节过程几乎停顿下来。
BP训练算法实际上采用梯度下降法训练过程从某一起始点沿误差函数的斜面最陡方向逐渐达到最小点E→0。
对于复杂的网络其误差函数面在多维空间,其表面可能凹凸鈈平因而在训练过程中可能会陷入某一个小谷区,称之为局部最小点
由此点向各方向变化均使E增加,以致无法逃出这个局部最小点
初始随机加权的大小对局部最小的影响很大。如果这些加权太大可能一开始就使网络处于S型函数的饱和区,系统就很有可能陷入局部最尛
一般来说,要避免局部最小点可采用统计训练的方法
阶距(训练速率系数η)大小
如果η选得太小,收敛会很慢;
如果η选得太大可能出现连续不稳定现象。
需按照实验和经验确定η。
关于BO网络的讨论摘自:稍作修改。
建议将这些都看一遍博采众镓之长,有助于学习与理解别想着偷懒,偷懒是没有好下场的
梯度下降算法是机器学习中使用非常广泛的优化算法也是众多机器学习算法中最常用的优化方法。几乎当前每一个先进的(state-of-the-art)机器学习库或者深度学习库都会包括梯度下降算法的不同变种实现但是,它们就像一个黑盒优化器很难得到它们优缺点的实际解释。这篇文章旨在提供梯度下降算法中的不同变种嘚介绍帮助使用者根据具体需要进行使用。
这篇文章首先介绍梯度下降算法的三种框架然后介绍它们所存在的问题与挑战,接着介绍┅些如何进行改进来解决这些问题随后,介绍如何在并行环境中或者分布式环境中使用梯度下降算法最后,指出一些有利于梯度下降嘚策略
训练集随机洗牌与课程学习
梯度下降算法是通过沿着目标函数J(θ)参数θ∈R的梯度(一阶导数)相反方向??θJ(θ)来不断更新模型參数来到达目标函数的极小值点(收敛),更新步长为η。
有三种梯度下降算法框架它们不同之处在于每次学习(更新模型参数)使用嘚样本个数,每次更新使用不同的样本会导致每次学习的准确性和学习时间不同
每次使用全量的训练集样本来更新模型参数,即: θ=θ?η??θJ(θ)
epochs 是用户输入的最大迭代次数通过上诉代码可以看出,每次使用全部训练集样本计算损失函数 loss_function 的梯度 params_grad然后使用学习速率 learning_rate 朝着梯度相反方向去更新模型的每个参数params。一般各现有的一些机器学习库都提供了梯度计算api如果想自己亲手写代码计算,那么需要在程序调試过程中验证梯度计算是否正确
批量梯度下降每次学习都使用整个训练集,因此其优点在于每次更新都会朝着正确的方向进行最后能夠保证收敛于极值点(凸函数收敛于全局极值点,非凸函数可能会收敛于局部极值点)但是其缺点在于每次学习时间过长,并且如果训练集佷大以至于需要消耗大量的内存并且全量梯度下降不能进行在线模型参数更新。
随机梯度下降算法每次从训练集中随机选择一个样本来進行学习即: θ=θ?η??θJ(θ;xi;yi)
批量梯度下降算法每次都会使用全部训练样本,因此这些计算是冗余的因为每次都使用完全相同的样本集。而随机梯度下降算法每次只随机选择一个样本来更新模型参数因此每次的学习是非常快速的,并且可以进行在线更新
随机梯度下降最大的缺点在于每次更新可能并不会按照正确的方向进行,因此可以带来优化波动(扰动)如下图:
不过从另一个方面来看,随机梯度下降所带来的波动有个好处就是对于类似盆地区域(即很多局部极小值点)那么这个波动的特点可能会使得优化的方向从当前的局部极小徝点跳到另一个更好的局部极小值点,这样便可能对于非凸函数最终收敛于一个较好的局部极值点,甚至全局极值点
由于波动,因此會使得迭代次数(学习次数)增多即收敛速度变慢。不过最终其会和全量梯度下降算法一样具有相同的收敛性,即凸函数收敛于全局極值点非凸损失函数收敛于局部极值点。
Mini-batch 梯度下降综合了 batch 梯度下降与 stochastic 梯度下降在每次更新速度与更新次数中间取得一个平衡,其每次哽新从训练集中随机选择 m,m<n 个样本进行学习即:
相对于随机梯度下降,Mini-batch梯度下降降低了收敛波动性即降低了参数更新的方差,使得更新哽加稳定相对于全量梯度下降,其提高了每次学习的速度并且其不用担心内存瓶颈从而可以利用矩阵运算进行高效计算。一般而言每佽更新随机选择[50,256]个样本进行学习但是也要根据具体问题而选择,实践中可以进行多次试验选择一个更新速度与更次次数都较适合的样夲数。mini-batch梯度下降可以保证收敛性常用于神经网络中。
虽然梯度下降算法效果很好并且广泛使用,但同时其也存在一些挑战与问题需要解决:
选择一个合理的学习速率很难如果学习速率过小,则会导致收敛速度很慢如果学习速率过大,那么其会阻碍收敛即在极值点附近会振荡。
学习速率调整(又称学习速率调度Learning rate schedules)[11]试图在每次更新过程中,改变学习速率如退火。一般使用某种事先设定的策略或者在每佽迭代中衰减一个较小的阈值无论哪种调整方法,都需要事先进行固定设置这边便无法自适应每次学习的数据集特点[10]。
模型所有的参數每次更新都是使用相同的学习速率如果数据特征是稀疏的或者每个特征有着不同的取值统计特征与空间,那么便不能在每次更新中每個参数使用相同的学习速率那些很少出现的特征应该使用一个相对较大的学习速率。
对于非凸目标函数容易陷入那些次优的局部极值點中,如在神经网路中那么如何避免呢。Dauphin[19]指出更严重的问题不是局部极值点而是鞍点。
下面将讨论一些在深度学习社区中经常使用用來解决上诉问题的一些梯度优化方法不过并不包括在高维数据中不可行的算法,如牛顿法
如果在峡谷地区(某些方向较另一些方向上陡峭得多,常见于局部极值点)[1]SGD会在这些地方附近振荡,从而导致收敛速度慢这种情况下,动量(Momentum)便可以解决[2]
动量在参数更新项中加上一佽更新量(即动量项),即: νt=γνt?1+η ?θJ(θ)θ=θ?νt
浙江大学 博士学位论文 基于粗糙集的数据挖掘方法研究 姓名:王庆东 申请学位级别:博士 专业:控制科学与工程 指导教师:孙优贤
_}錾}淡大学饕士学缘论文
大为增加。 4.针對处理不完备信息系统时传统方法的不足本文提出了一种不完备 信息系统分解方法。该方法不需事先对系统进行究备化丽是基予粗糙寨模 校评价溺数选择模摄,髯髑臻模板逐瑟双不完备系统中掇取完备子集然后 利用粗糙粲理论来构造中删变量,依据中I瑚变量分解不唍备信息系统以简化
援篓l囊簸蜃剽瘸褥至g敬援剩集逐层遴纷雄理农凌繁分李厅。潋汽轮发毫裁缝
嚣时还存在敌障德惑不完整毪等特点为避一步验证数霸表分解簿法的肖效 性,本文以汽轮发电机组振动为实际例子利用糨糙集属性选择避度,选择
关键词:数据挖掘,粗糙集信息理论,数裾艨分解属性构造,聚炎 不完冬信息系统, 汽轮发电机缀振动故障诊断
姗stical也eofyData m溉i鞋g
The出旺a mining technique is
combination of m聃hine 1eamin戡database and se彗k妇e0联eS畦ng o蕈va王u a:ble沁fc删靛稚ion wi氆证
l鑫rge,incompletenoisy,roughand random infroduced by Pawlak Z.in the early l 980s,is
dat如ases.RoHgh
theory<RST) a镬强tio器of
mamematical tooJ used f出deal抽g
w{th v8鼙ue珏ess鑫n硅Ⅱnee赡蠢ntyl l攮r搴cent yoafs量t h最s reeeived great
researchers around me wOnd and has beon suc∞ssnJlly apphod in many such
AI(anmciaI intelI追ence),KDD(k110wledge discoVery in databa8e)
搿啦e撵撼eog建itio巍,fa醢lt娃i嚣g玨osis盎瑟d expo疵syste搬
experts’ex辩rience,me
min沁黛lec搬ique
studied遮this醴is∞n采io撞白V a堇mi珏g鑫t
捌∞blems in DjⅥpro∞ss.It’s hard to obtain 2rood resu量ts by minin黛on也e raw d董吐abasesespecially when the v01ume of出旺a is large.It ig
ef掩ctive way to
tr黼s是rmo鑫匹atasets.So,攮o eoffe蹲蕊巍g妇t鑫set如eo琢posi壕)n data趼d
proposed in this dissertation to solve me problems of ul仃a large data,
noisy dataincomplete And壕e rese8rch
elus托fin窑疆e穗Dd呈s
s黼至ed by oombin镰g i薹l妇麓主ion谯嚣。鞲
and RST.In detail、the main contents ofthis dissertation lln lho begin瘫ng搬e
a11d hotspots ofdata mining technique
co娃cep抟┅ackground,rese8fch co秘tentsm鑫遮me壤。泰 are introduc硝.The deVelopment procossf
RST was reviewed,And the preliminary knOwledge arld present research status 廷ST we怼int鼯d毽eed in d墩舔ls 2 In order to extract rules抒om huge database e伍ciently and
艳alure seleetion measIlre was pfoposed,whieh co珏ld fof
prom州n a sekct基∞ropfl瑶£e f瓠tlres
claSsi蠡cation.The兜黼H℃Selection
measure based
RST was de矗ned to mon
increase the classiflcation rate and me puritv of each novel da毫豳ase deeompos至t主鞋me搬。建w曩s solec把d bv f色ature selection measure is
s u_b-database.And
p姻posed主珏攮iS戎sse羲鑫臻强We
anaiyzed t11e information characteristics and have proved tllat the featurc set which
reduction of tlle ori ginal infonnation
syst。m1’酝谯Ee
eofnplexity of搬is deco掰pos主鑫on瑚ethod is far less th鑫n t氧e
claSsical reduct mothod in RS T.
develop撤e娥遮醵凌d诚ensi油d麓鼬ase
is ve珂di蠖cult。Th童s
dissertaIion presents
based machine 1eaming methodnamed
feature decomposition memod,to discover concept hierarchies a11d to develop 溅罐ti赫efa辖hy礅odel
of蠢鑫|曲ase.Aeeo撼遍g t。辩璐e m08s疆es
Of rou盛h set
theoryt11e obiects deflned
the proposed feature grou_p hierarchies of the
labeled by have
intermediate concept,The concept
meanin昌which
tr蝴8pafelly
the compfehensibility of th。modelEaeh feature group and氇e into肌ediate concept compose thc structure ofme da上abase. ‘睾。毡硝er£o
eorresp∞di矬g
e蝴el f强les蠡o}珏ineof珏参le把d越a wi氆。波i我轴潍蘸On基氍趱io珏,
decomposition approach in incomplete
FirstlM the template is selected according to
£v砖珏鑫圭主珏g纯notionoy蕊i穗s醢bset
wi氇盛建missin鐾va圭uos
be extfacted i酗m
step.Secondlythe intemlediate incomplete
concept is deVeloped
r。u幽set也eor艾with whi浊也e
infomlat主on
decomposed to simpli各the mle
set.髓ird堍me
ruie set ob£ajned洫this appro囊ch
make Iayered docision analysis more effioient.La8t but not leasta
ste鼬专llrbi轻e
is p£esen协d
{ll毽s1芏a专e{he
decOmposition
and the『easibi{ity of this Inethod in dealing with the
incomDlete data has been verified. 5.in徘袅ny doesn’t generate the稚l^bules
processes,氇e presenee of more
i薹lformation璐_ll器王王y
cOrresponding increase in perfbrnlance of clustering becaus0 aH
t∞8ted醛equ啦ly lmⅨ蠛antln也弧disser£ation,we pfoposed
solution to improve the quality ofcluster主ng that is al盛orithm based 6.下hc
attributewweighted clustering
RST and the infomlation theorctical refinement process. of t疆缸ine m嚣爱e the
cofnpli雠£ed stfuctufe a|3蠢磕e v强斌io珏∞轴piexity
f犯1t have the characteristic of multi.hierarchM randomization aJld incomplete infomlat{On.W音use the fbature selodion measure b8sed on RST to select娃1e
m蠢瘩毫ier科豳y狂糟拯l
shows趣at糖e fules haⅣe赵igh
su嚣喀r£de影eeA鞋d专圭le
hierafcmcal fault diagnosis memod is easy to uIlderstand for its simil船i够tO the reasoning way of human beings. Finai{孔a b矗ef in this dissertation.
and some&tufe research dire。tions甜e
highl逸量lted
minin孙rou曲set theo阱inforHlation theom
decompos撼on
c∞g捃{王ct至。强
information systomfault diagnosis,turbine Vibration
塑盔兰竖!:堂望笙兰 第一章绪论
【l】孛载掇到:“人类歪被信息淹没却瓿溺子知识”。诗舞辍硬转技拳懿稳定 进步为人类提供了大董的数据收榘设备和存储介质;数据库技术的成熟和普 及已使人类积累煞数据鬟正在以搬数方式增长;搬把met技术的出现和发艘使 得网络上的各种餐源信息异常丰富【2】邈些丰富的數据资源背厝隐藏着极为 豢要的、枣先未知的、具有潜在的有用的知识。阀堪是如何才跳发现这魑知
术和工具以便从火量的数据中智能的、基动的抽取出有价值的知识或者信息 ~个薪抟研究领域――数据挖掘疲运而生。1989年8月在第11届国酥人工 智能联合会议(IJC艇)的专题研讨会上,首次提出基予数据库的知识发現 (}国D融lowled姆Diseovefy法转a舡Iba∞)菝术。该技术涉及梳器学习、模式
数罐笼攥是数据麾聚识发蠛过程中魏最必关键静步骤,咜是一个簌大量数据
1.1数据挖掘技术的产生背景
l矬抛lli黜)毂嚣求
搬BI作为一种帮助企业达到经营目标的~种有效手段。另一方筒超大规模 的数据库的如现、先进的计算机技术以及糠罙的计算能力蛉出现为数器挖掘 技术的产雏提供了充足的技术背荣。
{.1.1商业需求分析
照餐就静壤念爨零是Ga擞燃G∞up手19粥年挺滋来豹囊穗将鬻犍警裁定义
份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。数据挖撅技
术是实现商业智能豹一项荧键技零t它把先进豹信息技术应用到攘個企业 不仅为企业提供信息获取能力,丽且通过对信息的开发将其转变为企业的
叛的畿求推动灏的技术蛉诞生。数据撩握鲍灵魂是滚层次鲍数据分援方
基础上的同时在目前的商业活动中,数据分析总是和一些特殊人群的赢智
展趋势或作出正确决策。假是随着一个奄业或行业业务数据的不断积累,
乏”现象的产生【671。直观上说信息或称有效储息是指慰人们肖幫助的数 据。躲识怒一耱穰念、矮粪|j、模式蠲蕊律等它不会蒙数糖或信惑酃么其俸,
恕数据蓍蛰;是形成皴识懿源泉。我髓是逶过王瑟静或反瑟翁数撵袋信惑采形 成和验证知识的同时又不断哋利厢知识朱获得新的信息。因此随着数据
量数据的摹lj矮阚题其毒巨大的亵枧{学者镪瑟始慰考据俘放大容爨数爨集孛
仓黪和数攒挖掘等馕患处璞思想。
{{.2技术蜚景分橇
?超大数摆摩瓢及数援仓瘴豹爨璎
浙强失学博士:攀位论攵
大规模数据摩尤其是数据愈库的出现。促使数据挖掘得到遇速发展与应
掰在美系鍪数攥库豹磷究帮产龋夔舞过程串,入靛一羟在探索组织犬整数 据和快速访问的相关技术高性能关系数据库引擎以及相关的分布式鸯询、
壤王具快速疆囊帮场箴蔻多数擐潺集簸戆一黪有效煞技寒支撩繇凌。绞靠 计算机自动收集的各种业务处理数据使许多大规模数据库或数据仓摩拥有
聚没有这魑大规模数据库,很难想象数据挖掘技术对什么进行挖掘 ?建逶豹诗算凝技零 计算机技术在过去的短短几十年内得到了快速的发展,尤其怒近几年的网
中寻找鄹蓬怼企簸凌略发震其鴦爨要塞义豹裔效筑律帮蠢场趋势这些先透
大规模数据的挖掘需骚复杂盼、藏濒黝计算能力这魃精深的计算能力主 要基于统计学、集合论、信息论,认识谵和人羔智能等备种学科理论这些
洇此可以说,数据挖掘技术是僖怠搜拳发展到一定阶段的必然产甥是捐
的必然产物,是从存放农数据库、数据硷库或其他信息麾的大擞数据中挖掘
1.2数据挖掘概念 1.2.1知识发现与数据挖掘
从技术角度看,数据挖掘是从大量蛉、不完全的、有噪声的、模糊的、随 枫的实际数据串撬取隐禽的、先前未知的并有涛在价德的信息的非平凡过
据库进行~定的预处理、采样和转换根据确定的测量指标和阈值,用数据 挖掘方法撼取辨识出需要的知识有效是指所发现的模式对颓数据具有一定
产生久类黥够瑾解髓模式麓敦了鼹数裾豹潜在意义鹜,4】
数据挖掘嫩全部过程的一个特定的、关键步骤,怒指应用特定的弊法从数据
图l。l知谈憋撼全过程示意描述
一测已被广泛使用和普遍接受不加区分地表礻整个数据挖掘过程【ll】。也有 人滋Ⅺ)D在人工智能界蹩流露;DataMi穗培在数据库嚣使是更多。
{.2.2数据挖掘的任务
和模型化处理从中提取辅助决策的关键性数搬和隐藏的预測性信息。它能 发握数爨闻潜在耱模式筏密久稍可戆熬略的蕊意,浚便虢哥瀵勰帮鬟察麴
汾类(classi煮c酞i∞):分类怒数据稳搁中一疆非常莺簧的任务,萁謦的是 学会一个分类函数或分类模型(也称作分类器)該模型按照事先定义的标准,
熬是鼗器挖掘孛研究魄较成熬静溺题。
{.2.3数据挖瓣豹方法 数攮挖掘懿结果逶豢表示为壤念(co∞epts)、矮建<孰les)、痰德 (ReguIa州es)、模式(Pattems)、约束(constraints)和可视化(Ⅵsualization)
中作为决策支持的依据。 数据挖掘方法包括[1013,14】:数理统计、神经网络、模糊理论、粮糙集
●绕计分辑方滚 藏要厢予完成关聯知识挖掘。对茨系表中各属性进行统计分析找到它们
之阉存在豹关系。在芙系表的藉性之间一般存在两种关系:①函数关系(熊期
行分类。典戳的决策褥方法肖c触疆ID3,C45等。
续模避茭《弋裘分别月予联怒记忆纛铙纯计箕。鑫缝缀嬲络:它戳磁谨横型、
用于数据约简数据意义的评估,对象相似娥差异性分析分类等。粗糙
入挖掘系统,极大地改善了系统挖掘速度和深度 其中分类算法作为数据挖掘中应用领域極其广泛的璧器技术,又包括决策 樾分类冀法(包括c45冀法、s糙Q算法移sPR烈T算法)、B8yes分类簿法 (包括NB算法和"N算法)、基于关联规则的分类算法(cBA算法)和基 予数据瘁技术的分类算法(包括MIND雾法积GAc-RDB算法)等f15】。
’2。4数据挖撼的王舆与应用
数死个数疆挖掘算法茭数据一般一次缝调迸内存避孽子处理,多用于商渣系 统这种系统并不能适应大容量数据的操作。salford
syst蝴s公司翠期的cART
蓉绕裁耩予这穆系统蘩=代数据挖掇软{孛系绕与数据鬻警瑾系统(DBMS)集
件系统典型的代寢有DBMinerSAs/Em删se
Miner。第三代数据挖獭系统
憋特点爨期预砉模型系统之闽能够窭理光缝戆集藏使褥虫數据挖掘软传产 生的模型的变化能够及时反映到语言模型系统中。它能够挖掘网络环境下
Intem利Extranet)的分毒式和鼹喥异质的数据并且能够有效她积操馋型系
统集成。菇缺点鼹不能支持移动环境spSs clemont西e就是属于这一代的产
懿。苐四代软件斑能够挖掘嵌入式系统、移动系统和普遮存在的计算设备产
霹藏蘧羞毅豹挖撼纂法毂鼹究彝开发,第一代数撂挖掘系绞仍然会出
特定领域的数据挖掘工具针对某个特定领域的问题提供解决方案在设计
算法的时候,充分考慮到数据和箍求的特殊性弗进行优化。对馁何领域 都可以开发特定的数据挖瓣工其;例如,IBM公嗣的Adv班nced S∞ut系统针 对NBA的数据帮助教练优化战术组合[18】;加州理工学院喷气推进实验室
与天文晕荨攀家舍{睾开发豹S搿cA=r系统,它将图像处理、数舔分类、鼗据库
數据楚援王暴钟霹链邃较疆炙§§燕予~耱痉曩;也歪蠢为锌对瞧强,{妻德
瑾攀觅熬数攥类型簸新编耋的盛褡矮竣来看,邃鎏逶爰嫠翔谖笈现工其又
它稻霄罄定静定徐秘完善豹技术支持还往往提供数据挖掘咨嘲服务。這一
SAS怒磁(嚣唧矗鼯M主n嚣})
》18涮l鼬ellig£珏t髓箍嚣
0raole/D甜win
公用系统往往部分由科研机构开发,作為一种肖效的免费软件凝孪主要
加窜大simon Fraser大学的DBMiner
≯北爱尔兰ulster大学的Mining Kernl
》中国科学院计算技术研究所智能信息处理重点实验室的多策略知识
发现平台――MSMiner
广泛地应用于商业领域(包括企业市场营销和风险评估等)、银行业、生产销
管理、天文学和空间科学、生物工程、INT肼洙ET信息挖掘、笁业制造领域
1.2.5数据挖掘的挑战与未来的研究方向
有效的额处理,又要利用领域知识进一步精炼所发现的模式滤除囟搜索空
络和信息嘚社会化数据挖掘的对象已不单是关系数据库模型,而是分布、 异构的多类型数据库数据丢失和数据噪声等现象越来越突出。这也是數据
以及如何处理数据的异类性和自主性等【25]。 叧外数据挖掘结果的可理解性和私有数据的保护与数据安全性也是数据 挖掘面临的重要问题。 当前数据挖掘和知识发现研究方兴未艾,预计在本世纪还会形成更大的 高潮研究焦点可能会集中到以下几个方面: ?智能的、有效的、可扩充的数据挖掘方法的研究仍是研究的熱点; ●发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言 也许会像SQL语言一样走向形式化和标准化;
●寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理
1.3论文的研究内容和结构安排
从而认为知识是具有粒度(granul捌锣)的;认为知识的不精确性是由知识粒
并没有校正数据中所表现的不一致性,而是一般将所生成的规则分为确定与
1.3.1论文主要研究內容
要研究了几种数据挖掘方法――三种数据表分解方法和一种加权聚类方法
行变形然后在变形的基础上进行挖掘是一种行之有效的方法。夲文分别从
念层次。这样就把原数据表分解为小型数据表分层次进行分类而且由于Φ
的模式类 3)一个实际成用:针对汽轮发电机缝掇动的复杂性使故障其务多层次性,
随机性的特点本文利用数据表分解算法中提出的粗糙集属性选择量度,建 立了褪糙繁分瑟藏簿诊酝横鳖;掇该模登实际痘鼷蒌j汽轮发电辊缀振動液簿
图1.2论文的主要研究内容和皴构图
第一章缝论:本寒首先放囊业嚣求窝技术骜景嚣方瑟分缓了数攥挖掘产奎 的背景然盾给出了数据挖掘的概念和主强研究内容,评述了数据挖掘的主
括知识表达系统、不可分辨关系、榘合的上、下近似、知识的约筒和核、知
粗糙集理论研究现状等。 第三章至第六章以及第七章针对数据挖掘中常见的数据问题提出了三种 数据表分解算法,通过对原始数据表进行分解变形然后在变形后的数据表 上进行数据挖掘。其中第彡章主要解决了海量数据表中提取规则数目多有 效性低的问题;第四章通过构建中间变量,建立多层分类模型提高了模型的 可理解性;苐五章解决了信息系统中数据不完整的问题;第五章和第七章通 过汽轮发电机组振动实例对算法进行了验证 第三章基于粗糙集的数据表汾解方法:本章首先基于粗糙集理论,从提高 分类正确性和子数据表的纯度的角度出发提出了属性选择量度,进而为了 消除噪声数据的影响提出了分解过程终止量度来减小规则长度。文中从倍 息理论的角度证明了利用该属性选择量度选择出的属性集是原属性集的一个 约簡并且时间复杂度小于经典粗糙集约简算法。通过对ucI数据库的若干 数据集的实验和算例分析证明了该数据表分解算法的有效性 苐四章基于属性分解方法的多层分类模型:与第三章从属性选择的角度分 解数据表不同,第四、五章从属性变换的角度通过构建新的中間变量来进 行数据表分解。本章首先分情况讨论了属性成组然后利用信息熵来衡量属 性组的重要度,并利用基于粗糙集理论的两个评价指标一一致性指标和最小 值指标来识别中间概念层次文中讨论了该算法的时间复杂度,并利用来自 ucI的若干数据集从分类能力和模型结构两个方面对该方法进行了验证和分 析 第五章不完备信息系统的粗糙集分解方法:通常的数据挖掘方法是在数据 预处理阶段,将不唍备信息系统通过各种方法进行完备化这使得原始数据 和知识存在不同程度的失真。针对传统方法的不足本章利用模板从不完备 信息系统中选择完备子集,在完备子集上进行利用粗糙集来构建中间变量分 解数据表以简化规则文中还把该方法应用到汽轮发电机组振动故障诊断数 据中,利用该方法来解决汽轮机组故障诊断过程中的数据信息不完整问题 第六章加权聚类算法:正确选择对于聚类重要性大的特征,对于提高聚类 效果是非常重要的基于此本章利用粗糙集相似模型形成初始等价类、然后 根据信息熵理论对属性特征进行评价,利鼡互信息熵值对各个属性进行加权 进行重复聚类最终得到满足聚类要求的模式类。通过利用来自uCI的数据 集测试发现该算法在分類率和各模式类的纯度上均有明显的提高。 第七章汽轮发电机组振动的粗糙集分层故障诊断方法:本章利用第三章提 出的粗糙集属性选择量度来分解数据表建立粗糙集多层故障诊断模型,最 终得到诊断规则集通过实例把粗糙集分层故障诊断模型和一般粗糙集故障 诊断模型进行对比,验证了该方法的有效性高模型简单实用的特点。
第八章总结与展望:对全文的工作进行了总结并且提出了若干相关的继 續研究的方向和工作展望。
糊豹奁经典逶瓣中,只有奏馁=俊之分嚣蔼无法对藏类蠢髓进行舔确戆
谬漏逻辚熬剖始入&F掉窭e戴提感了含糊(v曩静o)一词,缝壤含凝性爨終裂 边界线上即在会域上存在一些个体,它既不能被分类别某一个子集上也 不能被分类到该子集的於集土。l蛞5年荚国控臻《论專家zadeh提出了F啦zy 集[27】,许多计算机科学家和逻辑学家试图通过途一理论解决G Frege撼出的
1992年波兰数学家pawl威z。锋对娃Frege麴透赛线区域零懋提出了糇
零Pawl鑫l£Z.弱专著《糍糙集――关予数据攘理瓣理论》【29】均翊蓬,系统全
术懿疆燧集理谂钓蒸本獠念爨及它在撬嚣学习、决繁分褥、翔谚;{发瑷等颁域
1996年在秘本东京稿开第嚣霾鋈舔耩糙集、模赣集与机器学习国际研讨
粮髓集理论与瘦薅l懿磅究。我国疑丸十年代开黧了瑟稳糙集理论麴醑究主
识约简算法、粗糙逻辑等为了促进这一理论在中国的发展,中国计算机协
会人工智能与模式识别专业委员会于2001年5月在重庆召开了苐一届中国粗
2.1.1知识表达系统
知识表达系统也荿为信息系统。通常也用S=(u爿)来代替 s=(u,4矿,)。知识表达系统的数据以关系表的形式表示关系表的行对应 要研究的对象,列对应对象的属性对象的信息是通过指定对象的各属性值 来表示。 粗糙集理论的知识表达系统可用信息系统或称属性一值系统表示信息系 统类似于关系数据库模型的表达方式,RS理论在其上定义了约简(reduct)
和核(corc)等概念这样知識就可以用数据来代替,知识处理可由数据操纵 来实现特别是概念可用属性一值来定义,从而给知识发现提供了有力的工
定义2。l:决策系统(有时又称决策袭)是一个有序二元组』一(以CuD)
决策算法)的集合。觚船D意义上说这些决繁溉羹8集莲一个掇述来囊应南
2.1.2知识表示形式
2)。产生式规则:一种依援人类大脑记忆模式中餐种知识块之间大量存在的因
槊关系或“条件一行动”式用“IF.TH料”塑瀚产生式舰则来袭示知识。该
5).面向对象的知识表示:指采用基于信息隐蔽和抽象数据类型概念的筒向对
一个好的舞谈表示形式必矮熬备下甏凡令条释:重煮突蠢、聚統中翔专爻的
2。2褪糙集理论的基础知识
分类的能力,不可分辨关系是精髓集理论中的最蘸本概念在诧麓础上,粗
约麓帮求核送行熟识兹纯麓等诗髯
2.2+{不可分辨关系
z^移(B)={(乇屯)Eu×up(而)=6(而),V6∈丑}=n刀旧p)
鑫这墨,它瞧是一耪震蠖关系二元缓建S一<U,热移(够>撩或一个近經塑阑 对于任意属性集雪篡A,£上的不可分辨关系弘∞(露)也是一种等价关系。 定义2.3:对于对象x《uB《爿,x关于B的等价类定义为
【x】目={y《ul(xy)匿彻(艿)}
定义2.露:等价关系热移(动把Ⅳ翻分为老个不籀关静等价类滋称为关予 嚣的蒸本集,记u/z^『D(嚣)={置…,五}袭示关系三^『D(秘在u上浆等份类
2.2.2集会的上、下近似
丛=U{x∈u:【xk£并},即当且仅当Bk互膏x∈艘。
浙敬犬学搏t学位论文
星爿是剥用知识皿,u中所荫确萣地属于爿的元素的集合;姒是利用知
我们把集合P瞩(搿)=蹦称为搿的胄正域:把
凇G。(z);u一艄称为Ⅳ的冀负域;把丑K(Ⅳ)=砝┅蟹称为并的边界
正域珊。(爿)或工的下近似是那些对于知识矗能完众确定地属于爿的对
强2.i褪糙集概念示意图
2.2.3翔识辩麓亿和核
识或者知识的组合来等价地表示。因此我们经常要在保持知识库中初镣范
令霆必一等份荚系族r基r∈发姿执◇(震)。烈D(曼一{r}b熬r为足巾可
当对予任一,《霞著震不可餐硌,剿旋震为独立的如栗蠢是独立的, JP譬月则P吔是独立的。在用属性集R来表达论域知识时寅独立意味麓属
定义2.7当Q猛立,9£P且热秽(圆=执移(P)翔Q为P的篱约 (Red嚣t),用red(D表示获褥麓约的过攫穆为终楚(Reduction)。
定义2+8全幫蕊约熬交巢定义瓷P静核(C。fe)∞瓣(P)=nre《均
2.24知识的相埘简化捆相埘核
P和Q为u中的等价必系族,则集台P啤(Q)=【j蹦称为P
的Q正域(_P―positive
集匼妒嬲(2)是遥遘翔谚{P,F孛掰寄确定蟪属予甄识盆魏蠲等蓬晦豹
P以薯。㈣(胁田(Q))=POsM(n㈦】(zMD(Q))时称reP为P中相对Q冗余的
(Q―dispensable),否则,为P中相对Q非冗余的(Q-in矗i华en蜘le)
(Q-in如p%dent)。当S为P的Q独立予族且P0嚼(9)=Po昂(②时,剐族
其中re屯(妁隽尹中掰有盆麓约懿集会 P的Q核是知识P中最基础的部分,漕去它裁会减少把对象划分入初等
供了与全帮知谖≯穗嚣懿对象分类往後于有不止一个终筒。
初等范畴划分对躲到Q的初等范畴时只能有一种途径:洏在知识P不确定
越少。勇岁}影稍分类麓聪豹勇一个因素是简约中疆性镶静组合数,在篱约
数嘚简约:如果商多个简约同时具有相同的最小属性个数,那么属性傻组 合数最小黪楚终为最馕麓终。在这一雄剿下褥裂懿最饶麓绞魄稱之免滠小
2。25翔识戆馕鞍蠖
要进行知鼋筵的麴筵,势麸一个绘定聚浚串导爨隽一期谖登须磅究数据
知识尸中可导的。当Q从知识P中W导时称Q依赖予户,记为PjQ依
定义2,13令足=(∥震)为一知识库,臣PQ蒜畏。当烈联P)墨弱o(岔)
当不存在PjQ且不存在QjP,P和Q是独竝的
疆然,恣盈汉巍蚤国<翰∈2期堙)誊尹等Q
知识的部分依赖性表明知识推导也可以是部分妁,即肖部分炙霹识Q怒可
以由P推導的部分可导悭可用知识的正域来定义。为了度量知识的依赖性 我们形式化地定义部分可导性
惫=芦(尹jQ)=n(Q)=三圣:紫
鄹称知识盆可敬由知谖尹毒浚可导(O≤孟≤i),记律P号≈Q其中,
踟矗(.)表示取集含中元素泌个数
魏粱尹j;Q,可簿记为P∞Q
象可通过知识尸划入知识9的范畴;特别地,当七=0论域中没有对象可以 通过知识尸划入知识Q的范畴。 由依赖性定义可见当JPj。Q则由知识Q导出嘚分类u/Q的正域覆盖 了知识库中t×100%的对象;另一方面,只有属于U/Q正域的对象能被分类, 即女×100%的对象通过知识P划入U/g的初等范畴。因此,七也称为P对Q的 逼近度(Approximation quality
with respect
to尸)【32],简称,标准
是衡量知识[/尸对U/Q划分质量的绝对标准。
2.2.6属性的重要性
y(C,D)一(C一{口),D)
我们对该差值进行正规化变换后有:
定义2.15决策表∥,CuD)中口∈C的属性重要度定义为:
acc.。(盯)=兰‘曼羔望2;;铲=-一错
属性的重要度系数狠容易扩展到麟性集嚣≤c的璧臻性量度:
如果嚣是c的约简,那么盯(C一口)=O即表示出去条件属性的任何约简
的幸}集掩不影睫传溅决策。对上述属性重要性鲍獠念进一步扩震可嗷耀于
称为将嚣作为c的近似约简的错误率,它表承用属性曰表示c的确切程
度a因越可以烽雪蘩终e黪5一近似约燕(嚣一卸p}溉im《nR戚娃et)。遥钕约
决策表(移,cu功孛黟,热粉(《)'秽弱∞(G),,醪热溺≤G)}表示象释
执s(固表示决策满性D的等价类d的取值。一条决策规剐就可定义为
D口s(c1)^DeJ(c2)^…^―Ek占(q)=粤D已s(d)
定义2.16令【x】c表示满足胁镪)一£睡s娩)^…^貌s(靠)静等徐类【棚。
n[d】D) 。一c掰1d([z】c 【‘一―――“…”’―――――――……”‘―――一 ef≥矗(【x】c)
浙姐=火学博士学位论文
,:嫂型!【苎!£Q[塑垒2
这肘决策规则可敬霹为:
D8占(c1)^执菩(c2)^…^DPs(%)=j o辞s(d)(饼?jOO%)
威该在来知类剐的对象上进行分炭性能评估。一种在实际应用中简单黹实用
1)警將分类器用于新对象静分类时我稻首先在规爱Ⅱ集中爵我可应用豹
2.3粗糙集理论的特点 2.3.1知识的分类观点
对象进行分类静能力,翔识莛密对象论城静分类模块组成的它疆供关于现
摹孛等价关系。不掰分辨关系是RS瑾论豹最基本槭念程貌基看鑫』二雩{入戒员关 系、上近似和下避似等概念来刻函不精确性与模糊性。假定给定对象的一个
23。2瓤型的成员关系
这个集合要么不属于这个集合,即它的隶属函数∥@)譬{o,l}模糊集合对
笼遴一定瓣模鞍车瓣不确定数据毽楚箕模糊隶藩浚豹确定继经买奄大为嚣索,
关系终为琢媾攮念来处理褰会豹勞巍交裁建立套箕元素懿滚属凄撤曩X露搬泣
始概念因照无囂人为给元素摆定一令隶瓣度,从露避免了主戏嚣素的影响 而且Rs认为,不确定性与成员关系有关而模糊性则表现在集合本身。设
段(x):坚星g越,其中冀是不可分辨关系圈。表示不可分辫关系曩产苼静
包含元素茁的等价类显然有F,(x)e[Ol】,这里的隶属关系是根据已有的知 识分类客观计算出来的而不是主观给定的。
产生了所谓的关于不精确的边界思想,Rs理论中的模糊性就昰一种关于边界 的概念郎一个攒糊豹概念其有摸糊的不可被鹗确划分静边界。为刻画横糊
静下近钕魏翕了可确切分懿到X的元素上近瓿鲻毽含了所有那黧可能麟于
1)粮糙浆处理不确蹇陇问题不需要先骏知识。模糊集和概率统计方法怒处
瑕不确定信息的常用方法但这螳方法需要一些数据的附加信息或先验麴识, 鲡模颧隶耩函数秘概率分布等遽鍪信意有时并不容荔褥翔。褪糙集分析方 法仅利用数据本搿提供的信息冤须任何先验知识. 2)藕糙集是一个强大羽数据分析工其,有着黟密豹数学基础它能袭达和 处理不确定信息;能在保髑关键信息的前提下对数据进行化简并求得知识的最
小表达;麓谈到势评倍数销之阉豹依赖关系,揭示趣攒述篱单静禳式:能飘经验
3)藕糙集与攒糊集分剐刻划了不确定信患的两個方面f35】:糍糙集以不可
2.4粗糙集理论扩展模型
2)对于糖糙集戆逮爨区域豹剿剡遭予燕单; 3)糊糙集理论的方法在可用信息不完全的情况下将对象们焖类于棠~具
因此在近几年的研究中出现了许多粗糙集的扩展模型。归纳起来有以F
漆类:代数凝糙摸模型【39】、概率凝糙爨模型≯啄搂态逻辑粳髓集模型≯1】
2毒。{代数粗糙纂模型
避免了P&wlajc静“强等徐”关系带来不镁,特爱燕在藩穆数据不宪整麓瀵况
彳弋数藕糙集扩麓模型中最其商代表镶的是蔫褶钕关系代替等价关系灝相
代祷糨糙繁台中静不可区分关系蠢,最圭簧酶交纯就是稻镞类不褥形成辩琢
类钕予等狳类,霹疆定義裰强集簿瑟莠翱菜个蟊褰z奁耩幢集合露上糖钕
的集合盟^靠(x)。值得注意的是龇岷(x)中的元素不一定属于同一决策类因
以很容易的定义正区域的概念。它就是所有包含猩决策类中的相似集的并 依赖度帮终篱豹概念都可以类酝经典集合鹣方式意義。 一个简单的相似关系可以定义为(其中*代表不关心):
2.4.2概率粗糙集模型
在数据集中存在嗓音等干扰情况下,经旗理论会由于对数据的过拟合而使
的正区域、边界区域和负区域讨论了此定义下的有关燃质。L
帮w zia成。遘~步疆交了不对称遍赛羚V争Rs模型【44】使魏横垄受翱一般
一般瑰,集会并包含予y并采反映氆集合z驹元素耩于集合y的“多少” VPRS定义了它的量度:
∥(os∥鬟o.5)旗于上述定义,我们有肖亭y当且仪当c(爿,y)s芦
在此旗础上,设u为论域且月为u上的等价关系U/R={墨,K…,K}
部并=u{y售£,置:y囊9 j『ore(只邕)≤西
毛茗=o{y∈u震:c_(tx)<l一多}
哟菇=0{y毫u鬟:声<e(L舅)<l一多}
展它完全继承了粗糙集的性质,拥有糨糙集嘚所有优点并拓广了粗糙集理
2S基子粳糙集理论的数据挖掘方法磺究现状
战往静领域之~在裰器学习、知识发现、决策分析、专家系统、决镶支持
晟近几年,粮糙集理论的应用研究得到了长足发展这里从几个方薅简述
粗糙集数学性质方面的研究
粗糙繁数学性质方面的研究主要是对粗糙集理論中知识的不确定性问题
送行瑾论磷究【46】,氇捂讨论糙獠黎代数缩稳和籀矜结褥【碡7】秘稳糙逻辑【48
对藕糙集的研究不断深入,它与其他数学分支豹联系瞧更粕最得紧密
集瓣理论戮究露要以这塑疆论{睾为基磷潮薅氇鞠应蘧繁动了这慧理论弱發
纯数学理论与箍糙集结合静磷究导致了新静数学概念的出现,倒如“疆
2.5.2糊糙集模型拓展方面的研究
Ro毽馥sets)、楣戗模型(嬲善38se娃鞋si懋i{蘸ty R。耘蠡矬)窝连续溪蛙离数讫
对数攥戆过羧合瑟攘其对羧对象戆l!囊溅能力大为簿低zia蠡。提出一穆霹变精
度粗糙集模型vPRs该模型通过引入一个精度,允许粗糙集存谯一定的误分
类率姣两寝粮糙集合爨有一定豹客错瞧,增强蔡抗于挠能力【霹O】融嬲erg
此等证明在相似模型中,粗糙熵随着知识粒度减小面单调递减:有助于寻找
系:不可分瓣关系,透纭关系纛决策关系文献【603遗一步致遗稳钕关系模型,
中经常遇到连续属性慎的情况,这就需要对涟续属性进行菜种离散化
鼹蓬蚕【6i,62】藩灌簿等鬟霆基予蕊惠演豹魏刘不确定瞧垂疫溺数{奄遥了一
25。3粗糙集理论鸯效算法方嚣的疆究
法(64―66]。另外动态约简算法得到的简约也具有很好“增量特|胜”[67,68】
类舞法的共同特点是利用屬性的整要性作为启发式信息,去求得简约只是
它们对属髋重要性酌量度不同丽己。
2.54粗糙集与其它皴能分析方法的融合
类中的对象组成静集合之闯的关系,侧重分类;模糊集瑾论基于元素對集台
们都建基予样本(对象)学习的等簿粮稳集和神经网络豹区剐主要存穗子
定瞧诗算靛特注其蠢较努鹣互孝}毪霹戳攀l蘑翟糙集稳遥辩经褥络,藏小弼 络规模提离网络训练速度【8l】;类似的还肖文献【82_85】,贼利用粗糙集简化
3.穗稳集与遗传算法。遗传算法作为伉纯算法以其搜索速度浃、搜索 范围广和鲁棒性能好等优点而得到叻快速的发展和应用。遗传算法能够结合
进粗糙集的简约计算可以快速搜索得到决策系统的简约。文献【88―92】正是
都是霹定义的。困此可以摸镑辍辍集翡方法生成辨谡戆“上近能格”秘“下
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。