M-P模型中权值和阈值是如何计算出来的

点击联系发帖人 时间：2018-12-10 15:23

P.M

networkNN），是一种模仿生物神经网络嘚结构和功能的数学模型或计算模型神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改變内部结构是一种自适应系统。现代神经网络是一种非线性统计性数据建模工具常用来对输入和输出间复杂的关系进行建模，或用来探索数据的模式

神经网络是一种运算模型，由大量的节点（或称“神经元”）和之间相互的联接构成每个节点代表一种特定的输出函數，称为激励函数、激活函数（activation function）每两个节点间的联接都代表一个对于通过该连接信号的加权值，称之为权重这相当于人工神经网络嘚记忆。网络的输出则依网络的连接方式权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近也鈳能是对一种逻辑策略的表达。

它的构筑理念是受到生物（人或其他动物）神经网络功能的运作启发而产生的人工神经网络通常是通过┅个基于数学统计学类型的学习方法得以优化，所以人工神经网络也是数学统计学方法的一种实际应用通过统计学的标准数学方法我们能够得到大量的可以用函数来表达的局部结构空间，另一方面在人工智能学的人工感知领域我们通过数学统计学的应用可以来做人工感知方面的决定问题(也就是说通过统计学的方法，人工神经网络能够类似人一样具有简单的决定能力和简单的判断能力)这种方法比起正式嘚逻辑学推理演算更具有优势。

神经网络最重要的用途是分类为了让大家对分类有个直观的认识，咱们先看几个例子：

垃圾邮件识别：現在有一封电子邮件把出现在里面的所有词汇提取出来，送进一个机器里机器需要判断这封邮件是否是垃圾邮件。

疾病判断：病人到醫院去做了一大堆肝功、尿检测验把测验结果送进一个机器里，机器需要判断这个病人是否得病得的什么病。

猫狗分类：有一大堆猫、狗照片把每一张照片送进一个机器里，机器需要判断这幅照片里的东西是猫还是狗

向上例这种能自动对输入的东西进行分类的机器，就叫做分类器

分类器的输入是一个数值向量，叫做特征（向量）

就是线性代数中学到地特征向量，若果不懂会去看书或者看这里：

上面两个是同一个答主（马同学），寻根溯源细致入微，比我自己总结的好

若要全面认识神经网络，我觉得这一点基础还是要有的请不要忽视。

在垃圾邮件识别里分类器的输入是一堆0、1值，表示字典里的每一个词是否在邮件中出现比如向量(1,1,0,0,0……)就表示这封邮件裏只出现了两个词abandon和abnormal；第二个例子里，分类器的输入是一堆化验指标；第三个例子里分类器的输入是照片，假如每一张照片都是320*240像素的紅绿蓝三通道彩色照片那么分类器的输入就是一个长度为320*240*3=230400的向量。

分类器的输出也是数值第一个例子中，输出1表示邮件是垃圾邮件輸出0则说明邮件是正常邮件；第二个例子中，输出0表示健康输出1表示有甲肝，输出2表示有乙肝输出3表示有饼干等等；第三个例子中，輸出0表示图片中是狗输出1表示是猫。

分类器的目标就是让正确分类的比例尽可能高一般我们需要首先收集一些样本，人为标记上正确汾类结果然后用这些标记好的数据训练分类器，训练好的分类器就可以在新来的特征向量上工作了

先来看一下生物学上的神经元：

先湊合着看，画质不好

神经元大致可以分为树突、突触、细胞体和轴突。树突为神经元的输入通道其功能是将其他神经元的动作电位传遞至细胞体。其他神经元的动作电位借由位于树突分支上的多个突触传递至树突上

神经细胞可以视为有两种状态的机器，激活时为“是”不激活时为“否”。神经细胞的状态取决于从其他神经细胞接收到的信号量以及突触的性质（抑制或加强）。当信号量超过某个阈徝( Threshold )时细胞体就会被激活，产生电脉冲电脉冲沿着轴突并通过突触传递到其它神经元。

接受其他多个神经元传入的信号然后将这些信号汇总成总信号，对比总信号与阈值如果超过阈值，则产生兴奋信号并输出出去如果低于阈值，则处于抑制状态

一条直线把平媔一分为二，一个平面把三维空间一分为二一个 n?1 维超平面把 n 维空间一分为二，两边分属不同的两类这种分类器就叫做神经元。

大家嘟知道平面上的直线方程是ax+by+c=0等式左边大于零和小于零分别表示点(x,y)在直线的一侧还是另一侧，把这个式子推广到n维空间里直线的高维形式称为超平面，它的方程是：

神经元就是当h大于0时输出1h小于0时输出0这么一个模型，它的实质就是把特征空间一切两半认为两瓣分别属兩个类。

这个是我最喜欢的的关于神经元的图示（自己高清重置版）

输入的是特征向量，通过对其的学习可以得知，特征向量代表的是变化的方向

或者说，是最能代表这个事物的特征的方向

人有性别，身高手，脚五官等。

电脑有屏幕键盘，CPUGPU等。

特别是速度的方向物理中总是用一个矢量箭头代表方向，速度改变最大（增加或减少）的方向（所以后面要求导数）

僦是特征值嘛，输入是特征向量权重和它相乘，那不就对应特征值么

有正有负，加强或抑制同特征值一样。

权重的绝对值大小代表了输入信号对神经元的影响的大小。

正如上面的例子输入一张图片，判断是是猫还是犬

第一层输入的有毛发，爪子牙齿类型等。

苐二层有头部腹部，腿部等

牙齿对腿部的影响就会比较小啊，牙齿和腿部之间的权重的绝对值就会小一些诸如此类。

还有另外的解釋上面中，我上面引用的是赞数最高的回答赞数第二高的回答，答主：YJango 的回答虽然略有些晦涩难懂，但我希望你能看一看思考思栲。

我们要割一刀得有割的角度和方向，而权重就负责调整方向，这和特征向量的方向是两回事

按答主：YJango 的方向来看，n维空间中塖以权重就好像是在不断的扭曲空间（空间变换），使不同类别的事物被扭曲到不同的一侧来找到一个合适的n?1维超平面。

上媔的神经元的图示我们总是减去 θ，说得通俗点要证明a>b可以证明a?b>0。

可拖动滑动条改变α的值来观察图像的变化

激活函数是用來加入非线性因素的，解决线性模型所不能解决的问题

神经网络的初始权值和阈值需要归一化0到1之间。

因为神经元的传输函数在[0,1]之间区別比较大如果大于1以后，传输函数值变化不大（导数或斜率就比较小）不利于反向传播算法的执行。反向传播算法需要用到各个神经え传输函数的梯度信息当神经元的输入太大时（大于1比如），相应的该点自变量梯度值就过小就无法顺利实现权值和阈值的调整）。

傳输函数比如sigmoid或logsig或tansig你可以把函数图像画出来，会发现[-1,1]之间函数图像比较徒，一阶导数（梯度）比较大如果在这个范围之外，图像就仳较平坦一阶导数（梯度）就接近0了。

感知器模型是一种最简单的神经网络模型结构，其网络结构包括输入层与输出层两层如下图所示：

其为具有两个输入神经元，一个输出神经元的感知器模型

我们知道该模型是可以做与或非运算的。

这是因为如果我们要做与或非運算那么对于输入x1,x2来说，其取值只能是0或1而我们的输出y=f(∑i=12wixi?θ)。

如果要做与运算那令阈值w1=1,w2=1,θ=2，则只有在x1=1,x2=1的时候才能激活输出层神经え输出1，其余情况均输出0

同样，如果做或运算那令阈值w1=1,w2=1,θ=1，则只要有一个输入xi=1即可激活输出神经元，输出1

如果对x1做非运算，那麼可以令阈值w1=?0.6,w2=0,θ=?0.5则如果x1=1，x2=0总输入为?0.6，小于阈值输出0，如果x1=0,x2=0总输入为0，大于阈值输出1。这里的激活函数为阶跃函数这个通过下面的三幅图也可以看得出来:

经过观察，可以发现对于只有输入层与输出层的感知机模型，∑i=12ωixi?θ是线性的其只能对线性数据進行划分，对于如下图的异或模型其实无法准确划分的。

但如果是两层网络（这里的两层指的是隐层与输出层因为只有这两层中的节點是有激活函数的），在隐层有两个节点那么此时就可以得到两条线性函数，再在输出节点汇总之后将会得到由两条直线围成的一个媔，这时就可以成功的将异或问题解决

记得之前做过的那道小学生题目吗？一条线把一个多边形分成两个三角形最后答案是画一条粗洳臂膀的线。

因此我们可以看到随着网络深度的增加，每一层节点个数的增加都可以加强网络的表达能力，网络的复杂度越高其表礻能力就越强，也就可以表达更复杂的模型

通过上面你的示例，我们也可以看到对网络的学习其实主要是对网络中各个节点之间的连接权值和阈值的学习，即寻找最优的连接权值和阈值从而使得该模型可以达到最优（一般是局部最优）

相邻两层是全连接，而层内是没囿连接的跨层之间也没有连接：

在给定训练数据集的情况下，可以构建一个神经网络来对这些数据进行拟合

构建过程主要分为2步：1）湔向传播 2）反向求导。

在前向传播过程中给定权值和bias矩阵，可以得到给定样本对应的预测值（激活值）；在反向求导过程通过样本预測值与样本真实值之间的误差来不断修正网络参数，直至收敛

θbj表示隐层的第 j 个神经元的阈值，请举一反彡谢谢

根据误差(error)反向传送

由于前向传播阶段的权值和bias是随机初始化的，因此需要根据网络输出误差不断嘚对参数进行修正

这里要用到梯度下降法，不会的自己去百度高数上学过（倒三角的那个），但我觉得你连这点时间都懒得去用来查：给我认真学啊！！！！！

设 Tk 为预计输出，计算与实际输出的均方差

这样就将两层联系了起来。

同理就算拓展箌两层，三层甚至更多层的隐层都适用

设置学习速率为 η (一般在0.01 ~ 1之间取值)。

权重的更新低于某个阈值

预测的错误率低于某个阈值。

达到预设一萣的循环次数

换句话说，就是直到网络收敛

对多层网络要确定选用几个隐蔽层。

Heche-Nielsen证明当各结点具有不同的阈值时，具有一个隐蔽层的网络可以表示其输入的任意函数但由于该条件很难满足，该结论意义不大

Cybenko指出，当各结點均采用S型函数时一个隐蔽层就足以实现任意判决分类问题，两个隐蔽层则足以实现输入向量的任意输出函数

网络层次的选取依经验囷情况而定，通常不宜过多

BP网络中各层结点数的选择对网络的性能影响很大。

对输出结点它取决于输出的表示方法囷要识别（或分类）的输入向量的类别数目。

比如要输出能表示8个不同向量的分类可以用8个输出结点，一个结点表示一类也可以采用彡个输出结点，用它们的二进制编码表示8个不同的分类

如果用了编码方式，会减少输出结点的数量但会增加隐蔽层的附加工作以完成編码功能，甚至有时需增加一个隐蔽层以满足要求

对输入结点，输入层的结点数通常应等于输入向量的分量数目

对隐蔽层结点数的选擇，Nielson等指出：

除了图像情况在大多数情况下，可使用4-5个隐蔽层结点对应一个输入结点

在图像情况下，像素的数目决定了输入结点的数目此时隐蔽层结点可取输入结点数的10%左右。

隐蔽层的结点数取得太少网络将不能建立复杂的判决界面；取得太多，会使得判决界面仅包封了训练点而失去了概括推断的能力

隐蔽层结点数的选择要根据实际情况和经验来定。

BP训练算法存在的问题

尽管BP訓练算法应用得很广泛但其训练过程存在不确定性。

训练时间过长尤其對复杂问题需要很长时间训练。

选取了不适当的调节阶距（训练速率系数 η）

在训练过程中（如采用Sigmoid函数），加权调得較大可能迫使所有的或大部分的加权和输出sj较大从而使得操作会在S型函数的饱和区进行，此时函数处在其导数F’(s)非常小的区域内

由于茬计算加权修正量时，Δw正比于f′()因此当f′()→0时Δw→0，这使得相当于调节过程几乎停顿下来。

BP训练算法实际上采用梯度下降法训练过程从某一起始点沿误差函数的斜面最陡方向逐渐达到最小点E→0。

对于复杂的网络其误差函数面在多维空间，其表面可能凹凸鈈平因而在训练过程中可能会陷入某一个小谷区，称之为局部最小点

由此点向各方向变化均使E增加，以致无法逃出这个局部最小点

初始随机加权的大小对局部最小的影响很大。如果这些加权太大可能一开始就使网络处于S型函数的饱和区，系统就很有可能陷入局部最尛

一般来说，要避免局部最小点可采用统计训练的方法

阶距（训练速率系数η）大小

如果η选得太小，收敛会很慢；

如果η选得太大可能出现连续不稳定现象。

需按照实验和经验确定η。

关于BO网络的讨论摘自：稍作修改。

建议将这些都看一遍博采众镓之长，有助于学习与理解别想着偷懒，偷懒是没有好下场的

}

梯度下降算法是机器学习中使用非常广泛的优化算法也是众多机器学习算法中最常用的优化方法。几乎当前每一个先进的(state-of-the-art)机器学习库或者深度学习库都会包括梯度下降算法的不同变种实现但是，它们就像一个黑盒优化器很难得到它们优缺点的实际解释。这篇文章旨在提供梯度下降算法中的不同变种嘚介绍帮助使用者根据具体需要进行使用。

这篇文章首先介绍梯度下降算法的三种框架然后介绍它们所存在的问题与挑战，接着介绍┅些如何进行改进来解决这些问题随后，介绍如何在并行环境中或者分布式环境中使用梯度下降算法最后，指出一些有利于梯度下降嘚策略

训练集随机洗牌与课程学习

梯度下降算法是通过沿着目标函数J(θ)参数θ∈R的梯度（一阶导数）相反方向??θJ(θ)来不断更新模型參数来到达目标函数的极小值点（收敛），更新步长为η。

有三种梯度下降算法框架它们不同之处在于每次学习（更新模型参数）使用嘚样本个数，每次更新使用不同的样本会导致每次学习的准确性和学习时间不同

每次使用全量的训练集样本来更新模型参数，即： θ=θ?η??θJ(θ)

epochs 是用户输入的最大迭代次数通过上诉代码可以看出，每次使用全部训练集样本计算损失函数 loss_function 的梯度 params_grad然后使用学习速率 learning_rate 朝着梯度相反方向去更新模型的每个参数params。一般各现有的一些机器学习库都提供了梯度计算api如果想自己亲手写代码计算，那么需要在程序调試过程中验证梯度计算是否正确

批量梯度下降每次学习都使用整个训练集，因此其优点在于每次更新都会朝着正确的方向进行最后能夠保证收敛于极值点(凸函数收敛于全局极值点，非凸函数可能会收敛于局部极值点)但是其缺点在于每次学习时间过长，并且如果训练集佷大以至于需要消耗大量的内存并且全量梯度下降不能进行在线模型参数更新。

随机梯度下降算法每次从训练集中随机选择一个样本来進行学习即： θ=θ?η??θJ(θ;xi;yi)

批量梯度下降算法每次都会使用全部训练样本，因此这些计算是冗余的因为每次都使用完全相同的样本集。而随机梯度下降算法每次只随机选择一个样本来更新模型参数因此每次的学习是非常快速的，并且可以进行在线更新

随机梯度下降最大的缺点在于每次更新可能并不会按照正确的方向进行，因此可以带来优化波动(扰动)如下图：

不过从另一个方面来看，随机梯度下降所带来的波动有个好处就是对于类似盆地区域（即很多局部极小值点）那么这个波动的特点可能会使得优化的方向从当前的局部极小徝点跳到另一个更好的局部极小值点，这样便可能对于非凸函数最终收敛于一个较好的局部极值点，甚至全局极值点

由于波动，因此會使得迭代次数（学习次数）增多即收敛速度变慢。不过最终其会和全量梯度下降算法一样具有相同的收敛性，即凸函数收敛于全局極值点非凸损失函数收敛于局部极值点。

Mini-batch 梯度下降综合了 batch 梯度下降与 stochastic 梯度下降在每次更新速度与更新次数中间取得一个平衡，其每次哽新从训练集中随机选择 m,m<n 个样本进行学习即：

相对于随机梯度下降，Mini-batch梯度下降降低了收敛波动性即降低了参数更新的方差，使得更新哽加稳定相对于全量梯度下降，其提高了每次学习的速度并且其不用担心内存瓶颈从而可以利用矩阵运算进行高效计算。一般而言每佽更新随机选择[50,256]个样本进行学习但是也要根据具体问题而选择，实践中可以进行多次试验选择一个更新速度与更次次数都较适合的样夲数。mini-batch梯度下降可以保证收敛性常用于神经网络中。

虽然梯度下降算法效果很好并且广泛使用，但同时其也存在一些挑战与问题需要解决：

选择一个合理的学习速率很难如果学习速率过小，则会导致收敛速度很慢如果学习速率过大，那么其会阻碍收敛即在极值点附近会振荡。

学习速率调整(又称学习速率调度Learning rate schedules)[11]试图在每次更新过程中，改变学习速率如退火。一般使用某种事先设定的策略或者在每佽迭代中衰减一个较小的阈值无论哪种调整方法，都需要事先进行固定设置这边便无法自适应每次学习的数据集特点[10]。

模型所有的参數每次更新都是使用相同的学习速率如果数据特征是稀疏的或者每个特征有着不同的取值统计特征与空间，那么便不能在每次更新中每個参数使用相同的学习速率那些很少出现的特征应该使用一个相对较大的学习速率。

对于非凸目标函数容易陷入那些次优的局部极值點中，如在神经网路中那么如何避免呢。Dauphin[19]指出更严重的问题不是局部极值点而是鞍点。

下面将讨论一些在深度学习社区中经常使用用來解决上诉问题的一些梯度优化方法不过并不包括在高维数据中不可行的算法，如牛顿法

如果在峡谷地区(某些方向较另一些方向上陡峭得多，常见于局部极值点)[1]SGD会在这些地方附近振荡，从而导致收敛速度慢这种情况下，动量(Momentum)便可以解决[2]

动量在参数更新项中加上一佽更新量(即动量项)，即： νt=γνt?1+η ?θJ(θ)θ=θ?νt

}

浙江大学博士学位论文基于粗糙集的数据挖掘方法研究姓名：王庆东申请学位级别：博士专业：控制科学与工程指导教师：孙优贤

数据挖掘技术是机器学习、数据库和统計理论相结合的产物是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中，提取隐含的、先前未知的并有潜在价值的信息的非平凡过程租糙集理论是上世纪八十年代初由波兰数学家首先提出的一种刻画不确定性和不完整性知识的数学工具。该理论近年来日益受到广泛关注己在人工智能与知识发现、模式识别、故障检测、专家系统等方面得到了成功的应用。本文在总结和借鉴前人经验的基础仩针对数据挖掘中常见的问题，从理论和应用两个方面进行了数据挖掘方法研究在数据挖掘过程中，直接在原始数据表上进行数据挖掘往往效果不住尤其是在数据量较大的情况下；因此对数据表进行变形，然后在变形的基础上进行挖掘是一种行之有效的方法本文鉴於此分别从数据挖掘中存在的海量高维数据、噪声数据、数据的不完整以及模型的可理解性差等问题出发，分别提出了相应的数据表分解算法通过引入信息理论与粗糙集分析结合使用，还对加权聚类方法进行了研究本文的具体研究内容如下：１．介绍了数据挖掘技术的概念、产生背景、研究任务、主要方法以及研究热点。回顾了粗糙集理论的发展历程详细介绍了粗糙集理论的基础知识，并对当前困内外粮糙集理论的研究现状进行了详细阐述２．在数据挖掘中，直接在海量高维数据集上进行挖掘得到的规则往往数目众多、规则长度长用于决策分析的有效性低。基于这一发现本文利用粗糙集理论，提出了一种粗糙集属性选择量度该量度从提高分类正确性和了数据庫纯度的角度着手选择属性用于分类，进而利用该量度提出了一种数掘表分解方法本文详细分析了数据库分解方法的信息论性质，证明利用粗糙集信息量度选择出的属性集是原始决策系统的～个约简且该分解方法的计算时间复杂度远小于经典粗糙集约简算法的计算时间複杂度，在提高计算速度的同时不会损失信息量３．针对海最高维数据库建立分类模型是很困难的，计算时削复杂度高得到的分类模型可理解性差，难以解释本文从属性构造的角度出发，基于粗糙集理论提出一种属性分解方法来识别数据表中的中间概念层次，建立哆层分类模型本文提出了基于粗糙集的一致性搜索指标和最小值指标，利用两个指标来重新标定中间概念层次这样把原数据表分解为尛型数据表分层次进行分类，而且由于中问概念层次物理意义分明使得模型的可理解性

＿｝錾｝淡大学饕士学缘论文

大为增加。４．针對处理不完备信息系统时传统方法的不足本文提出了一种不完备信息系统分解方法。该方法不需事先对系统进行究备化丽是基予粗糙寨模校评价溺数选择模摄，髯髑臻模板逐瑟双不完备系统中掇取完备子集然后利用粗糙粲理论来构造中删变量，依据中Ｉ瑚变量分解不唍备信息系统以简化

援篓ｌ囊簸蜃剽瘸褥至ｇ敬援剩集逐层遴纷雄理农凌繁分李厅。潋汽轮发毫裁缝

的振动故障诊断数据为实例给出了該方法的具体嶷现过程验证了该算法在处理不完锯信息系统时的有效性。５．通过引入信息理论提出了一种新的基于粗糙集相似模型嘚加权聚类方法以及撩于信息论的类提纯方法，利用互信息熵值对各个属性避行加权进霉予震复蒙炎最终褥到满怒聚类簧求的模式类。６．汽轮发电机组结构及振动的复杂性使其故障具有多层次性随机憷，

嚣时还存在敌障德惑不完整毪等特点为避一步验证数霸表分解簿法的肖效性，本文以汽轮发电机组振动为实际例子利用糨糙集属性选择避度，选择

合逶属性送行分类建立了耀糙繁分层鼓障诊瑟模型。逶过与一般疆糙集数障诊断模型的对比发现该模型得到的规则集支持度高，实用性商且分层诊断方法与人的推理方式类似，易于悝解最后对本文进行了概括性总结，并提出了有特进一步研究的方向

关键词：数据挖掘，粗糙集信息理论，数裾艨分解属性构造，聚炎不完冬信息系统，汽轮发电机缀振动故障诊断

姗ｓｔｉｃａｌ也ｅｏｆｙＤａｔａｍ溉ｉ鞋ｇ

Ｔｈｅ出旺ａｍｉｎｉｎｇｔｅｃｈｎｉｑｕｅｉｓ

ｃｏｍｂｉｎａｔｉｏｎｏｆｍ聃ｈｉｎｅ１ｅａｍｉｎ戡ｄａｔａｂａｓｅａｎｄｓｅ彗ｋ妇ｅ０联ｅＳ畦ｎｇｏ蕈ｖａ王ｕａ：ｂｌｅ沁ｆｃ删靛稚ｉｏｎｗｉ氆证

ｌ鑫ｒｇｅ，ｉｎｃｏｍｐｌｅｔｅｎｏｉｓｙ，ｒｏｕｇｈａｎｄｒａｎｄｏｍｉｎｆｒｏｄｕｃｅｄｂｙＰａｗｌａｋＺ．ｉｎｔｈｅｅａｒｌｙｌ９８０ｓ，ｉｓ

ｄａｔ如ａｓｅｓ．ＲｏＨｇｈ

ｔｈｅｏｒｙ＜ＲＳＴ）ａ镬强ｔｉｏ器ｏｆ

ｍａｍｅｍａｔｉｃａｌｔｏｏＪｕｓｅｄｆ出ｄｅａｌ抽ｇ

ｗ｛ｔｈｖ８鼙ｕｅ珏ｅｓｓ鑫ｎ硅Ⅱｎｅｅ赡蠢ｎｔｙｌｌ攮ｒ搴ｃｅｎｔｙｏａｆｓ量ｔｈ最ｓｒｅｅｅｉｖｅｄｇｒｅａｔ

ｒｅｓｅａｒｃｈｅｒｓａｒｏｕｎｄｍｅｗＯｎｄａｎｄｈａｓｂｅｏｎｓｕｃ∞ｓｓｎＪｌｌｙａｐｐｈｏｄｉｎｍａｎｙｓｕｃｈ

ＡＩ（ａｎｍｃｉａＩｉｎｔｅｌＩ追ｅｎｃｅ），ＫＤＤ（ｋ１１０ｗｌｅｄｇｅｄｉｓｃｏＶｅｒｙｉｎｄａｔａｂａ８ｅ）

搿啦ｅ撵撼ｅｏｇ建ｉｔｉｏ巍，ｆａ醢ｌｔ娃ｉ嚣ｇ玨ｏｓｉｓ盎瑟ｄｅｘｐｏ疵ｓｙｓｔｅ搬

Ｏｎｔｈｅｂａｓｉｓ０ｆｓｕｍｍａｒｉｚａｔｉｏｎａｎｄｒｅｆｅｒｅｎｃｅｏｆｍｅｄａｔａ

ｅｘｐｅｒｔｓ’ｅｘ辩ｒｉｅｎｃｅ，ｍｅ

ｍｉｎ沁黛ｌｅｃ搬ｉｑｕｅ

ｓｔｕｄｉｅｄ遮ｔｈｉｓ醴ｉｓ∞ｎ采ｉｏ撞白Ｖａ堇ｍｉ珏ｇ鑫ｔ

捌∞ｂｌｅｍｓｉｎＤｊⅥｐｒｏ∞ｓｓ．Ｉｔ’ｓｈａｒｄｔｏｏｂｔａｉｎ２ｒｏｏｄｒｅｓｕ量ｔｓｂｙｍｉｎｉｎ黛ｏｎ也ｅｒａｗｄ董吐ａｂａｓｅｓｅｓｐｅｃｉａｌｌｙｗｈｅｎｔｈｅｖ０１ｕｍｅｏｆ出旺ａｉｓｌａｒｇｅ．Ｉｔｉｇ

ｅｆ掩ｃｔｉｖｅｗａｙｔｏ

ｔｒ黼ｓ是ｒｍｏ鑫匹ａｔａｓｅｔｓ．Ｓｏ，攮ｏｅｏｆｆｅ蹲蕊巍ｇ妇ｔ鑫ｓｅｔ如ｅｏ琢ｐｏｓｉ壕）ｎｄａｔａ趼ｄ

ｗｅｄｋｃｏｍｐｒｅｈｅｎｓｉｂｉｌｉｔｙｏｆｍｏｄｅｌｉｎ出瞳ａｍｉｎｉｎｇ．ｆｏｌｌｏｗｓ：

ｐｒｏｐｏｓｅｄｉｎｔｈｉｓｄｉｓｓｅｒｔａｔｉｏｎｔｏｓｏｌｖｅｍｅｐｒｏｂｌｅｍｓｏｆｕｌ仃ａｌａｒｇｅｄａｔａ，

ｎｏｉｓｙｄａｔａｉｎｃｏｍｐｌｅｔｅＡｎｄ壕ｅｒｅｓｅ８ｒｃｈ

ｅｌｕｓ托ｆｉｎ窑疆ｅ穗Ｄｄ呈ｓ

ｓ黼至ｅｄｂｙｏｏｍｂｉｎ镰ｇｉ薹ｌ妇麓主ｉｏｎ谯嚣。鞲

ａｎｄＲＳＴ．Ｉｎｄｅｔａｉｌ、ｔｈｅｍａｉｎｃｏｎｔｅｎｔｓｏｆｔｈｉｓｄｉｓｓｅｒｔａｔｉｏｎｌｌｎｌｈｏｂｅｇｉｎ瘫ｎｇ搬ｅ

ａ１１ｄｈｏｔｓｐｏｔｓｏｆｄａｔａｍｉｎｉｎｇｔｅｃｈｎｉｑｕｅ

ｃｏ娃ｃｅｐ抟┅ａｃｋｇｒｏｕｎｄ，ｒｅｓｅ８ｆｃｈｃｏ秘ｔｅｎｔｓｍ鑫遮ｍｅ壤。泰ａｒｅｉｎｔｒｏｄｕｃ硝．ＴｈｅｄｅＶｅｌｏｐｍｅｎｔｐｒｏｃｏｓｓｆ

ＲＳＴｗａｓｒｅｖｉｅｗｅｄ，ＡｎｄｔｈｅｐｒｅｌｉｍｉｎａｒｙｋｎＯｗｌｅｄｇｅａｒｌｄｐｒｅｓｅｎｔｒｅｓｅａｒｃｈｓｔａｔｕｓ廷ＳＴｗｅ怼ｉｎｔ鼯ｄ毽ｅｅｄｉｎｄ墩舔ｌｓ２Ｉｎｏｒｄｅｒｔｏｅｘｔｒａｃｔｒｕｌｅｓ抒ｏｍｈｕｇｅｄａｔａｂａｓｅｅ伍ｃｉｅｎｔｌｙａｎｄ

艳ａｌｕｒｅｓｅｌｅｅｔｉｏｎｍｅａｓＩｌｒｅｗａｓｐｆｏｐｏｓｅｄ，ｗｈｉｅｈｃｏ珏ｌｄｆｏｆ

ｐｒｏｍ州ｎａｓｅｋｃｔ基∞ｒｏｐｆｌ瑶￡ｅｆ瓠ｔｌｒｅｓ

ｃｌａＳｓｉ蠡ｃａｔｉｏｎ．Ｔｈｅ兜黼Ｈ℃Ｓｅｌｅｃｔｉｏｎ

ｍｅａｓｕｒｅｂａｓｅｄ

ＲＳＴｗａｓｄｅ矗ｎｅｄｔｏｍｏｎ

ｉｎｃｒｅａｓｅｔｈｅｃｌａｓｓｉｆｌｃａｔｉｏｎｒａｔｅａｎｄｍｅｐｕｒｉｔｖｏｆｅａｃｈｎｏｖｅｌｄａ毫豳ａｓｅｄｅｅｏｍｐｏｓ至ｔ主鞋ｍｅ搬。建ｗ曩ｓｓｏｌｅｃ把ｄｂｖｆ色ａｔｕｒｅｓｅｌｅｃｔｉｏｎｍｅａｓｕｒｅｉｓ

ｓｕ＿ｂ－ｄａｔａｂａｓｅ．Ａｎｄ

ｐ姻ｐｏｓｅｄ主珏攮ｉＳ戎ｓｓｅ羲鑫臻强Ｗｅ

ａｎａｉｙｚｅｄｔ１１ｅｉｎｆｏｒｍａｔｉｏｎｃｈａｒａｃｔｅｒｉｓｔｉｃｓａｎｄｈａｖｅｐｒｏｖｅｄｔｌｌａｔｔｈｅｆｅａｔｕｒｃｓｅｔｗｈｉｃｈ

ｒｅｄｕｃｔｉｏｎｏｆｔｌｌｅｏｒｉｇｉｎａｌｉｎｆｏｎｎａｔｉｏｎ

ｓｙｓｔ。ｍ１’酝谯Ｅｅ

ｅｏｆｎｐｌｅｘｉｔｙｏｆ搬ｉｓｄｅｃｏ掰ｐｏｓ主鑫ｏｎ瑚ｅｔｈｏｄｉｓｆａｒｌｅｓｓｔｈ鑫ｎｔ氧ｅ

ｃｌａＳｓｉｃａｌｒｅｄｕｃｔｍｏｔｈｏｄｉｎＲＳＴ．

ｄｅｖｅｌｏｐ撤ｅ娥遮醵凌ｄ诚ｅｎｓｉ油ｄ麓鼬ａｓｅ

ｉｓｖｅ珂ｄｉ蠖ｃｕｌｔ。Ｔｈ童ｓ

ｄｉｓｓｅｒｔａＩｉｏｎｐｒｅｓｅｎｔｓ

ｂａｓｅｄｍａｃｈｉｎｅ１ｅａｍｉｎｇｍｅｔｈｏｄｎａｍｅｄ

ｆｅａｔｕｒｅｄｅｃｏｍｐｏｓｉｔｉｏｎｍｅｍｏｄ，ｔｏｄｉｓｃｏｖｅｒｃｏｎｃｅｐｔｈｉｅｒａｒｃｈｉｅｓａ１１ｄｔｏｄｅｖｅｌｏｐ溅罐ｔｉ赫ｅｆａ辖ｈｙ礅ｏｄｅｌ

ｏｆ蠢鑫｜曲ａｓｅ．Ａｅｅｏ撼遍ｇｔ。辩璐ｅｍ０８ｓ疆ｅｓ

Ｏｆｒｏｕ盛ｈｓｅｔ

ｔｈｅｏｒｙｔ１１ｅｏｂｉｅｃｔｓｄｅｆｌｎｅｄ

ｔｈｅｐｒｏｐｏｓｅｄｆｅａｔｕｒｅｇｒｏｕ＿ｐｈｉｅｒａｒｃｈｉｅｓｏｆｔｈｅ

ｌａｂｅｌｅｄｂｙｈａｖｅ

ｉｎｔｅｒｍｅｄｉａｔｅｃｏｎｃｅｐｔ，Ｔｈｅｃｏｎｃｅｐｔ

ｉｎｃｒｅａｓｅ如ｅｏｆｄａｔａｍｉｎｉｎｇｐｒｏｃｅｓｓａｎｄｅｎｈａｎｏｅ

ｍｅａｎｉｎ昌ｗｈｉｃｈ

ｔｒ蝴８ｐａｆｅｌｌｙ

ｔｈｅｃｏｍｐｆｅｈｅｎｓｉｂｉｌｉｔｙｏｆｔｈ。ｍｏｄｅｌＥａｅｈｆｅａｔｕｒｅｇｒｏｕｐａｎｄ氇ｅｉｎｔｏ肌ｅｄｉａｔｅｃｏｎｃｅｐｔｃｏｍｐｏｓｅｔｈｃｓｔｒｕｃｔｕｒｅｏｆｍｅｄａ上ａｂａｓｅ． ‘睾。毡硝ｅｒ￡ｏ

ｅｏｒｒｅｓｐ∞ｄｉ矬ｇ

ｅ蝴ｅｌｆ强ｌｅｓ蠡ｏ｝珏ｉｎｅｏｆ珏参ｌｅ把ｄ越ａｗｉ氆。波ｉ我轴潍蘸Ｏｎ基氍趱ｉｏ珏，

ｄａｔａｉｓｐｒｃ）ｐｏｓｅｄｉｎｔｈｉｓｄｉｓｓｅｒｔａｔｉＯｎ．

ｄｅｃｏｍｐｏｓｉｔｉｏｎａｐｐｒｏａｃｈｉｎｉｎｃｏｍｐｌｅｔｅ

ＦｉｒｓｔｌＭｔｈｅｔｅｍｐｌａｔｅｉｓｓｅｌｅｃｔｅｄａｃｃｏｒｄｉｎｇｔｏ

￡ｖ砖珏鑫圭主珏ｇ纯ｎｏｔｉｏｎｏｙ蕊ｉ穗ｓ醢ｂｓｅｔ

ｉｎｃｏｍｐｌｅｔｅｄａｔａｓｔｅｐｂｙｂａｓｅｄ

ｗｉ氇盛建ｍｉｓｓｉｎ鐾ｖａ圭ｕｏｓ

ｂｅｅｘｔｆａｃｔｅｄｉ酗ｍ

ｓｔｅｐ．Ｓｅｃｏｎｄｌｙｔｈｅｉｎｔｅｍｌｅｄｉａｔｅｉｎｃｏｍｐｌｅｔｅ

ｃｏｎｃｅｐｔｉｓｄｅＶｅｌｏｐｅｄ

ｒ。ｕ幽ｓｅｔ也ｅｏｒ艾ｗｉｔｈｗｈｉ浊也ｅ

ｉｎｆｏｍｌａｔ主ｏｎ

ｄｅｃｏｍｐｏｓｅｄｔｏｓｉｍｐｌｉ各ｔｈｅｍｌｅ

ｓｅｔ．髓ｉｒｄ堍ｍｅ

ｒｕｉｅｓｅｔｏｂ￡ａｊｎｅｄ洫ｔｈｉｓａｐｐｒｏ囊ｃｈ

ｍａｋｅＩａｙｅｒｅｄｄｏｃｉｓｉｏｎａｎａｌｙｓｉｓｍｏｒｅｅｆｆｉｏｉｅｎｔ．Ｌａ８ｔｂｕｔｎｏｔｌｅａｓｔａ

ｓｔｅ鼬专ｌｌｒｂｉ轻ｅ

ｉｓｐ￡ｅｓｅｎ协ｄ

｛ｌｌ毽ｓ１芏ａ专ｅ｛ｈｅ

ｄｅｃＯｍｐｏｓｉｔｉｏｎ

ａｎｄｔｈｅ『ｅａｓｉｂｉ｛ｉｔｙｏｆｔｈｉｓＩｎｅｔｈｏｄｉｎｄｅａｌｉｎｇｗｉｔｈｔｈｅ

ｉｎｃｏｍＤｌｅｔｅｄａｔａｈａｓｂｅｅｎｖｅｒｉｆｉｅｄ．５．ｉｎ徘袅ｎｙｄｏｅｓｎ’ｔｇｅｎｅｒａｔｅｔｈｅ稚ｌ＾ｂｕｌｅｓ

ｐｒｏｃｅｓｓｅｓ，氇ｅｐｒｅｓｅｎｅｅｏｆｍｏｒｅ

ｉ薹ｌｆｏｒｍａｔｉｏｎ璐＿ｌｌ器王王ｙ

ｃＯｒｒｅｓｐｏｎｄｉｎｇｉｎｃｒｅａｓｅｉｎｐｅｒｆｂｒｎｌａｎｃｅｏｆｃｌｕｓｔｅｒｉｎｇｂｅｃａｕｓ０ａＨ

ｔ∞８ｔｅｄ醛ｅｑｕ啦ｌｙｌｍⅨ蠛ａｎｔｌｎ也弧ｄｉｓｓｅｒ￡ａｔｉｏｎ，ｗｅｐｆｏｐｏｓｅｄ

ｓｏｌｕｔｉｏｎｔｏｉｍｐｒｏｖｅｔｈｅｑｕａｌｉｔｙｏｆｃｌｕｓｔｅｒ主ｎｇｔｈａｔｉｓａｌ盛ｏｒｉｔｈｍｂａｓｅｄ６．下ｈｃ

ａｔｔｒｉｂｕｔｅｗｗｅｉｇｈｔｅｄｃｌｕｓｔｅｒｉｎｇ

ＲＳＴａｎｄｔｈｅｉｎｆｏｍｌａｔｉｏｎｔｈｅｏｒｃｔｉｃａｌｒｅｆｉｎｅｍｅｎｔｐｒｏｃｅｓｓ．ｏｆｔ疆缸ｉｎｅｍ嚣爱ｅｔｈｅ

ｃｏｆｎｐｌｉ雠￡ｅｄｓｔｆｕｃｔｕｆｅａ｜３蠢磕ｅｖ强斌ｉｏ珏∞轴ｐｉｅｘｉｔｙ

ｆ犯１ｔｈａｖｅｔｈｅｃｈａｒａｃｔｅｒｉｓｔｉｃｏｆｍｕｌｔｉ．ｈｉｅｒａｒｃｈＭｒａｎｄｏｍｉｚａｔｉｏｎａＪｌｄｉｎｃｏｍｐｌｅｔｅｉｎｆｏｍｌａｔ｛Ｏｎ．Ｗ音ｕｓｅｔｈｅｆｂａｔｕｒｅｓｅｌｏｄｉｏｎｍｅａｓｕｒｅｂ８ｓｅｄｏｎＲＳＴｔｏｓｅｌｅｃｔ娃１ｅ

ａｐ静ｒｅｃｉａｔｅ始ａｔｕｒｅｓａｎｄｔｏｄｅｖｅｌｏｐ瑚船ｌ畦－ｈｉｅｒａｒｃｈｙｆａｕｌｔｄｉａ盛ｎｏｓｉｓｍｏｄｅｌｉｎｍｉｓｄｉｓｓｅｒｔ８ｔｉｏｎ．Ｃｏｍｐａｒｅｄｗ“ｈｍｅ

ｍ蠢瘩毫ｉｅｒ科豳ｙ狂糟拯ｌ

ｓｈｏｗｓ趣ａｔ糖ｅｆｕｌｅｓｈａⅣｅ赵ｉｇｈ

ｓｕ嚣喀ｒ￡ｄｅ影ｅｅＡ鞋ｄ专圭ｌｅ

ｈｉｅｒａｆｃｍｃａｌｆａｕｌｔｄｉａｇｎｏｓｉｓｍｅｍｏｄｉｓｅａｓｙｔｏｕＩｌｄｅｒｓｔａｎｄｆｏｒｉｔｓｓｉｍｉｌ船ｉ够ｔＯｔｈｅｒｅａｓｏｎｉｎｇｗａｙｏｆｈｕｍａｎｂｅｉｎｇｓ．Ｆｉｎａｉ｛孔ａｂ矗ｅｆｉｎｔｈｉｓｄｉｓｓｅｒｔａｔｉｏｎ．

ａｎｄｓｏｍｅ＆ｔｕｆｅｒｅｓｅａｒｃｈｄｉｒｅ。ｔｉｏｎｓ甜ｅ

ｈｉｇｈｌ逸量ｌｔｅｄ

ｍｉｎｉｎ孙ｒｏｕ曲ｓｅｔｔｈｅｏ阱ｉｎｆｏｒＨｌａｔｉｏｎｔｈｅｏｍ

ｄｅｃｏｍｐｏｓ撼ｏｎ

ｃ∞ｇ捃｛王ｃｔ至。强

ｉｎｆｏｒｍａｔｉｏｎｓｙｓｔｏｍｆａｕｌｔｄｉａｇｎｏｓｉｓ，ｔｕｒｂｉｎｅＶｉｂｒａｔｉｏｎ

塑盔兰竖！：堂望笙兰第一章绪论

绩惑爆炸或镶患泛瀵蹩当今数字纯褪会覆簸躲一令蠢大摊竣單在１９８２
年，趋势大师约翰?奈斯比（ＪｏｈｎＮａｉｓｂｉｔｔ）在他的巨著《大趋势》（Ｍｅｇａ廿ｃｎｄｓ）

【ｌ】孛载掇到：“人类歪被信息淹没却瓿溺子知识”。诗舞辍硬转技拳懿稳定进步为人类提供了大董的数据收榘设备和存储介质；数据库技术的成熟和普及已使人类积累煞数据鬟正在以搬数方式增长；搬把ｍｅｔ技术的出现和发艘使得网络上的各种餐源信息异常丰富【２】邈些丰富的數据资源背厝隐藏着极为豢要的、枣先未知的、具有潜在的有用的知识。阀堪是如何才跳发现这魑知

识传统信息处溅工其穰经不能遮到這一要求，入们追稍地需冀一种新的技

术和工具以便从火量的数据中智能的、基动的抽取出有价值的知识或者信息～个薪抟研究领域――数据挖掘疲运而生。１９８９年８月在第１１届国酥人工智能联合会议（ＩＪＣ艇）的专题研讨会上，首次提出基予数据库的知识发現（｝国Ｄ融ｌｏｗｌｅｄ姆Ｄｉｓｅｏｖｅｆｙ法转ａ舡Ｉｂａ∞）菝术。该技术涉及梳器学习、模式

识别、统计学、智能数搭库、知识．获取、专家系统、数据可视化和高性能计葵等矮域技术难度较大，一对麓鞋庭键信塞瀑炸豹实辩霭要１９９５年，在荛园计算機年会（ＡＣＭ）上提出了数搬挖掘（ＤＭ，ＤａｔａＭｉｎｉｎｇ）的概念

数罐笼攥是数据麾聚识发蠛过程中魏最必关键静步骤，咜是一个簌大量数据

巾抽取挖撷出未知的、有价值的模式或者规律等知识的复杂过程［３４】。

１．１数据挖掘技术的产生背景

数据挖掘的诞生、发餍、应用是多种因素共同作用的结果一方面，商业上实际经鏊管理懑动提出了对藏炊智能（Ｂ毛Ｂ麟瓤ｅｓｓ

ｌ矬抛ｌｌｉ黜）毂嚣求

搬ＢＩ作为一种帮助企业达到经营目标的～种有效手段。另一方筒超大规模的数据库的如现、先进的计算机技术以及糠罙的计算能力蛉出现为数器挖掘技术的产雏提供了充足的技术背荣。

｛．１．１商业需求分析

数据擦摇之群疆蔽霉｜专家学餐翡研究菇趣氍萼｜超裔鼗厂家麴广泛关注主要在于大型数据系统的广泛使用和把数据转换成有用的知识的迫切需要。商

照餐就静壤念爨零是Ｇａ擞燃Ｇ∞ｕｐ手１９粥年挺滋来豹囊穗将鬻犍警裁定义

为～类由数据仓库（或数据集市）、查询报表、数据分析、数据挖掘、数据备

份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。数据挖撅技

术是实现商业智能豹一项荧键技零ｔ它把先进豹信息技术应用到攘個企业不仅为企业提供信息获取能力，丽且通过对信息的开发将其转变为企业的

竞争优势，也有入稼之为游淹毽莽中静智熊

叛的畿求推动灏的技术蛉诞生。数据撩握鲍灵魂是滚层次鲍数据分援方

法数据分析是科学研究的基础，许多科学研究都是建立在数据收集和分析

基础上的同时在目前的商业活动中，数据分析总是和一些特殊人群的赢智

商杼为联系起来函为并不是每个平常入都能从过去的销售凊况预测将鬻鼍发

展趋势或作出正确决策。假是随着一个奄业或行业业务数据的不断积累，

特剜是由予数据露豹普及入工去艇理窝魏解如诧大豹数疆源已缀存在效率、准确性等问题。因此探讨自动化的数据分析技术，为企业提供能带来商业裁澜豹决繁结惠露成为登然事实上，数据（Ｄａ＿娜、信息锄ｆｏｒｆｎａｌｉｏｎ）和知识（１函ｏｗｌｅｄｇｅ）可以看作楚广义数据羽不同表现形式【Ｓ】随着数据瘁技术与应掰的日盏酱及，人们面滔着快速扩张的数据海洋而隧前所拥有的传统的数据分析手段无法肖效地为决繁髫提供供箕决策支待辑鬻要豹稳关知识，获两警致了“数据丰鬻丽信怠贫

乏”现象的产生【６７１。直观上说信息或称有效储息是指慰人们肖幫助的数据。躲识怒一耱穰念、矮粪｜ｊ、模式蠲蕊律等它不会蒙数糖或信惑酃么其俸，

但感它却是人们一赢不懈遗求的目标事实上，在我们的生活中人们只是

恕数据蓍蛰；是形成皴识懿源泉。我髓是逶过王瑟静或反瑟翁数撵袋信惑采形成和验证知识的同时又不断哋利厢知识朱获得新的信息。因此随着数据

静澎骚窝技术嚣境躲进步，太粕对联樵决策窝分孝嚣等裹级绩惠处溪熬要求越来越迫切在強大的商业需求的驱幼下，商家们开始注意到有效地解决犬容

量数据的摹ｌｊ矮阚题其毒巨大的亵枧｛学者镪瑟始慰考据俘放大容爨数爨集孛

获取有用信息和知识的方法因此，在二十世纪八十年代厢期产生了数据

仓黪和数攒挖掘等馕患处璞思想。

｛｛．２技术蜚景分橇

任何技术的产生总是有它的技术背景的。数据挖掘技术的提出和普遍接受是由于计算机及萁耨关技术静发震为其穗供了研究秘应褥鹣技術蒸础归纳数攘挖掘产生的技术背景，下蕊一烂相关披术的发展起到了决定饯躲

?超大数摆摩瓢及数援仓瘴豹爨璎

浙强失学博士：攀位论攵

大规模数据摩尤其是数据愈库的出现。促使数据挖掘得到遇速发展与应

掰在美系鍪数攥库豹磷究帮产龋夔舞过程串，入靛一羟在探索组织犬整数据和快速访问的相关技术高性能关系数据库引擎以及相关的分布式鸯询、

势发控割等技术瓣使焉，已经提辩了数糖疼豹藏矮能力数据念痒作为一种新型的数据存储和处理学段，被数据库厂商普遍接受并履相关辅助建模和管

壤王具快速疆囊帮场箴蔻多数擐潺集簸戆一黪有效煞技寒支撩繇凌。绞靠计算机自动收集的各种业务处理数据使许多大规模数据库或数据仓摩拥有

大墨的业务数撂、枣場交像数撂，使数掇挖掘搜零有了赖鞋生存熬基硝燕

聚没有这魑大规模数据库，很难想象数据挖掘技术对什么进行挖掘 ?建逶豹诗算凝技零计算机技术在过去的短短几十年内得到了快速的发展，尤其怒近几年的网

络技术和并行楚疆体系豹发展使入雷臻Ｈ有计舞熊力更强、运算速度嚣快的计算机体系结构。以前需要大量时间、人力的工作现在只要很少的时间和火力藏可毅解决了。往大蠢酶管疆久爨褥激籍蠡邑静耩力捩繁黧豹两常倍怠处理工作中解脱出来有时间、柯能力对激增的数据进行高层次的分析，从

中寻找鄹蓬怼企簸凌略发震其鴦爨要塞义豹裔效筑律帮蠢场趋势这些先透

的计算机技术水平成为促进数据挖掘技术发展的第二个黧要因素。 ?对数据挖箍的耩深诗算辘仂

大规模数据的挖掘需骚复杂盼、藏濒黝计算能力这魃精深的计算能力主要基于统计学、集合论、信息论，认识谵和人羔智能等备种学科理论这些

数据挖掘方法和技术形成了许多舆有特点的应用领域。也正是这些精漾计算畿力成为促进数据挖掘诞生和发矮的中坚力量

洇此可以说，数据挖掘技术是僖怠搜拳发展到一定阶段的必然产甥是捐

有大规模数据库、高效的计算能力、有效的计算方法和商业需求囲同作用下

的必然产物，是从存放农数据库、数据硷库或其他信息麾的大擞数据中挖掘

１．２数据挖掘概念１．２．１知识发现与数据挖掘

知识笈现是识潮出存在予数据痒中有效豹、薪颡静、其有潜在价值静并最
终可理解的模式的非平凡过程［７】

从技术角度看，数据挖掘是从大量蛉、不完全的、有噪声的、模糊的、随枫的实际数据串撬取隐禽的、先前未知的并有涛在价德的信息的非平凡过

程。在上述嘚定义中数据一般是指一个攀实集合；模式燎指以一种语言对事实的一个予集的描述；过摆在Ⅺ）Ｄ中通常是一个多步过程，是通过对所瓣数

据库进行～定的预处理、采样和转换根据确定的测量指标和阈值，用数据挖掘方法撼取辨识出需要的知识有效是指所发现的模式对颓数据具有一定

程度的正确往；新颓是指模式登须是薪豹。至少怒对该系统丽言照掰的；潜在价值是指模式应该导出～些有用的操作；鼹终能理解是ＫＤＤ的目标就是

产生久类黥够瑾解髓模式麓敦了鼹数裾豹潜在意义鹜，４】

从上鲻的定义珂以看如，知识发现是从數据库中发现知识的全帮过程露

数据挖掘嫩全部过程的一个特定的、关键步骤，怒指应用特定的弊法从数据

中提取模式ＫＤＤ的全过程定义攒述如图ｌ。ｌ所示ｆ９’１０１

图ｌ。ｌ知谈憋撼全过程示意描述

由图中可以看出整个知识发现过程魁由若干挖掘过程组成，数据挖搁仅是冀中瓣一个主要步骤瞧在工敛、媒嚣、数据瘁磷窕领域中，“数据挖掇”

一测已被广泛使用和普遍接受不加区分地表礻整个数据挖掘过程【ｌｌ】。也有人滋Ⅺ）Ｄ在人工智能界蹩流露；ＤａｔａＭｉ穗培在数据库嚣使是更多。

｛．２．２数据挖掘的任务

数据挖掘的主要任务是对数据库中的大量业务数据进行抽取、转换、分析

和模型化处理从中提取辅助决策的关键性数搬和隐藏的预測性信息。它能发握数爨闻潜在耱模式筏密久稍可戆熬略的蕊意，浚便虢哥瀵勰帮鬟察麴

形式反映给用户并给出基于知识的决策分析意见和结论。数据挖掘的四种蒸本任务懿下【ｌＯ撞】：汇总（ｓｕｍｍａｒｉｚａｔｉｏｎ）；其嗣的是对数据进行浓缩。给出它的緊凑描述数据挖撼主要关心获数搽泛亿静角度来讨论数攒总结。数据泛能建一种把数据库中的有关数据从低屡次抽象剃高层次的过程

汾类（ｃｌａｓｓｉ煮ｃ酞ｉ∞）：分类怒数据稳搁中一疆非常莺簧的任务，萁謦的是学会一个分类函数或分类模型（也称作分类器）該模型按照事先定义的标准，

搬数据瘁豹数据颁陕旁孛副给定粪羽中的菜一个潮对数据进行鞠类。分炎的方法有统计方法、机器学习方法、仿生学方法等聚粪（ｃｌｕｓｔｅｒｉｎｇ）：怒把一缎个体按照相似性归纳成若干类划，即“物以类聚”它的目的是使属予同┅类别的个体之间的距离尽可能地小，两不同类剐的个体间的距离尽可能邈大与分类方法的鞠显不阊之处在于，分类所学习获取分灏预測模型所使用的数据是已知类别归属属于有教师监督的学习方法；褥聚类分橱属予茏教舜箍餐的学习方法关联觌则（Ａｓｓｏｃｉａ畦ａｎＲ姓ｌｅ）：关联摁则用来发现一缒项囊之间的关联关系和相关荚系。一条形如Ｘｊｙ的关联糯刚可以解释为；满足Ⅳ的数据项也缀鈳能会满足ｙ关联可分为箍单关联（例如，购买面饿的顾客中有９０％的入同时购买牟奶）、时序关联（铡如若ＡＴ＆Ｔ股票连续上漲两天且ＤＥＣ殷蔡不下跌，则第三天ＩＢＭ股票上涨的可能性为７５％）和因果关联关联性问

熬是鼗器挖掘孛研究魄较成熬静溺题。

｛．２．３数据挖瓣豹方法数攮挖掘懿结果逶豢表示为壤念（ｃｏ∞ｅｐｔｓ）、矮建＜孰ｌｅｓ）、痰德（ＲｅｇｕＩａ州ｅｓ）、模式（Ｐａｔｔｅｍｓ）、约束（ｃｏｎｓｔｒａｉｎｔｓ）和可视化（Ⅵｓｕａｌｉｚａｔｉｏｎ）

等形式这些知识可以豢接提供绘决筞麓，鼹以辏助决策过程：或者提供绘领域专家修正帑家已有的知识体系；也可以作为新的知识转存到应用系统

中作为决策支持的依据。数据挖掘方法包括［１０１３，１４】：数理统计、神经网络、模糊理论、粮糙集

壤论、遗镄算法、决策糖好纳法、蒙类法、分类法、涯撰莲论、爨远邻技术、规则归纳、可视化、云模型和数据仓库等这里我们讨论具有代寝性的几类：

●绕计分辑方滚藏要厢予完成关聯知识挖掘。对茨系表中各属性进行统计分析找到它们

之阉存在豹关系。在芙系表的藉性之间一般存在两种关系：①函数关系（熊期

甬數公式表示的确定往关系）；⑦相燕关系（不能厢醋数公式表示的关系）对它翻霹采建露癌分橱、槽关分丰厅、奎残分努衔等统诗分拼方法。 ●决策树耀于分类到弱壤息谂中售惑增益寻拽数据黪中县鸯娥大售惠黧戆字段，建立决策树的一个缩点再根据字段的不同取值建立树的分支；农每个分支子集中黧复建立下艨绻点积分支，这樽便生成一擐决策树接下皋逐爨对决鲮树进行剪枝处理，然后把决策树轉化为规则利用这些规则可以对新事例进

行分类。典戳的决策褥方法肖ｃ触疆ＩＤ３，Ｃ４５等。

●神经网络翔予分类、聚类等鉮经网络模仿生物神经黼络，本蔟上是～个分布式瓶黪结构它避过封训练数据瓣学溜逐步计算鼹络连接翡投穰。耱经褥络霹分碧戳下三釋：蔫镄式溺络：它瑷感甄撬、蔽海抟攘禳型、丽数窒黼络受代表可用于预｛９１ｌ｝、模式识别等方鞭。发馈式嘲终：宅以Ｈｏ努羲ｅｌ硅数离教模型秘连

续模避茭《弋裘分别月予联怒记忆纛铙纯计箕。鑫缝缀嬲络：它戳磁谨横型、

Ｋｏｈｏｎｅｎ模型为代表用于聚类。人工神经网络具真分布式存储傣息、并褥地处理信息和ｊ攘褥壤理、以及囊组织学习等特点髌决了众多用以｛堇方法缀滚解决的夶复杂度问题。恣镬臻襻经网络ｌ簿寄尼纛需婺注懑：一燕秘经掰络缀难熊释＝燕裤经潮络会ｊ挂学习，记住太多细节藤掩靛了熳锋性三是训练一个搴孛经阚络可能髓要提遗可鼹鹣对阉孝缝竞戏，霆是建立辨经翘终霭蘩鼗懿数据慈备至傣爨缓大要想得到准确度商的模型必须认真地进行数掇渣洗、熬瑷和转换工扮。 ●遗传算法溺于分类关联魏烫日挖掘等。遗传算法模援了自然选耩和遗传中发生的繁殖、交配和突交现象从任意一初始种群出发，通过随机选择、交叉和变弹操作产生一群薪瀚歪遥斑环境瀚个体，使稀群进纯弱搜索空闻Φ邃来越好的蘧域这样一彳弋代不断繁麓、遴化，最厢檄敛蓟～群最适疯环境的个体上求缮德纯懿鲻鼋廷集。 ●粮糙粲

用于数据约简数据意义的评估，对象相似娥差异性分析分类等。粗糙

集理论幽ｚ．Ｐａ＿ｗｌ威在ｓＯ年霞提蹬蔫予憝瑾不确定经。买体肉察在苐＝牵中进行详细介绍 ?可视纯技术可巍化技术绽爆户熊交互式媳、壹溅地分叛数壤，势耀壹戏图形将傣息模式、数攒的关联戚趋势黧现給决策者可视化技术将人的观察力和智能融合

入挖掘系统，极大地改善了系统挖掘速度和深度其中分类算法作为数据挖掘中应用领域極其广泛的璧器技术，又包括决策樾分类冀法（包括ｃ４５冀法、ｓ糙Ｑ算法移ｓＰＲ烈Ｔ算法）、Ｂ８ｙｅｓ分类簿法（包括ＮＢ算法和＂Ｎ算法）、基于关联规则的分类算法（ｃＢＡ算法）和基予数据瘁技术的分类算法（包括ＭＩＮＤ雾法积ＧＡｃ－ＲＤＢ算法）等ｆ１５】。

’２。４数据挖撼的王舆与应用

数据挖掘软件的发展经历了四代［１６】；第一代数据挖掘软件支持一个贼少

数死个数疆挖掘算法茭数据一般一次缝调迸内存避孽子处理，多用于商渣系统这种系统并不能适应大容量数据的操作。ｓａｌｆｏｒｄ

ｓｙｓｔ蝴ｓ公司翠期的ｃＡＲＴ

蓉绕裁耩予这穆系统蘩＝代数据挖掇软｛孛系绕与数据鬻警瑾系统（ＤＢＭＳ）集

成，支持数据库和数据仓库與它们具肖商性能的接口，具有较高的可扩展谯麓够挖握夫数据集激及矍复杂懿数据集魏囊维数豢。第二代数据挖掘软

件系统典型的代寢有ＤＢＭｉｎｅｒＳＡｓ／Ｅｍ删ｓｅ

Ｍｉｎｅｒ。第三代数据挖獭系统

憋特点爨期预砉模型系统之闽能够窭理光缝戆集藏使褥虫數据挖掘软传产生的模型的变化能够及时反映到语言模型系统中。它能够挖掘网络环境下

Ｉｎｔｅｍ利Ｅｘｔｒａｎｅｔ）的分毒式和鼹喥异质的数据并且能够有效她积操馋型系

统集成。菇缺点鼹不能支持移动环境ｓｐＳｓｃｌｅｍｏｎｔ西ｅ就是属于这一代的产

懿。苐四代软件斑能够挖掘嵌入式系统、移动系统和普遮存在的计算设备产

生的各种嶷型的数据第四代数獭挖掘原型或商业系统尚未见报道。

霹藏蘧羞毅豹挖撼纂法毂鼹究彝开发，第一代数撂挖掘系绞仍然会出

现．第二代系统怒商业软件的主流部分第二代系统开发商开始研制相应的第三代数据挖掘系统，第四代数提挖掘琢型或窝、监系统尚未见搬道数据挖掘工具按箕应用范围分有两类：特定领域的数粥挖掘工暴和通用韵数据挖掘工具［１７】。

特定领域的数据挖掘工具针对某个特定领域的问题提供解决方案在设计

算法的时候，充分考慮到数据和箍求的特殊性弗进行优化。对馁何领域都可以开发特定的数据挖瓣工其；例如，ＩＢＭ公嗣的Ａｄｖ班ｎｃｅｄＳ∞ｕｔ系统针对ＮＢＡ的数据帮助教练优化战术组合［１８】；加州理工学院喷气推进实验室

与天文晕荨攀家舍｛睾开发豹Ｓ搿ｃＡ＝ｒ系统，它将图像处理、数舔分类、鼗据库

管理等功能集成在一起能够自动地对数字天空豳像进行搜索和分类，帮助天文学家燹好蟪磅究类星髂懿形藏瑷及睾鬻字富懿结梅ｆ１３】｛芬兰赫尔辛蘩大学计算机科学系开发的ＴＡ８Ａ帮助预测网络通信中的警搬等等。特定领域的

數据楚援王暴钟霹链邃较疆炙§§燕予～耱痉曩；也歪蠢为锌对瞧强，｛妻德

采用特殊的算法，可以处溅特殊的数据窳现特殊的目的，发现的知识Ｗ靠度魄比较裹【１７１９】。通用的数据挖搠工具不区分具体数据的食义它采用通用的挖掘算法，处

瑾攀觅熬数攥类型簸新编耋的盛褡矮竣来看，邃鎏逶爰嫠翔谖笈现工其又

可划分为三大类：商业工典、公用系统和科研原型系统ｌ，商业工其商业工鼴是由商业供成商开发具有较强实际应用能力的知识发现工具。

它稻霄罄定静定徐秘完善豹技术支持还往往提供数据挖掘咨嘲服务。這一

领域内的数据挖掘正具数擞还在不断迅速增加主要的产黼实例脊：

ＳＡＳ怒磁（嚣唧矗鼯Ｍ主ｎ嚣｝）

ＳＰＳＳ／Ｃｌｅｍｅｎｔｉｎｅ

》１８涮ｌ鼬ｅｌｌｉｇ￡珏ｔ髓箍嚣

０ｒａｏｌｅ／Ｄ甜ｗｉｎ

ＳＧＩ／ＭｉｎｅＳｅｔ

公用系统往往部分由科研机构开发，作為一种肖效的免费软件凝孪主要

镶予有：》新两兰Ｗ射ｋａｔｏ大学的ｗ酞ａ》华撼顿大学瓣Ｂ穗静 ≯斯煅福大学的ＭＬＣ＋＋３．科磷原型系统秘研原戮系统出～些秘磅枫搀浮发，主要蛇铡子毒：

加窜大ｓｉｍｏｎＦｒａｓｅｒ大学的ＤＢＭｉｎｅｒ

≯北爱尔兰ｕｌｓｔｅｒ大学的ＭｉｎｉｎｇＫｅｒｎｌ

》中国科学院计算技术研究所智能信息处理重点实验室的多策略知识

发现平台――ＭＳＭｉｎｅｒ

目前，还有许多开发者在开发通用可靠的数据挖掘工具新的应用工具将随着新的挖掘技术的出现而不断地产生。数据挖掘系统已成功哋用于超大型数据库（ＶＬＤＢ）的知识挖掘并且被

广泛地应用于商业领域（包括企业市场营销和风险评估等）、银行业、生产销

售、零售业、制造业、经济业、保险业、政府、医药业、电信业、公司经营

管理、天文学和空间科学、生物工程、ＩＮＴ肼洙ＥＴ信息挖掘、笁业制造领域

和自动控制系统和体育界等各个众多领域。

１．２．５数据挖掘的挑战与未来的研究方向

在数据挖掘研究和开发取得令人瞩目的进展的同时数据挖掘面临的技术性挑战也摆在了研究者面前。具体有下述几个方面［１９―２４】：１）挖掘算法的效率和可扩展性目前，ＧＢ数量级的数据库已经很多ＴＢ数量级的数据库也开始出现。大型数据库中存有成百个属性和表成百万个元组，问题的維数很大因此，毖须通过增加知识发现过程中系统和用户的交互既要充分利用领域知识除去无关数据，降低问题维数对挖掘数据进荇

有效的额处理，又要利用领域知识进一步精炼所发现的模式滤除囟搜索空

间过大可能获得的无用信息，从而设计出更理想的知识发现算法２）动态数据挖掘（数据挖掘方法的递增性）。数据挖掘出来的知识只是相对于某一时间的某些数据的，新的数据可能使发现的噺知识与原来的知识冲突这是因为数据挖掘的基础是归纳逻辑。而归纳是一个非单调过程因此结合非单调逻辑的理论，设计具有动态性的数据挖掘方法也是其实用化的一个基本要求３）适应多种数据类型、克服数据丢失和数据噪声的挖掘方法。随着计算机网

络和信息嘚社会化数据挖掘的对象已不单是关系数据库模型，而是分布、异构的多类型数据库数据丢失和数据噪声等现象越来越突出。这也是數据

挖掘面临的困难问题４）重视专家参与和领域知识的指导。在数据挖掘过程中知识的校验、挖掘数据范围的限定、冗余的排除、領域知识的指导都是不可缺少的。当前的数据挖掘工具的人机交互能力还十分有限相关的背景知识也未得到充分利用。５）互联网络上嘚数据挖掘（ｗ曲Ｍｉｎｉｎｇ）互联网络日益普及，已有一些数据挖掘工具可用来发现含有关键字的网络文本目前的问题是，如何從复杂的数据例如多媒体结构化的数据中提取有用的信息；对多层次数据库的维护；

以及如何处理数据的异类性和自主性等【２５］。叧外数据挖掘结果的可理解性和私有数据的保护与数据安全性也是数据挖掘面临的重要问题。当前数据挖掘和知识发现研究方兴未艾，预计在本世纪还会形成更大的高潮研究焦点可能会集中到以下几个方面： ?智能的、有效的、可扩充的数据挖掘方法的研究仍是研究的熱点； ●发现语言的形式化描述，即研究专门用于知识发现的数据挖掘语言也许会像ＳＱＬ语言一样走向形式化和标准化；

●寻求数据挖掘过程中的可视化方法，使知识发现的过程能够被用户理

解也便于在知识发现的过程中进行人机交互； ?研究在网络环境下的数据挖掘技术： ?加强对各种非结构化数据的开采，如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采

１．３论文的研究内容和结构安排

智能的、有效的、可扩展的数据挖掘方法的研究是当前研究的热点，涉及数据的问题包括海量数据、缺失数据、冗余數据、噪声数据以及动态数据等粗糙集理论从新的视角对知识进行了定义；把知识看作是关于论域的划分，

从而认为知识是具有粒度（ｇｒａｎｕｌ捌锣）的；认为知识的不精确性是由知识粒

度太大引起的为处理数据（特别是带噪声、不精确或不完备数据）分类问题提供了一套严密的数学工具，使得对知识能够进行严密的分析和操作采用粗糙集理论［２６】作为研究知识发现的工具具有许多优点：曹先，粗糙集理论提供了一套数学方法从数学上严格地处理数据分类问题尤其是当数据具有不完备性或不精确性时；其次，粗糙集理论仅僅分析隐藏在数据中的事实

并没有校正数据中所表现的不一致性，而是一般将所生成的规则分为确定与

可能的规则：第三粗糙集理论包含了知识的一种形式模型，这种模型将知识定义为不可区分关系的一个族集这就使得知识有了一种清晰的数学意义，并且可使用数学方法来分析处理；最后粗糙集理论不需要关于数据的任何附加知识。因此本文基于粗糙集理论，针对数据挖掘中常见的海量高维问题、数据不完整问题以及模型可理解性差问题从高效性和可理解性方面进行了数据表分解算法研究，并通过实例对算法进行验证；通过引叺信息理论与粗糙集分析结合使用对加权聚类方法进行了研究。具体研究内容与论文结构围绕以上问题展开

１．３．１论文主要研究內容

本文的研究内容针对数据挖掘领域存在的问题，基于粗糙集理论提出并主

要研究了几种数据挖掘方法――三种数据表分解方法和一种加权聚类方法

论文的主要研究内容和结构如图１．２所示。１）三种数据表分解算法：在数据挖掘过程中直接在原始数据表上进行数據挖掘往往效果不佳，尤其是在数据量较大的情况下因此，对数据表进

行变形然后在变形的基础上进行挖掘是一种行之有效的方法。夲文分别从

数据挖掘中存在的海量高维数据、噪声数据、不完整数据以及模型的可理解性差等问题出发针对数据挖掘过程的具体问题，汾别提出了三种数据表分解算法针对从海量数据库中提取的规则数目多、有效性低、规则长度长的缺点，本文利用粗糙集理论从提高汾类正确性以及子数据表纯度的角度出发，提出了一种粗糙集属性选择量度基于此提出一种数据表分解方法。利用信息理论证明了利用該属性选择量度选择出的属性集是原属性集的一个约简并证明了基于粗糙集数据表分解算法的时间复杂度远小于经典粗糙集约简算法，茬提高计算速度的同时不会损失信息量针对海量高维数据表中建立分类模型困难，且得到的分类模型可理解性差难以解释的问题，本攵从属性构造的角度出发基于粗糙集理论，提出一种属性分解方法来识别数据表中的中间概念层次建立多层分类模型。本文提出了基於粗糙集的一致性搜索指标利用一致性指标来重新标定中间概

念层次。这样就把原数据表分解为小型数据表分层次进行分类而且由于Φ

间概念层次物理意义分明，使得模型的可理解性大为增加文中还给出了具体的时间复杂度分析，并对模型的分类能力和层次结构分别進行了测试和分析针对不完备系统中数据不完整的问题，本文提出一种不完备信息系统分解方法不需要事先对系统进行完备化，而是基于粗糙集模板评价函数选择模板利用模扳逐层从不完备系统中提取出完备子集，然后利用粗糙集理论来构造中间变量依据中间变量汾解不完备信息系统，最后利用得到的规贝Ｕ集逐层进行推理和决策分析文中还以汽轮发电机组振动故障数据为实例给出了该方法的具體实现过程。２）一种聚类算法：本文提出了一种基于粗糙集相似模型的加权聚类方法以及基于信息论的类提纯方法先把各个属性特征嘚初始权值设为１，利用粗糙集相似模型形成初始等价类、然后根据信息熵理论对属性特征进行评价利用互信息熵值对各个属性进行加權进行重复聚类，最终得到满足聚类要求

的模式类３）一个实际成用：针对汽轮发电机缝掇动的复杂性使故障其务多层次性，

随机性的特点本文利用数据表分解算法中提出的粗糙集属性选择量度，建立了褪糙繁分瑟藏簿诊酝横鳖；掇该模登实际痘鼷蒌ｊ汽轮发电辊缀振動液簿

诊断中并与一般粗糙集故障诊断模型进行了对比，验证了该模型的有效性

图１．２论文的主要研究内容和皴构图

如图１．２所礻，本文安排如下：

第一章缝论：本寒首先放囊业嚣求窝技术骜景嚣方瑟分缓了数攥挖掘产奎的背景然盾给出了数据挖掘的概念和主强研究内容，评述了数据挖掘的主

要方法＋篱分了数掇挖掘的难点彝主要硬究方囱；最嚣分缀了本谂文碜｝究悫容和结构安排黎二章粮糙集毽论基础知谀：零章分缨了耀糙袋理论鲍～些基本壤念，包

括知识表达系统、不可分辨关系、榘合的上、下近似、知识的约筒和核、知

識的依赖性等：麓介了粗糙集理论的特点和粗糙集理论扩鼹模型并介绍了

粗糙集理论研究现状等。第三章至第六章以及第七章针对数据挖掘中常见的数据问题提出了三种数据表分解算法，通过对原始数据表进行分解变形然后在变形后的数据表上进行数据挖掘。其中第彡章主要解决了海量数据表中提取规则数目多有效性低的问题；第四章通过构建中间变量，建立多层分类模型提高了模型的可理解性；苐五章解决了信息系统中数据不完整的问题；第五章和第七章通过汽轮发电机组振动实例对算法进行了验证第三章基于粗糙集的数据表汾解方法：本章首先基于粗糙集理论，从提高分类正确性和子数据表的纯度的角度出发提出了属性选择量度，进而为了消除噪声数据的影响提出了分解过程终止量度来减小规则长度。文中从倍息理论的角度证明了利用该属性选择量度选择出的属性集是原属性集的一个约簡并且时间复杂度小于经典粗糙集约简算法。通过对ｕｃＩ数据库的若干数据集的实验和算例分析证明了该数据表分解算法的有效性苐四章基于属性分解方法的多层分类模型：与第三章从属性选择的角度分解数据表不同，第四、五章从属性变换的角度通过构建新的中間变量来进行数据表分解。本章首先分情况讨论了属性成组然后利用信息熵来衡量属性组的重要度，并利用基于粗糙集理论的两个评价指标一一致性指标和最小值指标来识别中间概念层次文中讨论了该算法的时间复杂度，并利用来自ｕｃＩ的若干数据集从分类能力和模型结构两个方面对该方法进行了验证和分析第五章不完备信息系统的粗糙集分解方法：通常的数据挖掘方法是在数据预处理阶段，将不唍备信息系统通过各种方法进行完备化这使得原始数据和知识存在不同程度的失真。针对传统方法的不足本章利用模板从不完备信息系统中选择完备子集，在完备子集上进行利用粗糙集来构建中间变量分解数据表以简化规则文中还把该方法应用到汽轮发电机组振动故障诊断数据中，利用该方法来解决汽轮机组故障诊断过程中的数据信息不完整问题第六章加权聚类算法：正确选择对于聚类重要性大的特征，对于提高聚类效果是非常重要的基于此本章利用粗糙集相似模型形成初始等价类、然后根据信息熵理论对属性特征进行评价，利鼡互信息熵值对各个属性进行加权进行重复聚类最终得到满足聚类要求的模式类。通过利用来自ｕＣＩ的数据集测试发现该算法在分類率和各模式类的纯度上均有明显的提高。第七章汽轮发电机组振动的粗糙集分层故障诊断方法：本章利用第三章提出的粗糙集属性选择量度来分解数据表建立粗糙集多层故障诊断模型，最终得到诊断规则集通过实例把粗糙集分层故障诊断模型和一般粗糙集故障诊断模型进行对比，验证了该方法的有效性高模型简单实用的特点。

第八章总结与展望：对全文的工作进行了总结并且提出了若干相关的继續研究的方向和工作展望。

数据是对謇躐事物熬藩毪、数藿、整甏或它翻之阕静鞠互关系豹形式表示熄各种信息的载体。但照自然界中夶部分事物所呈现的信息都是不完熬和含

糊豹奁经典逶瓣中，只有奏馁＝俊之分嚣蔼无法对藏类蠢髓进行舔确戆

描述。长期以来许多邏辑学家和镭学家都致力予研究含糊概念昂在１９０４年

谬漏逻辚熬剖始入＆Ｆ掉窭ｅ戴提感了含糊（ｖ曩静ｏ）一词，缝壤含凝性爨終裂边界线上即在会域上存在一些个体，它既不能被分类别某一个子集上也不能被分类到该子集的於集土。ｌ蛞５年荚国控臻《论專家ｚａｄｅｈ提出了Ｆ啦ｚｙ集［２７】，许多计算机科学家和逻辑学家试图通过途一理论解决ＧＦｒｅｇｅ撼出的

念糊问题但Ｆ毗巧集没有绘出数学公式描述这～含蝴概念，无法计冀出它的舆体的含糊元素数目

１９９２年波兰数学家ｐａｗｌ威ｚ。锋对娃Ｆｒｅｇｅ麴透赛线区域零懋提出了糇

糙集理论。粗糙榘作为研究不完烂数据殿不精确知识的寝达、学习、归纳的一套毅的方法把哪些秃法确認的个体都魍属于边界线嚣域，褥边界线区域被定义为上近似集和下：ｉ曛似集之麓集出于它有确定的数学公式描述，故含糊元素的数目是可以计算的即在真假二值之阉的含糊发是可以计算的。１９８２年ｚ．Ｐ拼ｗｌａｋ发表经典论文Ｒｏｕ曲Ｓｅｔｓ宣告粗糙集悝论的诞生［２８］。扶本质上羲该疆论反映了谈躲避程奁≤｝确定、嚣模型傣惑趁理方嚣的撬铡和特点，是一种脊效的ｊ＃单调推理笁具９０冬代蓑嚣，由予该瑾论京数据静决策帮分辑、模式援嗣、橇嚣学习与知识发展锋方面的成功应用才逐渐引起了世界各国学衡嘚广溅关注。１９９１

零Ｐａｗｌ鑫ｌ￡Ｚ．弱专著《糍糙集――关予数据攘理瓣理论》【２９】均翊蓬，系统全

面地阐述粗糙集理论奠定粗糙集理论严密的数学基础，标志糟粗糙集理论及其应鼷瓣研究遴入了溅跃时期成为壤糙集理论硬究鲶第一个里程牌。１９９５姩ＡＣＭｃｏｍｍｕｎｉｃａｔｉｏｎ概括地介绍了作为目前人工橱能应用新技

术懿疆燧集理谂钓蒸本獠念爨及它在撬嚣学习、决繁分褥、翔谚；｛发瑷等颁域

的具体研究项目嗣进展，并将粗糙集列为新浮现的计算机科学的研究课题

１９９６年在秘本东京稿开第嚣霾鋈舔耩糙集、模赣集与机器学习国际研讨

会，这是第一次猩亚洲翻开的较有影响的粗糙集研讨会推动了亚洲地区对

粮髓集理论与瘦薅ｌ懿磅究。我国疑丸十年代开黧了瑟稳糙集理论麴醑究主

要集中在对它的数学性质、有效辫法的研究，如粗糙集理论的知识表选、知

识约简算法、粗糙逻辑等为了促进这一理论在中国的发展，中国计算机协

会人工智能与模式识别专业委员会于２００１年５月在重庆召开了苐一届中国粗

糙集理论与软计算学术研讨会。目前粗糙集已成为信息科学最活跃的研究领域之一，同时该理论还在医学、化学、材料學、她理学、管理科学和金融等其他学科得到了成功的应用。
知识是对某些客观对象的认识为了处理智能数据，需要对知识进行符号表礻知识表达系统就是研究将对象的知识通过指定对象的基本特征和特征值来描述，以便通过一定的方法从大量的数据中发现有用的知识戓决策规则

２．１．１知识表达系统

知识表达在智能数据处理中占有十分重要的地位。形式上四元组ｓ＝（［，４，矿／）是一個知识表达系统【２６】，其中ｃ：对象的非空有限集合，称为论域：爿：属性的非空有限集合；ｙ＝Ｕ圪屹是属性ａ的值域；口Ｅ』厂：ｕ×４寸ｙ是一个信息函数，它为每个对象的每个属性赋予一个信息值，即Ｖ口∈爿工∈ｕ，（ｘ，日）∈圪

知识表达系统也荿为信息系统。通常也用Ｓ＝（ｕ爿）来代替ｓ＝（ｕ，４矿，）。知识表达系统的数据以关系表的形式表示关系表的行对应要研究的对象，列对应对象的属性对象的信息是通过指定对象的各属性值来表示。粗糙集理论的知识表达系统可用信息系统或称属性一值系统表示信息系统类似于关系数据库模型的表达方式，ＲＳ理论在其上定义了约简（ｒｅｄｕｃｔ）

和核（ｃｏｒｃ）等概念这样知識就可以用数据来代替，知识处理可由数据操纵来实现特别是概念可用属性一值来定义，从而给知识发现提供了有力的工

具决策表是┅个特殊的信息系统，它在规则发现中扮演了较为重要的角色

定义２。ｌ：决策系统（有时又称决策袭）是一个有序二元组』一（以ＣｕＤ）

这里ｕ怒一个对象的非空有限鬃台，称为论域；Ｃ和Ｄ分别为条件属悛集和决策属性集对象豹特征囱条件满性描述，而决策属性表示了该对象的分类决策属性Ｗ能表示专家根据条件属性所撼述的情形所作的分类、采取的行动或决策。凝视器学习意义上说决策表被用作学习一个幽条件属性产生的摇述到由决策属性确定的分类的映射。通常这个映射表示为一个决策规则（分类器或

决策算法）的集合。觚船Ｄ意义上说这些决繁溉羹８集莲一个掇述来囊应南

２．１．２知识表示形式

知识液示主要有以下几种表水形式：１）。基于邏辑的知识表示：亦即数瑗逻毒荤（会题逻喾积谬谣逻骥）来表示知识这种表示方法是最早的一种知识表示模式。它简单、自然、灵活、模块化程痰高、理论严谨、表达能力强缺点是袭达的是浅层知识，不翳表达过程帮稿发式知识且难以管理，其证明过程易发生“组匼爆炸”

２）。产生式规则：一种依援人类大脑记忆模式中餐种知识块之间大量存在的因

槊关系或“条件一行动”式用“ＩＦ．ＴＨ料”塑瀚产生式舰则来袭示知识。该

方式的突出优点怒规则之间相互独立模块化好，形式简单自然容易理解，方便接毽产生豹结果鴦可逆经。３）．语义网络ＯｕｍｉａＪｌ提出的谮义网络悬用标记导Ｉ句图涞表示概念、对象、以及它稻的特注茅霸关系。它壹蕊清強後予理解ａ４）．框架结构：可以把对敷的所有知识存储在一越构成的复杂数据结构。它反浚了太类遽过一般往舞谈去谈谖个裂事携豹特煮

５）．面向对象的知识表示：指采用基于信息隐蔽和抽象数据类型概念的筒向对

象方法慕表示知识，它熬褒毒黟实钵郡攒逮藏对潒该方法羹装缝好、篷次ｔ生强、模块化程度高，又有很强的表达能力

一个好的舞谈表示形式必矮熬备下甏凡令条释：重煮突蠢、聚統中翔专爻的

易操作性、简明方便、人机交互、抑制不必要的细节。在粗糙巢理论中主要袋臻产生式漫剐翔谈表示

２。２褪糙集理论的基础知识

粗糙集理论是灏向人类认识知识的数学学科认为知识悬人类对对象避幸亍

分类的能力，不可分辨关系是精髓集理论中的最蘸本概念在诧麓础上，粗

糙集理论引入上近似和下ｊ驻似等概念来刻画知识的不确定性和模糊性：引入

约麓帮求核送行熟识兹纯麓等诗髯

２．２＋｛不可分辨关系

定义２＋２：在系统ｓ＝＜玎，叠）中对于艿≤＿，瓣露在秽土翡不可分辨关系定义为

ｚ＾移（Ｂ）＝｛（乇屯）Ｅｕ×ｕｐ（而）＝６（而），Ｖ６∈丑｝＝ｎ刀旧ｐ）

鑫这墨，它瞧是一耪震蠖关系二元缓建Ｓ一＜Ｕ，热移（够＞撩或一个近經塑阑对于任意属性集雪篡Ａ，￡上的不可分辨关系弘∞（露）也是一种等价关系。定义２．３：对于对象ｘ《ｕＢ《爿，ｘ关于Ｂ的等价类定义为

【ｘ】目＝｛ｙ《ｕｌ（ｘｙ）匿彻（艿）｝

它袭示爨鸯与盖不霹分辨的对象职缀残抟集会，抉勾话说是盘聋浃定鯪等爨类。

定义２．露：等价关系热移（动把Ⅳ翻分为老个不籀关静等价类滋称为关予嚣的蒸本集，记ｕ／ｚ＾『Ｄ（嚣）＝｛置…，五｝袭示关系三＾『Ｄ（秘在ｕ上浆等份类

２．２．２集会的上、下近似

定义２．５给定知识库Ｋ＝（Ｕ，Ｒ）和Ｕ的分类Ⅳ／月對每个子集ｘ￡Ⅳ，楚以下嚣令集合分鬻称为搿鹃霆下遥餐帮冀上遥镶

丛＝Ｕ｛ｘ∈ｕ：【ｘｋ￡并｝，即当且仅当Ｂｋ互膏ｘ∈艘。

砑＝ＵＯ∈ｕ：【ｘ］ＲｎⅣ≠辨即当且仅当【ｚ］。ｎｘ≠庐ｘ∈勋。

浙敬犬学搏ｔ学位论文

星爿是剥用知识皿，ｕ中所荫确萣地属于爿的元素的集合；姒是利用知

识矗Ⅳ中所有Ｗ能属于Ⅳ的元素的集合。有了嚣下遮戳彝矗上透镁静定义下嚣套缮疆域、受蠛稻边赛城豹定义：定义２．６

我们把集合Ｐ瞩（搿）＝蹦称为搿的胄正域：把

凇Ｇ。（ｚ）；ｕ一艄称为Ⅳ的冀负域；把丑Ｋ（Ⅳ）＝砝┅蟹称为并的边界

正域珊。（爿）或工的下近似是那些对于知识矗能完众确定地属于爿的对

象的集台类似她，负域ⅣＥ瓯（搿）是那魑对于知识Ｒ毫无疑问不属于Ⅳ的对象豹集会它程楚属于戈豹｛｝繁。透器域是菜耱意义主论域戆不确定城对于知识月，属于边界域嘚对象不能确定地划分是属于ｘ或是一爿ｘ的上近锻是｜主｝菸些对予知识震不戆攘除它们属予盖的霹能毪爨黠象构戏浆；扶形式上看，上近似就怒正域和边界域的并集

强２．ｉ褪糙集概念示意图

２．２．３翔识辩麓亿和核

在实瓣应鼹中，躲谖瘁中是否骞些帮努懿颤谈愛冗衾豹霹戮遥遘冀稳躲

识或者知识的组合来等价地表示。因此我们经常要在保持知识库中初镣范

瞬的’跨况下瀵去冗余基零范畴，避嚣知淡蛇楚纯要慰翘识进纷簿恁，我艇需要做如下的定义：

令霆必一等份荚系族ｒ基ｒ∈发姿执◇（震）。烈Ｄ（曼一｛ｒ｝ｂ熬ｒ为足巾可

省略的否则，为Ｒ中不可省略的

当对予任一，《霞著震不可餐硌，剿旋震为独立的如栗蠢是独立的，ＪＰ譬月则Ｐ吔是独立的。在用属性集Ｒ来表达论域知识时寅独立意味麓属

性爨晕的每一个属性都是必不可少的，它襁『以独立地表达一组知识分类

定义２．７当Ｑ猛立，９￡Ｐ且热秽（圆＝执移（Ｐ）翔Ｑ为Ｐ的篱约（Ｒｅｄ嚣ｔ），用ｒｅｄ（Ｄ表示获褥麓约的过攫穆为终楚（Ｒｅｄｕｃｔｉｏｎ）。

显然Ｐ可以肖多种简化。中所有不可省略关系的集合，称为尸的梭记为ｃＤｒ口（Ｐ）

定义２＋８全幫蕊约熬交巢定义瓷Ｐ静核（Ｃ。ｆｅ）∞瓣（Ｐ）＝ｎｒｅ《均

核的概念的用处有两个方蘧：罄先它可以作为掰有篾化的计算藻磴，洇为核包含在所有的简化之中并且计算可以赢接进行：其次核可以这样理解：当知识化筒时它是不能消去的知识特征部分的集合。

２．２４知识的相埘简化捆相埘核

在实际的应用过程中，我们常常需要考察一个分类相对于另一个分类的关系这藏涉及裂籁谖豹耩辩籁往鞠糖辩梭麓概念。嚣要了解知瑷鹃褶对麓亿
和相对核的概念我们还要先明确一个分类相对另一个分类的正域，即相对正域戆撅念定义２．９

Ｐ和Ｑ为ｕ中的等价必系族，则集台Ｐ啤（Ｑ）＝【ｊ蹦称为Ｐ

并ｔ孑地ｒｅｇｉｏｎ）ａ

的Ｑ正域（＿Ｐ―ｐｏｓｉｔｉｖｅ

集匼妒嬲（２）是遥遘翔谚｛Ｐ，Ｆ孛掰寄确定蟪属予甄识盆魏蠲等蓬晦豹

对象的集合；表示论域口中遇过分类ＵＰ袭达的知识确定地屬于分类Ｖ，Ｑ酶
对象的集合定义２。ｌＯＰ秘Ｑ戈∥中戆等俊美系羧当

Ｐ以薯。㈣（胁田（Ｑ））＝ＰＯｓＭ（ｎ㈦】（ｚＭＤ（Ｑ））时称ｒｅＰ为Ｐ中相对Ｑ冗余的

（Ｑ―ｄｉｓｐｅｎｓａｂｌｅ），否则，为Ｐ中相对Ｑ非冗余的（Ｑ－ｉｎ矗ｉ华ｅｎ蜘ｌｅ）

定义２．１１当Ｐ中每个，都为相对Ｑ非冗余时称．Ｐ为Ｑ独立

（Ｑ－ｉｎ如ｐ％ｄｅｎｔ）。当Ｓ为Ｐ的Ｑ独立予族且Ｐ０嚼（９）＝Ｐｏ昂（②时，剐族

Ｓ≤ＪＰ稳戈Ｐ黪Ｑ蕊终＜Ｑ．Ｒ蠢∽ｔ＞当必须利用熬个知识尸来划分对象到Ｑ的初婷范畴时，知识Ｐ为Ｑ独立的定义２。１２Ｐ中赝有棚黠Ｑ非您余的关系族称为Ｐ的Ｑ核（Ｑ－Ｃｏｆｅ）记为ｃｏｒｅ。（Ｐ）ｃｏｒｅ。（Ｐ）桊ｎｒｅｄｏ（ｐ）

其中ｒｅ屯（妁隽尹中掰有盆麓约懿集会Ｐ的Ｑ核是知识Ｐ中最基础的部分，漕去它裁会减少把对象划分入初等

僦畴Ｑ的能力知识Ｐ的Ｑ简约是尸的最小子集，它为知识Ｑ的初等范畴提

供了与全帮知谖≯穗嚣懿对象分类往後于有不止一个终筒。

呮有一个Ｑ筒约的知识｜Ｐ从某种意义上说是～种确定性知识，即当使用Ｐ的

初等范畴划分对躲到Ｑ的初等范畴时只能有一种途径：洏在知识Ｐ不确定

酌清况下，一般肖多种Ｑ篱约黼照知识豹不确定往和多种篱约是同义语。最优简约的确定依赖于与属性相关的爨优准則的确定如果能够对属性指定一个代价函数，选择禳自然鲍就以最小代价为准则在缺少属性代价函数的情况下，选择最优简约的唯一根据是信息系统【３０】在税糙集理论中，麓约的属靛褥是最终导高的分类蕊剐应该考虑的藏性所以，简约中的属性个数越少就意菋饕与它相应的分类规则所考虑的因素

越少。勇岁｝影稍分类麓聪豹勇一个因素是简约中疆性镶静组合数，在篱约

中的属性个数相同的凊况下组禽数越小，则与旗相应的分类规则就越少｝沁ｘ，｝｛．提窭最饶篱终翡概念最筑麓绞是攒倍惠系统中其鸯簸小满牲个

数嘚简约：如果商多个简约同时具有相同的最小属性个数，那么属性傻组合数最小黪楚终为最馕麓终。在这一雄剿下褥裂懿最饶麓绞魄稱之免滠小

２。２５翔识戆馕鞍蠖

上面我们介绍和研究了知识的简化和相对简化的过稷。要进行知识的简化并觚一绘定熟识串导懑勇┅知识，还需要研究数据露中蘧数乏潮豹依赖性关系

要进行知鼋筵的麴筵，势麸一个绘定聚浚串导爨隽一期谖登须磅究数据

库中函数の间的依赖性关系。当Ｑ懿爨有秘簿菠跨弼以用户中豹蘩蹙拐等藏畴定义潜赠翔谖Ｑ怒腹

知识尸中可导的。当Ｑ从知识Ｐ中Ｗ导时称Ｑ依赖予户，记为ＰｊＱ依

赖性可形式化地定义如下：

定义２，１３令足＝（∥震）为一知识库，臣ＰＱ蒜畏。当烈联Ｐ）墨弱ｏ（岔）

知识Ｑ依赖于知识Ｐ；当，黯Ｑ且ＱｊＰ知识Ｐ和Ｑ是等价的，记为Ｐ；Ｑ；

当不存在ＰｊＱ且不存在ＱｊＰ，Ｐ和Ｑ是独竝的

疆然，恣盈汉巍蚤国＜翰∈２期堙）誊尹等Ｑ

知识的部分依赖性表明知识推导也可以是部分妁，即肖部分炙霹识Ｑ怒可

以由Ｐ推導的部分可导悭可用知识的正域来定义。为了度量知识的依赖性我们形式化地定义部分可导性

定义２．１４令髟＝（Ｕ，Ｒ）为一知識库且Ｐ，Ｑ蓝Ｒ

惫＝芦（尹ｊＱ）＝ｎ（Ｑ）＝三圣：紫

鄹称知识盆可敬由知谖尹毒浚可导（Ｏ≤孟≤ｉ），记律Ｐ号≈Ｑ其中，

踟矗（．）表示取集含中元素泌个数

当七＝１时，称Ｑ是由Ｐ完全可导的；这表示决策表为一致的或确定的
当Ｏ＜七＜１，称Ｑ是甴粗可导的；当七＝Ｏ，称Ｑ是由尸完全不可导的

魏粱尹ｊ；Ｑ，可簿记为Ｐ∞Ｑ

知议的Ｗ导性可以解释为针对对象的分类能力。准确地说当彪＝ｌ，论域的所有对蒙酃可以通过知识尸划入Ｕ／Ｑ的范畴：当＿ｊ｝≠１只有属于正域的对

象可通过知识尸划入知识９的范畴；特别地，当七＝０论域中没有对象可以通过知识尸划入知识Ｑ的范畴。由依赖性定义可见当ＪＰｊ。Ｑ则由知识Ｑ导出嘚分类ｕ／Ｑ的正域覆盖了知识库中ｔ×１００％的对象；另一方面，只有属于Ｕ／Ｑ正域的对象能被分类，即女×１００％的对象通过知识Ｐ划入Ｕ／ｇ的初等范畴。因此，七也称为Ｐ对Ｑ的逼近度（Ａｐｐｒｏｘｉｍａｔｉｏｎｑｕａｌｉｔｙ

ｗｉｔｈｒｅｓｐｅｃｔ

ｔｏ尸）【３２］，简称，标准

是衡量知识［／尸对Ｕ／Ｑ划分质量的绝对标准。

２．２．６属性的重要性

在信息系统中属性的重偠性是指属性对分类的重要性。在讨论不同的问题时属性具有不同的重要性这种重要性可在辅助知识的基础上事先定义，并用“权重”表示粗糙集理论中，不使用任何先验的信息给出一种基于数据的客观度量对于决策表，＝（ｕｃｕＤ），我们可以评估一个属性口∈ｃ的属性重要陛。正如前面所述ｙ（Ｃ，Ｄ）表示属性集Ｃ和属性集Ｄ之间的依赖程度即用ｃ来描述Ｕ／胁∞（Ｄ）的近似程度。因此我们可以通过当把ｄ从Ｃ中除去时ｙ（ｃ，Ｄ）的改变来衡量属性盯的属性重要性即考虑

ｙ（Ｃ，Ｄ）一（Ｃ一｛口），Ｄ）

我们对该差值进行正规化变换后有：

定义２．１５决策表∥，ＣｕＤ）中口∈Ｃ的属性重要度定义为：

ａｃｃ．。（盯）＝兰‘曼羔望２；；铲＝－一错

我们可以将系数盯（口）理解为当属性口被除去时，所发生的分类错误率

属性的重要度系数狠容易扩展到麟性集嚣≤ｃ的璧臻性量度：

如果嚣是ｃ的约简，那么盯（Ｃ一口）＝Ｏ即表示出去条件属性的任何约简

的幸｝集掩不影睫传溅决策。对上述属性重要性鲍獠念进一步扩震可嗷耀于

称为将嚣作为ｃ的近似约简的错误率，它表承用属性曰表示ｃ的确切程

度ａ因越可以烽雪蘩终ｅ黪５一近似约燕（嚣一卸ｐ｝溉ｉｍ《ｎＲ戚娃ｅｔ）。遥钕约

简的概念魑前面所述约简概念的推广在实际应用中，近似约简的概念比精确约箍概念更具有爱活性粒实用性

决策表（移，ｃｕ功孛黟，热粉（《）＇秽弱∞（Ｇ），，醪热溺≤Ｇ）｝表示象释

屬性ｃ＝｛ｑ，ｃ２．．．，ｑ｝把论域划分为的各自等价类相应的用｛ｑ，２，．ｑ｝表
示，用埘）寝示ｕ／胁ｒＤ（Ｄ）等價类ＤＰ５（ｑ）表示条件属性ｑ的等价类的取值

执ｓ（固表示决策满性Ｄ的等价类ｄ的取值。一条决策规剐就可定义为

Ｄ口ｓ（ｃ１）＾ＤｅＪ（ｃ２）＾…＾―Ｅｋ占（ｑ）＝粤Ｄ已ｓ（ｄ）

定义２．１６令【ｘ】ｃ表示满足胁镪）一￡睡ｓ娩）＾…＾貌ｓ（靠）静等徐类【棚。

满足Ｄ船（奶的等价类那么定义上述规贝ｑ的置信发为：

ｎ［ｄ】Ｄ）。一ｃ掰１ｄ（［ｚ】ｃ【‘一―――“…”’―――――――……”‘―――一ｅｆ≥矗（【ｘ】ｃ）

定义上述规则的支持度为：

浙姐＝火学博士学位论文

，：嫂型！【苎！￡Ｑ［塑垒２

这肘决策规则可敬霹为：

Ｄ８占（ｃ１）＾执菩（ｃ２）＾…＾ＤＰｓ（％）＝ｊｏ辞ｓ（ｄ）（饼?ｊＯＯ％）

当决策规则从决筞系统中提取时，为了考察这些规则的分类性能我嬲

威该在来知类剐的对象上进行分炭性能评估。一种在实际应用中简单黹实用

１）警將分类器用于新对象静分类时我稻首先在规爱Ⅱ集中爵我可应用豹

规则，即找那些其条件与该对象相匹配的规则；２）鞠粟没有上述静瓶菇剃在镶练集主最颓繁出琥静分类络栗俸为新对象的分类：３）黧莱多予一个畿刘禳莲酝，羁依次颈示装有多予一个萄熊静分类；４）随后将选举法（ｖｏｔｉｎｇ）运用于这些规则集中，以便解决冲突

２．３粗糙集理论的特点２．３．１知识的分类观点

粗糙集理論（Ｒｓ理论）是若于知识，特别怒关于不精确知识处理的一种毅的数学理论它的要点是将知识与分类联系在一起。寝认识论范畴浅知识是人类实践经验的总络和提炼，具有抽象和普遍的特性而分类是鏊于对现实或抽象的对象进行分辨的能力。在糨糙集理论中知识被认为是～种对

对象进行分类静能力，翔识莛密对象论城静分类模块组成的它疆供关于现

实的明显枣实，同时也具有由明显事实推导出模糊事实的推理能力在粗糙集理论中，对数据的划分采用近似空间的办法即用上、下邋似集食来分类样本空间。假定我们起扔对全域嘚元索具有必要的信熙或知识能移通过这麓知识将其划分戮不同的类剿。若我稍对两个元素其有相同的信息则它们是不可分辨的，即根据已有的信息不能够将其划分开盟然这也是一

摹孛等价关系。不掰分辨关系是ＲＳ瑾论豹最基本槭念程貌基看鑫』二雩｛入戒员关系、上近似和下避似等概念来刻函不精确性与模糊性。假定给定对象的一个

非窑有隈全域ｕｚ∈ｕ称为Ｕ上的一个概念。概念的族集是Ｕ上的知识ｕ上分类的族集（即等价关系的族嶷）成为￡，上盼一个知识瘁墩就是说，概念即是对象的集合知识库即是分类方法的集合。

２３。２瓤型的成员关系

粗糙集理沦与传统的集合理论宥着相似之处但是它们的出发点完全不潮。话统集合论试为一个集会究全是霾ｉ其元素掰浃定，一个元素要么麟于

这个集合要么不属于这个集合，即它的隶属函数∥＠）譬｛ｏ，ｌ｝模糊集合对

此做叻拓展，它给成员赋予一个隶属度即∥，（ｘ）《［Ｏ１】，使得模糊集合麓够

笼遴一定瓣模鞍车瓣不确定数据毽楚箕模糊隶藩浚豹确定继经买奄大为嚣索，

这给其应用带来了一定的不便而且，传统集合论和模糊集合论都是把隶属

关系终为琢媾攮念来处理褰会豹勞巍交裁建立套箕元素懿滚属凄撤曩Ｘ露搬泣

操作上，因此其隶属度必须事先缭定在粗糙集中，隶属关系不褥是～个原

始概念因照无囂人为给元素摆定一令隶瓣度，从露避免了主戏嚣素的影响而且Ｒｓ认为，不确定性与成员关系有关而模糊性则表现在集合本身。设

蓋羹Ｕ虽ｘ∈Ｖ元素ｘ与集会ｘ之阉豹隶藩关系函数定义为

段（ｘ）：坚星ｇ越，其中冀是不可分辨关系圈。表示不可分辫关系曩产苼静

包含元素茁的等价类显然有Ｆ，（ｘ）ｅ［Ｏｌ】，这里的隶属关系是根据已有的知识分类客观计算出来的而不是主观给定的。

知识的粒度性怒造成使用已有知识不能精确她表示菜黧概念酌原因这就

产生了所谓的关于不精确的边界思想，Ｒｓ理论中的模糊性就昰一种关于边界的概念郎一个攒糊豹概念其有摸糊的不可被鹗确划分静边界。为刻画横糊

性每个不精确概念由一对称之为下近似与上菦似的精确概念来表示。集合石

静下近钕魏翕了可确切分懿到Ｘ的元素上近瓿鲻毽含了所有那黧可能麟于

爿的元素。上近似与下近似的差就是此概念的边界区域且它由不能肯定分类翻这个概念或箕静集中黥掰有元素整藏豹。显然著速赛簿窒荑疆集台菇裁是一个模糊概念，则模糊性是由不确定性来定义的用上下近似和隶属函数逐爵定义袋Ｓ麓集合霍食关系与集会耪等关系等。【３３】综上所述采用粗糙集方法作为数据分析和知识发现的工具具有如下特点【３４】：

１）粮糙浆处理不确蹇陇问题不需要先骏知识。模糊集和概率统计方法怒处

瑕不确定信息的常用方法但这螳方法需要一些数据的附加信息或先验麴识，鲡模颧隶耩函数秘概率分布等遽鍪信意有时并不容荔褥翔。褪糙集分析方法仅利用数据本搿提供的信息冤须任何先验知识．２）藕糙集是一个强大羽数据分析工其，有着黟密豹数学基础它能袭达和处理不确定信息；能在保髑关键信息的前提下对数据进行化简并求得知识的最

小表达；麓谈到势评倍数销之阉豹依赖关系，揭示趣攒述篱单静禳式：能飘经验

数掘中获取易于证实的规则知识特别邋于智能控制。

３）藕糙集与攒糊集分剐刻划了不确定信患的两個方面ｆ３５】：糍糙集以不可

分辨关系为基础侧重分类；模糊集基于凭素对集合隶属程度的不同，强调集含本身的含颧经（ｖａｇｕｅｎｅｓｓ）．簌獠糙集静潇点看疆穗集合不能精确定义的原因是缺乏足够的论域知识，但可以用一对精确集含逼近粗糙集和模糊集這掰耪瑾论互穗豁究【３翻。辍犍集帮证据纛论也有一鏊褶置交叠之箍［３７】在实际应用中也可以相互补充。

２．４粗糙集理论扩展模型

基本糊糙集理论和其他处理不精确与不确定性的方法相比具宵独特之处然瑟仍然孬在罄莱些片磁性与不是之楚。蓬羲大多数残凌靛痿瘸，都麸不同的侧面对基本糨糙集理论进行丁拓广基本粗糙集理论是假设对于已知的对象全域糖有必瑟戋垦识戆越提之下鲍，是处悝会凝秘不确定性熬一转数举工嶷本质上可认为是一种三值逻辑（正区域、边界区域和负区域）。基零糖糙集毽论主要存在豹阉题是略８】：１）对原始数据本身的模糊性缺乏相应的处理能力；

２）对于糖糙集戆逮爨区域豹剿剡遭予燕单；３）糊糙集理论的方法在可用信息不完全的情况下将对象们焖类于棠～具

体簸类遗常分类是确定鲍，僵劳末提供数理统计中爨零用斡程～个给定矮误率的条件下将尽可能多的对象进行分类的方法而实筋中常常遇到这类问题。

因此在近几年的研究中出现了许多粗糙集的扩展模型。归纳起来有以Ｆ

漆类：代数凝糙摸模型【３９】、概率凝糙爨模型≯啄搂态逻辑粳髓集模型≯１】

和多值粗糙集模型［４２】这里重要介绍前两种模型。

２毒。｛代数粗糙纂模型

在代数粗糙集模型中主要考虑的是等价关系的扩展。如有Ｉ～粗等价Ｐ．穰等徐，两个论躐上豹糕等价、奄爾我数上韵糨等价、蒸于邻域麴程等价和
基于相似关系的粗等价等所有邈姥扩展模型，都集中在等价关系的扩展上

避免了Ｐ＆ｗｌａｊｃ静“强等徐”关系带来不镁，特爱燕在藩穆数据不宪整麓瀵况

彳弋数藕糙集扩麓模型中最其商代表镶的是蔫褶钕关系代替等价关系灝相

似粮糙集模型。相似粗糙集模型是Ｋｆｙｓｚｋｉｅ谢ｃｚ提出的【４３】在使用相似芙系

代祷糨糙繁台中静不可区分关系蠢，最圭簧酶交纯就是稻镞类不褥形成辩琢

集含的划分了各个等价类之间不再是完全区别的，它们之间是相互重叠的

类钕予等狳类，霹疆定義裰强集簿瑟莠翱菜个蟊褰ｚ奁耩幢集合露上糖钕

的集合盟＾靠（ｘ）。值得注意的是龇岷（ｘ）中的元素不一定属于同一决策类因

此还需定义相似决策类，即相似集对应的决策类集合出于硝｛娃集的元素著不一定属予圈一个决策娄，为数定义稳瓣吸收集子集Ｊ，￡ｕ称为相对吸收集如果对于每个＊∈ｕ，存在ｙ《ｕ与之相似并且其商同样熬决策蕊。显然稳对啜毅集可戳臻来遵行数据瀚减藕掰相钕集可

以很容易的定义正区域的概念。它就是所有包含猩决策类中的相似集的并依赖度帮终篱豹概念都可以类酝经典集合鹣方式意義。一个简单的相似关系可以定义为（其中＊代表不关心）：

ｆｃ（ｘｙ）嚣｛ｘ∈己，ｙＥｕＪＶ口∈ｃ，ｄ（膏）＝口（ｙ）Ｄｄ（苫）＝＋口ｒ埠（ｙ）＝幸）上式可以看出，相似关系很容易就退化成强等价关系

２．４．２概率粗糙集模型

禳率穗糙集模受主偠怒痘耀统计交囊送行近叛和约简豹。概率粳糙集模塑中舆型的是可变精度粗糙集模型（ｖａｒｉａｂｌｅＰｒｅｃｉｓｉｏｎ粗糙Ｓｃｔ，ｖｐＲＳ）

在数据集中存在嗓音等干扰情况下，经旗理论会由于对数据的过拟合而使

其对新对象的预测能力大为降低丽在实际應用中，噪寄是在所潍免的为增强粗糙集模型的抗干扰缝力，ｗ．Ｚｉａｒｋｏ提出了一种称之为可变精度粗糙集模型［４０】该模型给出了错误率低予预先给定值的分类策略，定义了该精度下

的正区域、边界区域和负区域讨论了此定义下的有关燃质。Ｌ

化从而拓廣了ＶＰＲＳ的应用范围。下颟扼要介绍ＶＰＲＳ的思想

帮ｗｚｉａ成。遘～步疆交了不对称遍赛羚Ｖ争Ｒｓ模型【４４】使魏横垄受翱一般

一般瑰，集会并包含予ｙ并采反映氆集合ｚ驹元素耩于集合ｙ的“多少” ＶＰＲＳ定义了它的量度：

ＣⅨ，珍蓑示怒集合搿烟類予集台ｒ豹误分类庹帮裔Ｃ（盖，ｙ）×１００％豹元索赔类错误显然，ｃⅨ移＝０时骞盖≤王ｒ如此，可事毙绘定一错误分类率

∥（ｏｓ∥鬟ｏ．５）旗于上述定义，我们有肖亭ｙ当且仪当ｃ（爿，ｙ）ｓ芦

在此旗础上，设ｕ为论域且月为ｕ上的等价关系Ｕ／Ｒ＝｛墨，Ｋ…，Ｋ｝

这样，可定义集禽ｊ的∥一下近似为

部并＝ｕ｛ｙ售￡，置：ｙ囊９ｊ『ｏｒｅ（只邕）≤西

毛茗＝ｏ｛ｙ∈ｕ震：ｃ＿（ｔｘ）＜ｌ一多｝

这撵，疹一边秀区域藏定义势

哟菇＝０｛ｙ毫ｕ鬟：声＜ｅ（Ｌ舅）＜ｌ一多｝

以此类推，峩们还可以定义∥一依赖皮、∥一终筠等与铸统糕糙集模囊褪对应的概念可以看出，当卢＝Ｏ时ＶＰＲｓ模型就蜕化为传统的粮糙集模型，
＆ｐ粗糙集为ＶＰＲＳ的一个特例弱外值褥～提的怒，ＶＰＲＳ是粗糙集的直接扩

展它完全继承了粗糙集的性质，拥有糨糙集嘚所有优点并拓广了粗糙集理

２Ｓ基子粳糙集理论的数据挖掘方法磺究现状

粗糙集理论是一种处理不确定性信息的新型数学工具，是目湔最其奢挑

战往静领域之～在裰器学习、知识发现、决策分析、专家系统、决镶支持

系统、归纳推理、模式识别、模糊控制等方面，糊糙集理论提供了一种新的鼗学方法

晟近几年，粮糙集理论的应用研究得到了长足发展这里从几个方薅简述

褶关的应用【ｎ，４５】甴于在粗糙集的文献非常多，我们仅列举其中少数代表性应用

粗糙集数学性质方面的研究

粗糙繁数学性质方面的研究主要是对粗糙集理論中知识的不确定性问题

送行瑾论磷究【４６】，氇捂讨论糙獠黎代数缩稳和籀矜结褥【碡７】秘稳糙逻辑【４８

４９】，以及粗糙集嘚收敛性簿问题【５０】

对藕糙集的研究不断深入，它与其他数学分支豹联系瞧更粕最得紧密

例如，从算子的观点看粗糙集与之关系比较紧密的有拓扑空间、数理逻辑、模惫逻辑、辂与梅尔代鼗、葬子代数等｛跌构造谯帮集合麓麓点释，它与概率论、模糊数学、证据悝论、图论、信息理论【５ｌ５２】等联系较为密切。糨糙

集瓣理论戮究露要以这塑疆论｛睾为基磷潮薅氇鞠应蘧繁动了这慧理论弱發

纯数学理论与箍糙集结合静磷究导致了新静数学概念的出现，倒如“疆

糙逻辑”［４８，５５】、“粗糙理想”和“粗糙半群”［５４】等等随着粗糙结构与代数结稳、掇矜结梅、痔结梅等各耱结鞠静不断整合，必将推动穰糙集翳沃速发展ｆ２６１

２．５．２糊糙集模型拓展方面的研究

粗糙繁模型拓展方面的研究包括可变精度模型（ｖＰＲＳ，、协ｉａｂｌｅ

Ｒｏ毽馥ｓｅｔｓ）、楣戗模型（嬲善３８ｓｅ娃鞋ｓｉ懋ｉ｛蘸ｔｙＲ。耘蠡矬）窝连续溪蛙离数讫

模型。主娶解决租糙集应用于数据分析时遇到数据噪声、数据不完備和连续数提离敬化等目鼹。１．变精度模型在数据集中存在嗓声游干扰情况下，经典粗糙集会由于

对数攥戆过羧合瑟攘其对羧对象戆ｌ！囊溅能力大为簿低ｚｉａ蠡。提出一穆霹变精

度粗糙集模型ｖＰＲｓ该模型通过引入一个精度，允许粗糙集存谯一定的误分

类率姣两寝粮糙集合爨有一定豹客错瞧，增强蔡抗于挠能力【霹Ｏ】融嬲ｅｒｇ

和ｚｉａｒｋｏ进一步提出不对称边界的ＶＰＲＳ模型，從而使此模囊更加一般纯ｆ５６】陈湘浑等舞ｊｊ构造了一种新的扩展糨糙集模型，
在知识表幂系统和决策表中引入数据对黎的权值函數和属性的特征函数表示数据辩蓉静耋鬟往帮瘸经静祷健【５７ｊ。２．榴似模型为加强粗糙集的性能，Ｍ８ｆｚｅ黻Ｋ．提出用相姒关系来代替不可分辨关系ｓｌｏ谢ｓｉ（ｉＲ，迸一步阐述榴镦冀关系模型的定义和性质（４３】梁吉

此等证明在相似模型中，粗糙熵随着知识粒度减小面单调递减：有助于寻找

针对不竞备信惠系统的新的稚识豹简算法【５３】稿似美系代替精糙集合中的不可分辨關系后，最主要的变化就是相似类不再形成对原集合的划分相似模黧在实戥中其商院经典糕糙集摸鬻更菇的往能。王国藏抱相酝关系模羹虚弱于不完备信息系统的处理［５９】ｓ甜ｖａｔｏｒｅＧ等的综合分类法则涉及到三种关

系：不可分瓣关系，透纭关系纛决策关系文献【６０３遗一步致遗稳钕关系模型，

提高粗糙榘对噪声数据的容错能力３，逐续属谯离散健穰壅糕糙集只能处理离散型属经。毽燕在实黼应用

中经常遇到连续属性慎的情况，这就需要对涟续属性进行菜种离散化

Ｌｅｎ掰－ｃ矗Ａ．等挺一个信惠系统酶鼗伉分類褴矮，｛筝为选择离鼗纯静基本淼剜逑续属性的离散化，使粗糙集对离散和述续属性都能处理扩大了模型的应

鼹蓬蚕【６ｉ，６２】藩灌簿等鬟霆基予蕊惠演豹魏刘不确定瞧垂疫溺数｛奄遥了一

个决策规则挖掘的遗传算法，将规则挖摁与特征选取和连续属性的离散化集成在～起【６３】。

２５。３粗糙集理论鸯效算法方嚣的疆究

糨糙集理论肖效性算法方蘑的研究除一些熬零懿舅法夕｝【２９】，量蔻主要
集中于以下四个方面ｌ，警逛援弼瓣增量式冀法糖糙集舔有熬冀涟是在瓣定熬数据集上逡行的。当有新的数据增加到数據集时必须藿新计算全部现有数据熊再导出规则。增量式算法鼹对原鸯媛则进孬擎难从藤褥裂关于强数据集的溉则戆方

法（６４―６６］。另外动态约简算法得到的简约也具有很好“增量特｜胜”［６７，６８】

２。篱绞浆癌发式算法一令僖惑系统，我毽箕瑟鸯瀚篱约蔫ＮＰ完全润题【４０］很自然的想法是采用启发式【６９，７０】的方法找出最优或者次优简约这

类舞法的共同特点是利用屬性的整要性作为启发式信息，去求得简约只是

它们对属髋重要性酌量度不同丽己。

３粳糙篡基本运算黪并圣亍算法。耀糙集驰基本性爨决定它懿缎多基零运算都可以并行计算Ｍｕｒａｓｚ；【ｉｅｑｉｃｚＭ．采用格形数缀的ｓＩＭＤ计算机形式，提出实现粗髓集Φ诸如可定义性、不霹分辨性以及上、下近似这些蒸本运冀的并行近似络构（７ｌ】由于糕糙集研究的初衷就是试湖为处理大量数据提供一种数学工具，因此并行计冀的性质裁显得驰常重要。４．大数据集中的粗糙集计算实现由于粗糙巢在数据挖掘中县有较大的计算複杂发，受关联规则挖掘算法的启发有些磺究者掇蹬梅关联趣则的挖掘技巧应用于粗髓榘的确定和可能规则生成中，以减小藕糙集方法嘚计算复杂艘ｆ７２】文献ｆ７２―７５】讨论了决策袭分解方法来减小计算笈杂度。

２．５４粗糙集与其它皴能分析方法的融合

各種智能理论取长补短，相互结合可以实现不同的应用目的；糖糙集嗣群可良与嫫鞫集理论、释经网络、遗传箅法、穰念穆和涯据理论等其它智能理论结合，实现照强大和更优良的功能１．租糙集与模糊集理论。粗髓集与模糊集理论的不同之处在予它们分别刻划了不完备信息的两个方面【７６】：粗糙集以不可分辨关系为基础研究不同

类中的对象组成静集合之闯的关系，侧重分类；模糊集瑾论基于元素對集台

隶桶程度的不同研究同一类中的对象对集合的隶属关系，强调集合本身的摸嬲注糕糙集葙禳赣集缀合褥委“稽糙。模鬻集含”幫“模襁糖糙集合”。有关粗糙集和模糊榘内在联系的经热阐述、概念和应用参见文献【７７－８０】。２．糨獠集与神经网络租糙集和神经嗣络作为不确定性计算的两种羹要算法，它们都可以处理不确定和不精确信息；它们都不依赖于数学模型；它

们都建基予样本（对象）学习的等簿粮稳集和神经网络豹区剐主要存穗子

它们对样本的利用方式和对样本输入输出之间关系的表达方式。这两种不确

定瞧诗算靛特注其蠢较努鹣互孝｝毪霹戳攀ｌ蘑翟糙集稳遥辩经褥络，藏小弼络规模提离网络训练速度【８ｌ】；类似的还肖文献【８２＿８５】，贼利用粗糙集简化

毒孛经嬲络学习样本鞭糙祭簿辩经潮络之润遂霹戳置穗转换，使用能够取得非常好的数据分类效果【８６，８７】两耱方法缝合

３．穗稳集与遗传算法。遗传算法作为伉纯算法以其搜索速度浃、搜索范围广和鲁棒性能好等优点而得到叻快速的发展和应用。遗传算法能够结合

进粗糙集的简约计算可以快速搜索得到决策系统的简约。文献【８８―９２】正是

荚予这耱结囼方法翼钵安现静嚣论蒡矫，邃传筹法还蜀醵应溺予疆糙集中遮续属性的最佳离散化计算粗糙集应用于遗传薄法的结合方式比较少。利爰粳糙集｛事为信惠疆取按零爵黻套效邈提寒交置式遗健算法酌浚鳆憋，降低进化代数Ｌｉｎｇｒａｓ和Ｄａｖｉｅｓ研究了粮糙集和遗传算法的结合，提出了～种糕璇遗传冀法｝９３ｌ４．粗糙集与概念格。概念格是数据分析与规则提取的一种谢效工具＋但爨在實际癍震中凌予零蘩处瑾懿数箍是海萋鲍使褥直接基子獠念袼鬟凝蔑则的冗余度过大，造成机器计算时间和空间的浪费；而粗糙集在数據预处理秘不确定犍甄剿掇取等方露表瑗爨缀强弱伍势壤糙概念势褥躐楚Ｋｅｎ￡疆毫的一种粗糙集和概念格结合的理论。按照粗糙集概念格中的每个概念并不

都是霹定义的。困此可以摸镑辍辍集翡方法生成辨谡戆“上近能格”秘“下

近似格”并求得原来概念格到邋嘫近似的映}

我爱游戏网