rapidminer 破解中怎样过滤异常值

Rapidminer使用笔记
KNIMERapidminer
RWekajavapythonKNIME
Loop filesKNIMEList FilesTableRow To Variable Loop StartLoop End
Read CSV用于读取csv文件,Declare Missing Value用来什么缺失值符号,Replace Missing
Values用来进行缺失值处理,对于全部缺失的属性,使用Select Attributes节点可以进行移除,然后用Discretize by Binning进行离散化,Nominal to
Binominal转换为二值表,转换的结果为true和false逻辑值,使用Replace替换为1和0值,二值表转换的结果不知道为什么会有&属性=?&这样的列出现,使用Select Attributes节点去除:
KNIMERapidminerRapidminerKNIMEjavaRpythonRapidminerRRapidminerKNIME
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。Java机器学习软件介绍
- 解道Jdon
& & & &&& & &
  编写程序是最好的学习机器学习的方法。你可以从头开始编写算法,但是如果你要取得更多的进展,建议你采用现有的开源库。在这篇文章中你会发现有关Java中机器学习的主要平台和开放源码库包。
本节描述可用于机器学习的java环境或工作台。他们被称为环境,因为他们为执行机器学习任务提供了图形用户界面,但也提供了Java api供使用者开发自己的应用程序。
(Weka) 是一个机器学习的平台开发,由新西兰的怀卡托大学用Java编写的。提供一个图形用户界面,命令行界面和Java
API。这可能是最流行的Java机器学习库和最好的开始机器学习或实践的起点。
(KIME) 是一个德国康斯坦茨大学开发的分析和报告平台。它是关注医药研究开发的,但可扩展到一般商业智能。它提供了一个图形用户界面(基于Eclipse)和Java API。
RapidMiner
在过去被称为另一个学习环境(YALE),是由德国多特蒙德大学开发的技术。它提供了一个GUI和Java
API来开发自己的应用程序。它提供了数据处理、可视化建模和机器学习算法。
(ELKI) 是一个Java开发的数据挖掘工作台,由德国慕尼黑大学开发。它有一个专注于处理关系数据库的数据,用于异常值检测和分类(基于距离函数的方法)。它提供了一个迷你GUI,命令行接口和Java
下面是机器学习的库包,它们都有Java API,提供器学习在某个方面成就。
(Java-ML) 提供了一个用Java实现机器学习算法的集合。每个算法它都提供了一个标准接口,但是没有ui,没有相关引用以便进一步阅读相关的科学文献。它包括数据操作方法、聚类、特征选择和分类。
(JSTAT) 提供了标准的纯Java实现机器学习算法,包括small-ish问题。作者承认开发这个库包是为了自己修炼学习。然而算法列表令人印象深刻。它包括分类、回归、合奏、集群和特征选择方法。
Mahout (Hadoop)
提供了在Apache
Hadoop平台上(分布式使用map-reduce模式)使用机器学习算法的实现。这个项目提供了一个专注于聚类和分类算法和一个受欢迎的应用程序驱动实现,其针对推荐系统使用协同过滤。
MLlib (Spark)
提供了用于Apache Spark的平台(HDFS,但不是使用Map-reuce模式)实现的机器学习算法。支持Java平台,Scala和Python绑定。库包是很新,算法的列表也很短,但发展迅速。
(MOA) 是一个新西兰怀卡托大学为数据流挖掘开发的开源的平台设计。某些地方像Weka,它提供了一个GUI,命令行接口和Java
API。它提供了一长串的算法着重分类和支持异常值检测和解决概念漂移。MOA使用 (ADAMS) 作为管理工作流。
(SAMOA) 是一个由雅虎开发的分布式流媒体机器学习框架。它被设计为运行在Apache Storm 风暴和Apache S4上。系统可以利用MOA 所提供的算法如分类等任务。
自然语言处理
本节是关于从机器学习的分支称为自然语言处理(NLP)的Java库和项目。
是一个处理自然语言文本的工具包。它提供了NLP等任务的方法,如标记 分割和实体提取。
LingPipe: 是计算语言学的工具包,包括主题分类方法、实体提取、聚类和情感分析。.
(GATE) 是一个用于文本处理开源库。它针对不同的用例提供了一系列子项目。
(MALLET) 是一个Java工具包统计自然语言处理,文档分类、聚类、主题建模和信息提取。
Computer Vision(CV)
BoofCV: 是一个开源库用于计算机视觉和机器人应用程序。它支持功能,如图像处理,特征,几何愿景、校准、识别和图像数据
Deep Learning深度学习
本节列出使用神经网络和深入学习的关键Java库.
是一个机器学习库提供算法支持向量机等古典神经网络,遗传编程,贝叶斯网络,嗯,遗传算法
Deeplearning4j:
声称是用Java编写的商用深度学习图书馆。它被描述为兼容Hadoop并提供算法包括限制玻耳兹曼机,deep-belief网络和Stacked Denoising Autoencoders(SdA)。
| 网站地图 | 设为首页RapidMiner - 开源中国社区
当前访客身份:游客 [
当前位置:
RapidMiner
Orange Orange 是一个基于组件的数据挖掘和机器学习软件套装,它的功能即友好,又很强大,快速而又多功能的可视化编程前端,以便浏览数据分析和可视化...
@只是因为你 你好,想跟你请教个问题: 只想输出结果中带yes的,不带no的,有办法吗?谢谢
谁有这个软件的使用教程 现在急需 谢谢
你好。 我在用RapidMiner将数据进行分类,本来是分两类的,可是结果却出现了3类,所以我的正确率只有50%。我想问下有哪些原因会导致这样的情况出现。...
找不到我想要的答案?RapidMiner介绍以及常用问题
RapidMiner(前身是YALE)是一个十分流行的开源数据挖掘软件,它不仅提供了一个GUI的数据处理和分析环境,还提供了Java
API以便将它的能力嵌入其他应用程序。本文记录了基于RapidMiner开发数据分析应用程序时遇到的一些问题和解决方法。
BTW,选择RapidMiner而非WEKA的主要原因有两个:
1、RapidMiner对Java开发更方便&
2、RapidMiner同时提供free license和commertial license,而WEKA只提供GNU
license(无法用来开发商用软件)
1、安装了RapidMiner
4.3,但执行RapidMiner.init()时抛出异常“java.lang.UnsupportedClassVersionError:
Bad version number in .class file”
RapidMiner
4.3是用JDK1.6编译的(虽然用1.5也可以编译),因此在JDK1.5或以下版本环境里调用会抛出上述异常。解决办法有两个,一是安装JDK1.6,二是从CVS里下载RapidMiner的源代码自己在1.5里编译并导出jar文件。
2、在Eclipse应用里执行RapidMiner.init()时提示“java.lang.IllegalArgumentException:
URI scheme is not "file"”
需要设置环境变量"rapidminer.home"到rapidminer安装目录,以便初始化时能找到"rapidminerrc"这个文件。即使未安装rapidminer,也要保证在这个目录下有个"etc"目录,里面有"rapidminerrc"文件。(另,还有个方法是设置"rapidminer.rcfile"环境变量指向rapidminerrc文件,未试验)
3、在Eclipse应用里执行RapidMiner.init()时提示“[Error] Cannot find
'operators.xml'.”
经过跟踪rapidminer代码,发现需要把operators.xml文件放在classpath下的com.rapidminer.resources包里。所以结合上面一条问题,可以执行的代码如下:
System.setProperty(RapidMiner.PROPERTY_RAPIDMINER_HOME,
"D:/eclipse3.4m7/workspace/yale");
RapidMiner.init();
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。RapidMiner数据挖掘入门之一:概要
RapidMiner数据挖掘入门之一:概要
RapidMiner数据挖掘入门之一:概要
原名Yale,它是用于数据挖掘、机器学习、商业预测分析的开源计算环境。根据KDnuggets在2011年的一次,从使用率来看该软件比之R语言还要略胜一筹。因为其具备GUI特性,所以很适合于数据挖掘的初学者入门。
RapidMiner提供的数据挖掘和机器学习程序包括:数据加载和转换(ETL),数据预处理和可视化,建模,评估和部署。数据挖掘的流程是以XML文件加以描述,并通过一个图形用户界面显示出来。RapidMiner是由Java编程语言编写的,其中还集成了WEKA的学习器和评估方法,并可以与R语言进行协同工作。
2 学习资源
软件的帮助菜单中自带了26个tutorial,可以帮助用户进行基本入门。另外在sample有也有不错的案例数据和流程可供参考学习。从官方网站可以下载到一份简单的用户手册,另外还有相应的提供了很好的视频教程。
3 基本概念
rapidminer中的功能均是通过连接各类算子(operataor)形成流程(process)来实现的,整个流程可以看做是工厂车间的生产线,输入原始数据,输入出模型结果。算子可以看做是执行某种具体功能的函数,不同算子有不同的输入输出特性。
大体上有这样几类算子:
流程控制类,是为了实现循环和条件功能。
数据输入和输出类,是为了实现数据交换。
数据转换类,包括各种数据抽取、清洗整理功能;
建模类,包括分类回归建模,关联分析、聚类分析、集成学习等功能。
评估类,包括多重交叉检验,自助法检验等功能
软件有两个主要的工作区,一个是流程设计工作区,本区左侧可以看到各类算子和库,中间的主流程设计区,下方是错误提示区,右侧是参数设置区。另一个是结果显示工作区。
将算子拖入主流程工作区后,它会以一个方箱形式呈现,不同的颜色暗示着不同的函数功能。箱体左侧是输入接口,对应着输入类型的缩写。右侧对应输出接口和相应缩写。左下角会有三种颜色的状态灯,红灯表示关于该算子的设置错误,黄灯表示设置正常但还未进行过执行操作,绿灯表示设置正常且已经进行过执行操作。
在建模时,变量(attributes)会分为两个大类,普通变量称为regular,而目标变量称为label。这在有监督学习时需要特别留意。从数据特征来分,又可分为数值变量numeric,分类变量nominal,其中又有两值分类变量binominal,多值分类变量polynominal。不同的算子对于输入数据的类型有着不同的要求,这点需要在算子帮助中仔细阅读。
4 建模一般流程
新建一个库(Repository)
选择需要的算子(operator)放入主流程(main process)中
设置算子相关参数 (parameter)
进行算子连接
执行流程以得到结果
发表评论:
TA的最新馆藏[转]&}

我要回帖

更多关于 rapidminer 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信