如何对新闻文章的评论内容进行数据清洗的方法?


专业文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买专业文档下载特权礼包的其他会员用户可用专业文档下载特权免费下载专业文档。只要带有以下“專业文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档,需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档,具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

}

3.代码所实现的需求是使用MapReduce解析Json攵件,最终输出格式化的文本文件

首先来看MapReduce通用的框架结构样式。

通过分析可以知道此处只用Map任务即可实现具体功能,所以可以省去Reduce任务

4.Main主函数。这里的main函数也是通用的结构

⑥设置任务的输入输出目录

每个json文件包含一条Json文本数据。通过map任务取得文件里的数据,并通过fastjson类对json文件进行解析,获取json中的字段

最终使用StringBuilder类,将相关字段以‘\t’分隔拼接成一行进行输出。

6.此外实验代码需要导入的依赖包洳下:

2等待任务执行完毕。切换目录到/usr/data/edu2/下并在命令行界面,输入脚本查看hdfs上/myedu2/out是否有内容输出

若有输出,则将hdfs输出内容下载到linux本地

使用gedit或cat查看下载到的文件内容,可以看到结构比较清晰

可以看到在eclipse的console界面有执行过程的输出

}

我要回帖

更多关于 数据清洗的方法 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信