如何去掉分词结果中的结巴分词 停用词词典

最全整理分词停止词词典及数据库相关词典 - 开源中国社区
当前访客身份:游客 [
当前位置:
发布于 日 21时,
分词中文停止词词典分词英文停止词词典分词数据库专业词汇词典这里是如何在IK中使用这些词典的博客&http://my.oschina.net/zimingforever/blog/142000&《使用IKAnalyzer分词计算文章关键字并分享几个分词词典》
代码片段(3)
chinese_stopword.txt&~&35KB&&&&
(3716)&&&&
english_stopword.txt&~&10KB&&&&
(1792)&&&&
accordingly
afterwards
appreciate
appropriate
associated
beforehand
concerning
consequently
considering
containing
corresponding
definitely
especially
everything
everywhere
furthermore
nevertheless
particular
particularly
presumably
reasonably
regardless
relatively
respectively
specifying
themselves
thereafter
thoroughly
throughout
unfortunately
whereafter
yourselves
accordance
accordingly
afterwards
apparently
appreciate
appropriate
approximately
associated
beforehand
beginnings
concerning
consequently
considering
containing
corresponding
definitely
differently
especially
everything
everywhere
furthering
furthermore
immediately
importance
information
interested
interesting
necessarily
nevertheless
nonetheless
particular
particularly
potentially
predominantly
presenting
presumably
previously
reasonably
regardless
relatively
respectively
significant
significantly
specifically
specifying
substantially
successfully
sufficiently
themselves
thereafter
thoroughly
throughout
unfortunately
usefulness
whereafter
yourselves
ext.txt&~&24KB&&&&
(1411)&&&&
开源中国-程序员在线工具:
相关的代码(12)
20回/11061阅
8回/4040阅
8回/2716阅
20回/2551阅
0回/2590阅
2回/2512阅
1回/1534阅
2回/1335阅
0回/1265阅
2回/1128阅
好东西 顶了
2楼:大风厂蔡成功 发表于
3楼:hkodk 发表于
4楼:fatherfox 发表于
5楼:bhpx 发表于
谢谢,最近一直在找词典,您真是帮我大忙了。
6楼:BBking 发表于
谢谢,文本挖掘新手,借鉴一下你的中英文停止词典
7楼:单华江 发表于
谢谢分享啊!
8楼:车开源 发表于
感谢分享,+2048
9楼:lngg 发表于
10楼:蛋蛋不是笨蛋 发表于
最近在用这个,谢谢分享
11楼:驾驭神风 发表于
12楼:高端大气上档次_ 发表于
楼主棒棒哒.......................
13楼:问鼎GG 发表于
14楼:乐哈子 发表于
很多重复的。。。。。
开源从代码分享开始
王小明123的其它代码去除停用词【java吧】_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名:今日本吧第个签到,本吧因你更精彩,明天继续来努力!
本吧签到人数:0成为超级会员,使用一键签到本月漏签0次!成为超级会员,赠送8张补签卡连续签到:天&&累计签到:天超级会员单次开通12个月以上,赠送连续签到卡3张
关注:636,922贴子:
去除停用词收藏
如何用java实现ik分词后取出文件中的停用词,并输出,急急急!重点是如何过滤掉停用词!!!!!!!!!
2017java学习来上市公司博为峰学java,入学即签就业协议,不就业不收费,查看java课程!java好学吗?java课程来博为峰学,java工程师就业年薪十几万!
登录百度帐号推荐应用用户名:sbp
文章数:180
评论数:89
访问量:460067
注册日期:
阅读量:1297
阅读量:3317
阅读量:449220
阅读量:1133955
51CTO推荐博文
&&&&&&& 做中文文本聚类,研究中科院的imdict-chinese-analyzer分词器时,我自己加载的停用词表一直都跑不出正确的结果,于是,就追踪lucene是怎么加载自己的停用词表的。在源代码的WordListLoader.java类中,发现了这样的代码:
public&static&HashSet&getWordSet(Reader&reader)&throws&IOException&{ &&&&HashSet&result&=&new&HashSet(); &&&&BufferedReader&br&=&null; &&&&try&{ &&&&&&if&(reader&instanceof&BufferedReader)&{ &&&&&&&&br&=&(BufferedReader)& &&&&&&}&else&{ &&&&&&&&br&=&new&BufferedReader(reader); &&&&&&} &&&&&&String&word&=&null; &&&&&&while&((word&=&br.readLine())&!=&null)&{ &&&&&&&&result.add(word.trim()); &&&&&&} &&&&} &&&&finally&{ &&&&&&if&(br&!=&null) &&&&&&&&br.close(); &&&&} &&&&return& &&}&
问题就变得清晰了,于是我在这行代码中加入了输出语句,把从文件中加载进去的停用词打印出来。这样,就找到了问题的根源了:停用词表的编码格式问题(我设置的编码格式为:Unicode)
&&&&&& 把研究的结果总结如下:
&&&&& 1、Lucene支持的停用词表文件有utf-8.
&&&& 2、停用词表的格式很简单:每词一行.
&&&&&3、Luence中支持停用词的方式有5种(见org.apache.lucene.analysis.StopAnalyzer.java类的5种构造方法):StopAnalyzer.java类默认停用词,以String[]传入,以Set传入,以File传入,以Reader传入
&&&4、& 关于停用词处理的参考代码如下:
package&com.xh.TextC &&import&java.io.F &import&java.io.IOE &import&java.io.StringR &&import&org.apache.lucene.analysis.A &import&org.apache.lucene.analysis.T &import&org.apache.lucene.analysis.TokenS &import&org.apache.lucene.index.CorruptIndexE &import&org.apache.lucene.store.LockObtainFailedE &public&class&StopAnalyzerTestChinese &{ &&&&&&&static&&String&&source=&我&是&中国人。&; &&&&&&public&static&void&main(String&args[]) &&&&&&{ &&&&&&&&&&Indexer(); &&&&&&} &&&&&private&static&void&Indexer()& &&&&&{ &&&&&&&&&&&&&& &&&&&&&&&try&{ &&&&&&&&&&&&&Analyzer&analyzer=new&StopAnalyzer(new&File(&chinese_stopword.dic&)); &&&&&&&&&&&&&&&&&&TokenStream&stream=analyzer.tokenStream(&content&,&new&StringReader(source)); &&&&&&&&&&&&&while(true) &&&&&&&&&&&&&{ &&&&&&&&&&&&&&&&&Token&item=stream.next(); &&&&&&&&&&&&&&&&&if(null==item)break; &&&&&&&&&&&&&&&&&System.out.println(&{&+item.termText()+&}&); &&&&&&&&&&&&&} &&&&&&&&&&&}&catch&(CorruptIndexException&e)&{ &&&&&&&&&&&&&e.printStackTrace(); &&&&&&&&&}&catch&(LockObtainFailedException&e)&{ &&&&&&&&&&&&&e.printStackTrace(); &&&&&&&&&}&catch&(IOException&e)&{ &&&&&&&&&&&&&e.printStackTrace(); &&&&&&&&&} &&&&&} &}&
注:参考中文停用词表在附件中。
了这篇文章
类别:┆阅读(0)┆评论(0)
09:36:13 14:13:17 21:50:32 23:53:29 11:21:43 13:05:42 09:14:12}

我要回帖

更多关于 分词 停用词 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信