数据挖掘,机器学习,自然语言处理数据挖掘这三者是什么关系

数据挖掘、机器学习、自然语言处理这三者是什么关系?这几个怎么入门啊?国内到底是阿里还是百度大数据最好? - 知乎3104被浏览252868分享邀请回答cs.columbia.edu/~mcollins/lm-spring2013.pdf2.隐马尔可夫模型与序列标注问题(Tagging Problems and Hidden Markov Models)现在Michael Collins在coursera上也开了公开课,视频免费看链接&& 比看讲义更清晰,虽然没有字幕,但是不妨一试,因为讲的真的好清楚。其在句法分析与机器翻译部分的讲解是绝对的经典。如果能把Collins的课跟下来,讲义看下来,那么你已经掌握了NLP的主要技术与现状了。应该可以看懂部分论文了,你已经入门了。----------NLP进阶----------Collins的NLP课程虽然讲的清晰,不过有些比较重要的前沿的内容没有涉及(应该是为了突出重点做了取舍),比如语言模型的KN平滑算法等。此外,Collins的课程更注重于NLP所依赖的基础算法,而对于这些算法的某些重要应用并没涉及,比如虽然讲了序列标注的算法隐马尔可夫模型,条件随机场模型,最大熵模型,但是并没有讲如何用这些算法来做命名实体识别、语义标注等。Stanford NLP组在coursera的这个课程很好的对Collins的课进行了补充。链接&& 本课程偏算法的应用,算法的实现过的很快,不过上完Collins的课后再上感觉刚刚好~(这两门课是Coursera上仅有的两门NLP课,不得不佩服Coursera上的课都是精品啊!)----------进阶前沿----------上完以上两个课后,NLP的主要技术与实现细节就应该都清楚了, 离前沿已经很近了,读论文已经没问题了。想要继续进阶前沿,就要读论文了。NLP比起其它领域的一个最大的好处,此时就显现出来了,NLP领域的所有国际会议期刊论文都是可以免费下载的!而且有专人整理维护,每篇论文的bibtex也是相当清晰详细。链接&& 关于NLP都有哪些研究方向,哪些比较热门,可以参考:NLP是会议主导,最前沿的工作都会优先发表在会议上。关于哪个会议档次比较高,可以参考谷歌给出的会议排名:也可以参考各个会议的录稿率(一般来说越低表示会议档次越高):基本上大家公认的NLP最顶级的会议为ACL,可以优先看ACL的论文。-------------------------最后简单谈一下这三者哪个更有发展潜力……作为一个NLP领域的研究生,当然要说NLP领域有潜力啦!这里YY几个未来可能会热门的NLP的应用:语法纠错目前文档编辑器(比如Word)只能做单词拼写错误识别,语法级别的错误还无能为力。现在学术领域最好的语法纠错系统的正确率已经可以接近50%了,部分细分错误可以做到80%以上,转化成产品的话很有吸引力吧~无论是增强文档编辑器的功能还是作为教学软件更正英语学习者的写作错误。结构化信息抽取输入一篇文章,输出的是产品名、售价,或者活动名、时间、地点等结构化的信息。NLP相关的研究很多,不过产品目前看并不多,我也不是研究这个的,不知瓶颈在哪儿。不过想象未来互联网信息大量的结构化、语义化,那时的搜索效率绝对比现在翻番啊~语义理解这个目前做的并不好,但已经有siri等一票语音助手了,也有watson这种逆天的专家系统了。继续研究下去,虽然离人工智能还相去甚远,但是离真正好用的智能助手估计也不远了。那时生活方式会再次改变。即使做不到这么玄乎,大大改进搜索体验是肯定能做到的~搜索引擎公司在这方面的投入肯定会是巨大的。机器翻译这个不多说了,目前一直在缓慢进步中~我们已经能从中获益,看越南网页,看阿拉伯网页,猜个大概意思没问题了。此外,口语级别的简单句的翻译目前的效果已经很好了,潜在的商业价值也是巨大的。不过……在可预见的近几年,对于各大公司发展更有帮助的估计还是机器学习与数据挖掘,以上我YY的那些目前大都还在实验室里……目前能给公司带来实际价值的更多还是推荐系统、顾客喜好分析、股票走势预测等机器学习与数据挖掘应用~69843 条评论分享收藏感谢收起书单|机器学习、数据挖掘和自然语言处理,机器学习工程师和数据科学家最应该读的16本书
我的图书馆
书单|机器学习、数据挖掘和自然语言处理,机器学习工程师和数据科学家最应该读的16本书
本文选自 Aioptify作者:吴攀作为一位数据科学家、数据工程师或机器学习研究者,面对市面上各种各样的相关书籍一定会感觉难以取舍。一份好的书单不仅能提升你的学习和工作效率,还能为你节省进修成本。 日前,数据服务提供商 AI Optify 通过通过网络书评、书中的主题覆盖、作者的行业影响力、价格等因素对机器学习、数据挖掘和自然语言处理领域的 100 多本书进行了综合评测,并根据最终计算出的品质得分选出了其中 16 本得分最高的书(英文版价格来自亚马逊,中文版价格来自豆瓣读书)。所以这是一份数据驱动的客观书单,希望你能喜欢。1.An Introduction to Statistical Learning: With Applications in R(统计学习导论 : 基于R应用)价格:英文版 61.36 美元,中文版 63.1 元品质得分:10/10这本书在亚马逊上评分非常高,其作者是来自南加利福尼亚大学、斯坦福大学和华盛顿大学的四位教授 Gareth James、Daniela Witten、Trevor Hastie 和 Rob Tibshirani;他们都有统计学背景。这本书比《The Elements of Statistical Learning(统计学习基础)》更为实用,它给出了一些使用 R 语言实现的案例。2.The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition(统计学习基础:数据挖掘、推理和预测)价格:英文版 62.0 美元,中文版 45 元品质得分:9/10亚马逊上的高分书籍,作者是斯坦福大学的三位统计学教授。第一作者 Trevor Hastie 具有统计学和生物统计学方面的研究背景。关于这本书的一个有趣的事情是作者们以统计学的视角看待机器学习问题。这本书似乎过于关注理论了,所以一些读者可能倾向于略过它。3.Pattern Recognition and Machine Learning(模式识别与机器学习)价格:英文版 60.0 美元,无中文版品质得分:8/10亚马逊上的高分书籍,作者是著名作家 Christopher M. Bishop,他是微软剑桥研究院的一位杰出科学家,领导微软机器学习与感知研究组。这本书在技术上全面覆盖了各种机器学习主题,包括回归、线性分类、神经网络、核方法和图模型。4. Machine Learning: A Probabilistic Perspective(机器学习:概率学的观点)价格:英文版 79.16 美元,无中文版品质得分: 7/10Machine Learning: A Probabilistic Perspective 一书提供了可以自动检测数据模式,然后使用得出的模式预测未来数据的方法。该教材基于统一的、概率学的方法对机器学习领域提供了全面的介绍。该书的作者 Kevin Murphy 是谷歌的一位研究人工智能、机器学习、计算机视觉、知识基础建设和自然语言处理的研究科学家。5. Data Mining: Concepts and Techniques, Third Edition(数据挖掘:概念与技术,第三版)价格:英文版 50.0 美元,中文版 79.0 元品质得分: 6/10Data Mining: Concepts and Techniques, Third Edition 一书的作者是伊利诺伊大学香槟分校计算机科学系的 Jiawei Han(韩家炜)教授。这本书能让你了解、应用从大数据集中发现隐藏模式的理论和实践知识。这本书在亚马逊上获得了较为平均的评价。6. Data Mining: Practical Machine Learning Tools and Techniques, Third Edition(数据挖掘:实用机器学习工具与技术,第3版)价格:英文版 37.5 美元,中文版 79.0 元品质得分: 6/10这本书在亚马逊上的评价相当不错,其作者为新西兰怀卡托大学的三位计算机科学教授。他们也是基于 Java 的数据挖掘软件 Weka 的主要贡献者。因此,这本书重在数据挖掘领域的具体实现方面,尤其是基于 Weka 软件的工作平台。7. Probabilistic Graphical Models: Principles and Techniques(概率图模型:原理与技术)价格:英文版 91.66 美元,中文版 198 元品质得分: 6/10Probabilistic Graphical Models: Principles and Techniques 这本独特的书提供了设计自动推理系统的概率图框架。这本书的作者是两位计算机科学教授:来自斯坦福大学人工智能实验室的 Daphne Koller 和来自耶路撒冷希伯来大学的 Nir Friedman。8. Introduction to Information Retrieval(信息检索导论)价格:英文版 57.0 美元,中文版 69 元品质得分: 6/10Introduction to Information Retrieval 的第一作者是斯坦福计算机科学教授 Christopher Manning。这是讲解网络时代的信息检索的教科书,包括网络搜索,以及与文本分类和文本聚类的基本概念相关的领域。9. Machine Learning(机器学习)价格:英文版 211.6 美元,中文版 35 元品质得分: 5/10Machine Learning 是机器学习领域一本非常著名的著作,其作者是美国卡内基·梅隆大学计算机科学教授 Tom Mitchell。Tom Mitchell 是世界上第一个机器学习系的第一任系主任。Machine Learning 一书涵盖了机器学习的一些基本领域,包括学习、决策树学习、神经网络、贝叶斯学习、强化学习等。10. Speech and Language Processing, 2nd Edition(语音和语言处理,第二版)价格:英文版 78.65 美元,无中文版品质得分: 5/10Speech and Language Processing 的作者是斯坦福大学语言学和计算机科学教授 Dan Jurafsky。这是全面覆盖语言技术的第一本书——在所有层次上且包含所有现代技术。基于大型企业使用的应用统计和其它机器学习算法,这本书在语言技术这一主题上使用了实证的方法11. Introduction to Data Mining(数据挖掘导论)价格:英文版 118.91 美元,中文版 49.0 元品质得分: 4/10这本书在亚马逊上获得了很好的评分,其作者是三位计算机科学教授:密歇根州立大学的 Pang-Ning Tan、明尼苏达大学的 Michael Steinbach 和 Vipin Kumar。这本书涵盖了数据挖掘的不同基本领域,如:分类、关联分析、聚类和异常检测。12. Neural Networks for Pattern Recognition(用于模式识别的神经网络)价格:英文版 88.42 美元,无中文版品质得分: 4/10Neural Networks for Pattern Recognition 算是一本老书了,但其作者是微软剑桥研究院的杰出科学家 Christopher M. Bishop。13. Foundations of Statistical Natural Language Processing(统计自然语言处理基础)价格:英文版 87.27 美元,中文版 55 元品质得分: 4/10Foundations of Statistical Natural Language Processing 是亚马逊上评分非常好的一本自然语言处理书籍。用统计方法处理自然语言文本近来已经占据了主导地位。这本书对统计自然语言处理(NLP)进行了全面的介绍,含所有开发 NLP 工具所需的理论和算法。14. Handbook of Statistical Analysis and Data Mining Applications(统计分析和数据挖掘应用手册)价格:英文版 72.81 美元,无中文版品质得分: 4/10这本书在亚马逊的评分高于平均分,其作者是三位在数据挖掘和统计学领域有行业经验的博士。这本书是一本指导商业分析师、科学家、工程师和研究者的全面的专业参考书,其中包含不同阶段的数据分析、建模和实现。15. Understanding Machine Learning: From Theory to Algorithms(理解机器学习:从理论到算法)价格:英文版 52.76 美元,无中文版品质得分: 4/10Understanding Machine Learning: From Theory to Algorithms 提供了解释机器学习基本思想的广泛理论和将这些原理转化成实际算法的数学推导。这本书的两位作者是分别来自耶路撒冷希伯来大学和滑铁卢大学的计算机科学教授。16. Foundations of Machine Learning(机器学习基础)价格:英文版 96.56 美元,无中文版品质得分: 3/10Foundations of Machine Learning 是一本研究生阶段的教科书,介绍了机器学习的基本概念和方法。这本书描述了几种重要的算法,提供了这些算法的理论基础,并阐释了这些算法应用的主要方面。其作者 Mehryar Mohri 是纽约大学库朗数学科学研究所的计算机科学教授。本文由机器之心编译,转载请联系本公众号获得授权。------------------------------------------------加入机器之心(全职记者/实习生):投稿或寻求报道:广告&商务合作:
馆藏&55468
TA的最新馆藏
喜欢该文的人也喜欢数据挖掘、机器学习、自然语言处理这三者是什么关系?这几个怎么入门啊?国内到底是阿里还是百度大数据最好? - 知乎3104被浏览252868分享邀请回答0添加评论分享收藏感谢收起}

我要回帖

更多关于 数据挖掘自然语言处理面试 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信