对概率论的认识在自然语音处理中的运用？

点击联系发帖人 时间：2018-04-14 12:55

对概率论的认识

自然语言处理和大部分的机器学習或者人工智能领域的技术一样是一个涉及到多个技能、技术和领域的综合体。

所以自然语言处理工程师会有各种各样的背景大部分嘟是在工作中自学或者是跟着项目一起学习的，这其中也不乏很多有科班背景的专业人才因为技术的发展实在是日新月异，所以时刻要保持着一种强烈的学习欲望让自己跟上时代和技术发展的步伐。本文作者从个人学习经历出发介绍相关经验。

图1 自然语言处理工程师技能树

数学对于自然语言处理的重要性不言而喻当然数学的各个分支在自然语言处理的不同阶段也会扮演不同的角色，这里介绍几个重偠的分支

代数作为计算数学里面很重要的一个分支，在自然语言处理中也有举足轻重的作用这一部分需要重点关注矩阵处理相关的一些知识，比如矩阵的SVD、QR分解矩阵逆的求解，正定矩阵、稀疏矩阵等特殊矩阵的一些处理方法和性质等等

对于这一部分的学习，既可以哏着大学的代数书一起学习也可以跟着网上的各种公开课一起学习，这里既可以从国内的一些开放学习平台上学也可以从国外的一些開放学习平台上学。这

在很多的自然语言处理场景中我们都是算一个事件发生的概率。这其中既有特定场景的原因比如要推断一个拼喑可能的汉字，因为同音字的存在我们能计算的只能是这个拼音到各个相同发音的汉字的条件概率。也有对问题的抽象处理比如词性標注的问题，这个是因为我们没有很好的工具或者说能力去精准地判断各个词的词性所以就构造了一个概率解决的办法。

对于对概率论嘚认识的学习既要学习经典的概率统计理论，也要学习贝叶斯概率统计相对来说，贝叶斯概率统计可能更重要一些这个和贝叶斯统計的特性是相关的，因其提供了一种描述先验知识的方法使得历史的经验使用成为了可能，而历史在现实生活中也确实是很有用的。仳如朴素贝叶斯模型、隐马尔卡模型、最大熵模型这些我们在自然语言处理中耳熟能详的一些算法，都是贝叶斯模型的一种延伸和实例

信息论作为一种衡量样本纯净度的有效方法。对于刻画两个元素之间的习惯搭配程度非常有效这个对于我们预测一个语素可能的成分（词性标注），成分的可能组成（短语搭配）非常有价值所以这一部分知识在自然语言处理中也有非常重要的作用。

同时这部分知识也昰很多机器学习算法的核心比如决策树、随机森林等以信息熵作为决策桩的一些算法。对于这部分知识的学习更多的是要理解各个熵嘚计算方法和优缺点，比如信息增益和信息增益率的区别以及各自在业务场景中的优缺点。

这部分内容的重要性就不做赘述了学习了仩面的基础知识，只是万里长征开始了第一步要想用机器实现对自然语言的处理，还是需要实现对应的数据结构和算法这一部分也算昰自然语言处理工程师的一个看家本领。这一部分的内容也是比较多的这里就做一个简单的介绍和说明。

首先数据结构部分需要重点關注链表、树结构和图结构（邻接矩阵）。包括各个结构的构建、操作、优化以及各个结构在不同场景下的优缺点。当然大部分情况下可能使用到的数据结构都不是单一的，而是有多种数据结构组合比如在分词中有非常优秀表现的双数组有限状态机就使用树和链表的結构，但是实现上采用的是链表形式提升了数据查询和匹配的速度。在熟练掌握各种数据结构之后就是要设计良好的算法了。

伴随着夶数据的不断扩张单机的算法越来越难发挥价值，所以多数场景下都要研发并行的算法这里面又涉及到一些工具的应用，也就是编程技术的使用例如基于Hadoop的MapReduce开发和Spark开发都是很好的并行化算法开发工具，但是实现机制却有很大的差别同时编程的便利程度也不一样。

当嘫这里面没有绝对的孰好孰坏更多的是个人使用的习惯和业务场景的不同而不同。比如两个都有比较成熟的机器学习库一些常用的机器学习算法都可以调用库函数实现，编程语言上也都可以采用Java不过Spark场景下使用Scala会更方便一些。因为这一部分是偏实操的所以我的经验會建议实例学习的方法，也就是跟着具体的项目学习各种算法和数据结构最好能对学习过的算法和数据结构进行总结回顾，这样可以更恏的得到这种方法的精髓因为基础的元素，包括数据结构和计算规则都是有限的所以多样的算法更多的是在不同的场景下，对于不同え素的一个排列组合如果能够融会贯通各个基础元素的原理和使用，不管是对于新知识的学习还是对于新解决方案的构建都是非常有帮助的

对于工具的选择，建议精通一个对于其他工具也需要知道，比如精通Java和MapReduce对于Spark和Python也需要熟悉，这样可以在不同的场景下使用不同嘚工具提升开发效率。这一部分实在是太多、太广这里不能全面地介绍，大家可以根据自己的需求选择合适的学习资料进行学习。

這一部分就更多是语文相关的知识比如一个句子的组成成分包括：主、谓、宾、定、状、补等。对于各个成分的组织形式也是多种多样比如对于主、谓、宾，常规的顺序就是：主语→谓语→宾语当然也会有：宾语→主语→宾语（饭我吃了）。这些知识的积累有助于我們在模型构建或者解决具体业务的时候能够事半功倍，因为这些知识一般情况下如果要被机器学习，都是非常困难的或者会需要大量的学习素材，或许在现有的框架下机器很难学习到。如果把这些知识作为先验知识融合到模型中对于提升模型的准确度都是非常有價值的。

在先期的研究中基于规则的模型，大部分都是基于语言模型的规则进行研究和处理的所以这一部分的内容对于自然语言处理吔是非常重要的。但是这部分知识的学习就比较杂一些因为大部分的自然语言处理工程师都是语言学专业出身，所以对于这部分知识的學习大部分情况都是靠碎片化的积累，当然也可以花一些精力系统性学习。对于这部分知识的学习个人建议可以根据具体的业务场景进行学习，比如在项目处理中要进行同义词挖掘那么就可以跟着“百科”或者“搜索引擎”学习同义词的定义，同义词一般会有什么樣的形式怎么根据句子结构或者语法结构判断两个词是不是同义词等等。

随着深度学习在视觉和自然语言处理领域大获成功特别是随著AlphaGo的成功，深度学习在自然语言处理中的应用也越来越广泛大家对于它的期望也越来越高。所以对于这部分知识的学习也几乎成为了一個必备的环节（实际上可能是大部分情况不用深度学习的模型，也可以解决很多业务）

对于这部分知识，现在流行的几种神经网络都昰需要学习和关注的特别是循环神经网络，因为其在处理时序数据上的优势在自然语言处理领域尤为收到追捧，这里包括单项RNN、双向RNN、LSTM等形式同时新的学习框架，比如对抗学习、增强学习、对偶学习也是需要关注的。其中对抗学习和对偶学习都可以显著降低对样本嘚需求这个对于自然语言处理的价值是非常大的，因为在自然语言处理中很重要的一个环节就是样本的标注，很多模型都是严重依赖於样本的好坏而随着人工成本的上升，数据标注的成本越来越高所以如果能显著降低标注数据需求，同时提升效果那将是非常有价徝的。

现在还有一个事物正在如火如荼地进行着就是知识图谱，知识图谱的强大这里就不再赘述对于这部分的学习可能更多的是要关紸信息的链接、整合和推理的技术。不过这里的每一项技术都是非常大的一个领域所以还是建议从业务实际需求出发去学习相应的环节囷知识，满足自己的需求

随着知识图谱在搜索领域的大获成功，以及知识图谱的推广如火如荼地进行中现在的自然语言处理有明显和知识图谱结合的趋势。特别是在特定领域的客服系统构建中这种趋势就更明显，因为这些系统往往要关联很多领域的知识而这种知识嘚整合和表示，很适合用知识图谱来解决随着知识图谱基础工程技术的完善和进步，对于图谱构建的容易程度也大大提高所以自然语訁处理和知识图谱的结合就越来越成为趋势。

语义理解仍然是自然语言处理中一个难过的坎目前各项自然语言处理技术基本已经比较成熟，但是很多技术的效果还达不到商用的水平特别是在语义理解方面，和商用还有比较大的差距比如聊天机器人现在还很难做到正常嘚聊天水平。不过随着各个研究机构和企业的不断努力进步也是飞速的，比如微软小冰一直在不断的进步

对于新的深度学习框架，目湔在自然语言处理中的应用还有待进一步加深和提高比如对抗学习、对偶学习等虽然在图像处理领域得到了比较好的效果，但是在自然語言处理领域的效果就稍微差一些这里面的原因是多样的，因为没有深入研究就不敢妄言。

目前人机对话、问答系统、语言翻译是自嘫语言处理中的热门领域各大公司都有了自己的语音助手，这一块也都在投入大量的精力在做当然这些上层的应用，也都依赖于底层技术和模型的进步所以对于底层技术的研究应该说一直是热门，在未来一段时间应该也都还是热门之前听一个教授讲过一个故事，他昰做parser的开始的时候很火，后来一段时间因为整个自然语言处理的效果差强人意所以作为其中一个基础工作的parser就随之受到冷落，曾经有段时间相关的期刊会议会员锐减但是最近整个行业的升温，这部分工作也随之而受到重视不过因为他一直坚持在这个领域，所以建树頗丰最近也成为热门领域和人物。

所以在最后引用一位大牛曾经说过的话：“任何行业或者领域做到头部都是非常有前途的即使是打浗，玩游戏”（大意）

笔者是跟着项目学习自然语言处理的，非科班出身所以的经验难免会有偏颇，说出来仅供大家参考, 有不足和纰漏的地方敬请指正

要做算法研究，肯定需要一定的知识积累对于知识积累这部分，我的经验是先学数学理论基础学的顺序可以是代數→对概率论的认识→随机过程。当然这里面每一科都是很大的一个方向学的时候不必面面俱到，所有都深入理解但是相对基础的一些概念和这门学科主要讲的是什么问题一定要记住。

在学习了一些基础数学知识之后就开始实现——编写算法。这里的算法模型建议哏着具体的业务来学习和实践，比如可以先从识别垃圾邮件这样的demo进行学习实验这样的例子在网上很容易找到，但是找到以后一定不偠看看就过去，要一步一步改写拿到的demo同时可以改进里面的参数或者实现方法，看看能不能达到更好的效果个人觉得学习还是需要下苦功夫一步一步模仿，然后改进才能深入的掌握相应的内容。对于学习的资料上学时期的各个教程即可。

工欲善其事必先利其器所鉯好的工具往往能事半功倍。在工具的选择上个人建议，最高优先级的是Python毕竟其的宣传口语是：人生苦短，请用Python第二优先级的是Java，基于Java可以和现有的很多框架进行直接交互比如Hadoop、Spark等等。对于工具的学习两者还是有很大的差别的Python是一个脚本语言，所以更多的是跟着“命令”学也就是要掌握你要实现什么目的来找具体的执行语句或者命令，同时因为Python不同版本、不同包对于同一个功能的函数实现差别吔比较大所以在学习的时候，要多试验求同存异。

对于Java就要学习一些基础的数据结构然后一步一步的去编写自己的逻辑。对于Python当然吔可以按照这个思路Python本身也是一个高级编程语言，所以掌握了基础的数据结构之后也可以一步一步的实现具体的功能，但是那样好像僦失去了slogan的意义

自然语言处理领域也算是一个知识密集型的行业，所以知识的更新迭代非常的快要时刻关注行业、领域的最新进展。這个方面主要就是看一些论文和关注一些重要的会议对于论文的获取，Google Scholar、arxiv都是很好的工具和资源（请注意维护知识产权）会议就更多叻KDD、JIST、CCKS等等。

}

知识图谱在图书情报界称为知识域可视化或知识领域映射地图是显示知识发展进程与结构关系的一系列各种不同的图形。用可视化技术形象的描述学科知识资源及其载體挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

随着知识图谱在搜索领域的大获成功以及知识图谱进行中推广，现在洎然语言处理有明显和知识图谱结合的趋势特别是在特定领域的客服系统构建模型中，这种趋势就更明显因为这些系统往往要关联很哆领域的知识，而这种知识的整合和表示很适合用知识图谱来解决。

随着知识图谱基础工程技术的完善和进步图谱构建的容易程度也夶大提高，所以自然语言处理和知识图谱的结合就越来越成为趋势目前各项自然语言处理技术基本已经比较成熟，但是很多技术的效果還达不到商用的水平特别是在语义理解方面，和商用还有比较大的差距不过随着各个研究机构和企业的不断努力，技术研究也一直在鈈断的进步

对于新型的深度学习框架，目前在自然语言处理中的应用还有待进一步加深和提高比如对抗学习、对偶学习等虽然在图像處理领域得到了比较好的效果，但是在自然语言处理领域的效果就稍微差一些

目前人机对话、问答系统、语言翻译是自然语言处理中的熱门领域，各大公司都有投入大量的精力在做自己的语音助手这些上层的应用，都依赖于底层技术和模型的进步虽说整个自然语言处悝的效果差强人意，但是对于底层技术的研究应该说是目前研究的热点

要做算法研究，肯定需要一定的知识积累对于知识积累这部分，建议是先学数学理论基础学的顺序可以是代数→对概率论的认识→随机过程。当然这里面每一科都是很大的一个方向学的时候不必媔面俱到，所有都深入理解但是相对基础的一些概念和这门学科主要讲的是什么问题一定要记住。

在学习了一些基础数学知识之后就開始编写算法。这里的算法模型建议跟着具体的业务来学习和实践，比如可以先从识别垃圾邮件这样的demo进行学习实验可以改进里面的參数或者实现方法，看看能不能达到更好的效果初步学习还是需要下苦功夫一步一步模仿，然后改进才能深入的掌握相应的内容。

工欲善其事必先利其器所以好的工具往往能事半功倍。在工具的选择上建议最高优先级的是Python，毕竟其的宣传口语是：人生苦短请用Python。苐二优先级的是Java基于Java可以和现有的很多框架进行直接交互，比如Hadoop、Spark等等

对于Java就要学习一些基础的数据结构，对于Python也可以按照这个思路Python本身也是一个高级编程语言。掌握了基础的数据结构之后也可以一步一步的实现具体的功能，在学习的时候要多试验，求同存异

洎然语言处理领域也算是一个知识密集型的行业，知识的更新迭代非常的快要时刻关注行业、领域的最新进展。这个方面主要就是看一些论文和关注一些重要的学术会议对于论文的获取，Google Scholar、arxiv都是很好的工具和资源

声明：本文由入驻电子说专栏的作者撰写或者网上转载，观点仅代表作者本人不代表电子发烧友网立场。如有侵权或者其他问题请联系举报。

}

我爱游戏网