工科研究生转行的方向时机器学习,工作转行做nlp可行吗

背景介绍:软件工程专业硕士毕业一年半,现在在公司做着MFC的工作,维护一个老系统。说实话,公司没有牛人,没有创新,完全学不到东西。其实我一直想进BAT这样的大型互联网公司,但是由于上学的时候太贪玩,基础不好,实习面试被打击,就只能把它们作为梦想。没有进过那样的公司,完全不知道人家用的是什么高新技术,自己去了能干嘛?需要什么技术?而且感觉社招比校招要求更高,不知道怎么接近梦想。现在每天下班都学习。去年开始自学iOS,学到现在感觉iOS太流于表面,学到一堆不通用的东西,想放弃,然后开始刷LeetCode。刷了一百多道题了,然后又迷茫,感觉光会做这些题也没什么用啊,面试也不光是这些东西,而且人家工作到底是什么样的,需要什么工具知识,还是完全不知道。看到机器学习挺热的,对工作经验要求也不是特别高,然后又想学机器学习。感觉自己就是东一榔头西一棒槌的学习,时间花了,真正学到了什么呢?我知道欲速则不达,也知道不能太浮躁。但是就是感觉自己现在特别浮躁,总想着快点跳到心仪的单位,不要在这里浪费时间了。那么如果我现在开始学机器学习,需要学习到什么程度就可以去换工作了呢?需要花多长时间?我好定一个目标!我其实一直以来就渴望成为一个编程高手。但总感觉自己是太笨了还是什么原因,找不到方向,总是一个人瞎折腾也没什么结果。我想大家会喷我上学的时候都干嘛了?都研究生连这些问题都搞不明白?没关系,大家喷得对,但我真的不明白,我也希望大家喷完也帮我解一下惑,谢谢了!
不需要学得太深 多学一些工程常用的模型,按下面的顺序NN 神经网络 掌握梯度下降优化方法,掌握BP(利用动态规划来优化求导的计算量)crf 序列模型 知道还有其他的优化算法(牛顿法和拟牛顿法),不过不必深究LBFGS,掌握前向后向算法(一种针对线性链模型的概率推断算法,同样是利用动态规划来减少计算量)lda 掌握多项分布(一种最常用的分布),了解贝叶斯,了解生成模型的建模方法和常用的估计推断算法(变分推断和采样),趁机搞懂gibbs 采样。理解EM算法(又是一种优化算法)。对于推断算法,可主要专注于gibbs采样的实现。把这三个的推导搞懂 关注原始的模型 不需花太多时间研究什么变种 做做笔记 然后实现一遍 把你的代码放在github上 进行一定的消化理解。机器学习的代码都很短,尤其是核心代码,这三个模型的核心算法,根据你用的语言和库的不同,实现大概在50-1000行。当然,如果要考虑复用性和性能,代码要稍微长点。根据你的毅力,大概需要3个月到...你能在leetcode上刷100题,说明毅力还是很不错的。我觉得一年的努力足矣。然后就可以找到不错的了 基本BAT是没问题的不得不承认,若不是机器学习科班出身,确实更容易被面试官轻视。不过只要你把东西学扎实,我相信,在现在普遍门槛很低疯狂招人的环境下,脱颖而出是相对容易的。另外 awk sed bash深入学学 ,在工作中更为有用,你可以在这学。注意我说的”了解“ “掌握” “深入”这些词, 如 同学说的,变分和采样是很大的一块,而且对入门者很不容易,工作中毫无用处,不必过多的深入。
先说说我的经历吧,我就算是转型过来的。之前在百度工作,做的主要是搜索方面的工作,但是对机器学习还是挺感兴趣的。后来跳到了豌豆荚,开始是做些个性化推荐的工作,做的效果不错,因为对这方面感兴趣,所以在后面的一个项目里面就用了一些机器学习的方法去做个性化推荐,正好广告部门需要做相关的业务,又没有相关的人会做,就调我过来了。现在在广告部这边的CTR预估系统就是我做的,目前还在升级模型,提升效果中。&br&再说说学到什么程度,都是业余时间学习相关的算法,相关的书籍,各种模型和最优化算法肯定要熟悉,我自己之前没有实现过,但是看过一些实现的代码,各种方法基本的思想(注意是思想不是原理)要领悟,这样就很容易跟业务结合,做出一些创新的东西来,而不是拘泥于算法本身。&br&再说说具体如何转到相关岗位,如果跳槽找相关工作,这条路不好走,原因你自己应该也已经发现了,jd都要求有相关工作经验。那么既然走不通,就从身边干起,身边的工作有能应用这些方法的地方,就尽量把这些方法用上去看看,有了相关经验和技能的提升,看看公司内部有没有适合的机会转岗。&br&所谓有条件要上,没有条件创造条件也要上。人嘛,要发挥主观能动性,没有机会就创造机会,祝楼主转型成功,一帆风顺。
先说说我的经历吧,我就算是转型过来的。之前在百度工作,做的主要是搜索方面的工作,但是对机器学习还是挺感兴趣的。后来跳到了豌豆荚,开始是做些个性化推荐的工作,做的效果不错,因为对这方面感兴趣,所以在后面的一个项目里面就用了一些机器学习的方法…
&blockquote&我其实一直以来就渴望成为一个编程高手。但总感觉自己是太笨了还是什么原因,找不到方向,总是一个人瞎折腾也没什么结果。&/blockquote&老实说,如果题主以此为目标的话,老老实实把体系结构、操作系统、编译原理、数据库、计算机网络、算法导论、线性代数和微积分里面随便几样(几 &= 3)基础打好了,去BAT工作不是梦想。&br&&br&如果只是粗浅地跟风学机器学习,那最后水平多半是不上不下:退一步不会在真正的系统里实现自己学到的算法(不如掌握了上述技能的科班毕业生),进一步不知道算法出问题的时候应该怎么办(不如真正做机器学习的科班毕业生)。一个好的面试官不用几分钟就能淘汰这样的求职者……&br&&br&最后正经回答一下题主的原问题,以免跑题:看工作性质,如果涉及到机器学习核心算法的可以看看Bishop的Pattern Recognition and Machine Learning,如果概率图模型用的比较多可以看Koller & Friedman的Probabilistic Graphical Models,如果侧重数据挖掘的可以看Leskovec, Rajaraman & Ullman的Mining of Massive Datasets。如果这些能啃完任意一本并且自信能把里面的东西读懂个七七八八,那核心机器学习/数据挖掘的工作多半没问题。&br&&br&如果觉得上述著作太理论,可以找一些应用性比较强的、介绍流行框架的书或者材料。这方面数据挖掘的材料比较丰富,比如Hadoop, Spark等。机器学习框架一般各公司就用自己的了,这些东西大多不公开,而且开源的文档也通常差强人意,就不一一列举了。&br&&br&如果觉得上述材料太不通用(有点像iOS),那还是回到一开始说的那些基础,因为有了这些基础知识,换了工作之后再在工作岗位上学一些必需的知识,也能很容易做机器学习。
我其实一直以来就渴望成为一个编程高手。但总感觉自己是太笨了还是什么原因,找不到方向,总是一个人瞎折腾也没什么结果。老实说,如果题主以此为目标的话,老老实实把体系结构、操作系统、编译原理、数据库、计算机网络、算法导论、线性代数和微积分里面随…
已有帐号?
无法登录?
社交帐号登录
不生产代码的搬运工帐号:密码:下次自动登录{url:/nForum/slist.json?uid=guest&root=list-section}{url:/nForum/nlist.json?uid=guest&root=list-section}
贴数:3&分页:屁狐狸发信人: unluckydan (屁狐狸), 信区: AI
标&&题: Re: 浅谈机器学习的职业发展方向
发信站: 水木社区 (Thu Sep&&3 19:06:03 2015), 站内 &&&& 【 在 wukuan 的大作中提到: 】
: 认真的长文都要顶一个。
: 不过图像工程师的薪水已经开始吓人了 。
有么.....求链接...............我咋觉得图像不如NLP那帮人呢.....
-- && ※ 来源:·水木社区 ·[FROM: 119.80.80.*]
屁狐狸发信人: unluckydan (屁狐狸), 信区: AI
标&&题: Re: 浅谈机器学习的职业发展方向
发信站: 水木社区 (Fri Sep&&4 10:11:44 2015), 站内 &&&& 【 在 Insomnia 的大作中提到: 】
: 作为前版主和现从业人员,我补充一下。视觉这块现在属于最火的阶段。sensetime,face++,格林深瞳&&,虽然发现时间不长但扩张迅猛,媒体报道也比较多了。只要自己够牛的,开到50w也不是不可能。
转化还是有问题.....face已经没有技术门槛了几乎,其他几家做的都比较专.....整个面上CV依然没有大开花....还在忽悠阶段.........
-- && ※ 来源:·水木社区 ·[FROM: 119.80.80.*]
屁狐狸发信人: unluckydan (屁狐狸), 信区: AI
标&&题: Re: 浅谈机器学习的职业发展方向
发信站: 水木社区 (Fri Sep&&4 14:15:51 2015), 站内 &&&& 【 在 sujkvato 的大作中提到: 】
: 现在是把face低级匹配算法优化到极限了,没有理论突破,后面就是天花板
: 没出路的
: 百度投机器学习,号称nb,但推送广告照样狗屎一样,其实已经很好的说明了问题
: ...................
啥叫把face低级匹配算法优化到极限==!敢问啥意思......不懂==!
-- && ※ 来源:·水木社区 ·[FROM: 119.80.85.*]
文章数:3&分页:
抽奖到手软!将狂欢进行到底!中国领先的IT技术网站
51CTO旗下网站
揭秘国内机器学习人才的职业发展/就业方向/薪资状况
我个人认为人类曾经经历过火车时代,电力时代,汽车时代,电子时代;当下的时代是数据时代。具有良好的数据分析能力的人对于越来越多的企业具有至关重要的作用。
作者:来源:36大数据| 09:33
一、机器学习相关的公司分析
1、大的有师傅的公司
这类公司主要是百度,阿里和腾讯。共同的特点是数据很大,机器学习的团队比较庞大,一般进去的同学都可以有师傅带着学习,进步会比较快。
但是三个公司的特点也有所不同。
百度是我认为在业务和技术之间匹配的最好,并且从基础到应用搭配的最好的公司。机器学习方面的能力对于百度的广告,搜索,移动搜索,LBS,应用分发,移动音乐,移动阅读,移动新闻,图片搜索,语音输入,浏览器,视频等所有业务都非常重要;而百度也非常重视机器学习团队的搭建。目前在产品方面的表现也非常不错。如果近期加入的团队一旦在基础研究以及产品化方面有巨大突破的话,百度的各个核心产品都可能大大的超出其他公司的产品。
百度的机器学习人才的需求种类最宽。
阿里目前的机器学习人才主要用在业务挖掘,广告和推荐方面。和阿里的业务非常的匹配;根据IPO公告,以及近期的动作,阿里未来的业务发展方向主要是电商业务的区域扩张(向下是向县城扩张,向上是跨国业务的发展)以及产品品类的扩张(从实物产品的电商向服务,金融方向的扩张。)从这种趋势来看,未来阿里的机器学习人才需求还是以业务挖掘,广告和推荐方面的人才需求为主(图像处理和NLP作为feutrue的提供者,也有需求)。
腾讯公司过去的主要业务是建立在社交网络之上的游戏,互联网增值服务(会员和道具之类的),广告等。根据年报,我认为腾讯今后的重点是在微信的基础上来发展盈利性业务,目前能够看到的业务有游戏,电商,支付,嘀嘀打车等;腾讯也单独把广告和视频业务提出来当做重点业务。
结合以上对于腾讯的业务分析和预测,以及之前对于腾讯的职位的一些认识,我认为腾讯今后对于机器学习类人才的需求主要有业务挖掘,广告算法,推荐等。
从业务上来看,三家公司都具有收入和利润基本都来自核心业务(百度主要来自于搜索广告;腾讯主要来自于游戏和增值服务,阿里主要来自于电商广告),同时有向其他俩家的核心业务扩展的动作但是没有成功的特点(百度尝试过电商和社交;阿里尝试过社交,也正在做搜索;腾讯尝试过搜索,也在做电商)。
从战略和职位设置来看,百度是从基础到产品都做;而阿里和腾讯主要侧重于应用。
2、中等规模的团队搭建中的公司以及专业公司
有一些公司,相对于BAT来说,市场地位相对较弱,但是公司的市场地位也不错;同时机器学习的团队相对较小,或者布置的普遍程度相对较弱。
比如当当,携程,去哪儿,360,58同城,优酷,乐视。这类公司一般会设置俩类机器学习的岗位,一是业务挖掘类岗位,另外就是推荐和广告算法的团队。这类公司具有市场地位不够稳固,机器学习团队相对较弱或者较新的特点。
同样有一些中等规模的广告行业的专业公司,也有机器学习的团队,比如MediaV,品友互动等公司。这类公司主要的岗位是计算广告算法工程师。
3、小的专业公司
在移动互联网快速发展的今天,有一些专业性的小公司,产品本身对于机器学习技术的依赖性非常大,也设置了机器学习的岗位,这些小公司大多数是创业公司,业务发展的不确定性比较大,同时需要的机器学习人才和业务本身的相关性非常大。
比如口袋购物(主要需求的是推荐算法,广告算法,NLP和图像处理人才),今日头条(主要需要的是文本挖掘,推荐等人才),微博易(主要需要的是文本挖掘类人才),出门问问(主要需要的是语音识别,搜索的人才)。
不同类型的公司对于人才的要求不同,对于能够带给人才的东西也不同,各有优劣。同学们可以根据自己的情况灵活的选择,每类公司中都有非常好的公司和岗位!
二、机器学习相关职位分析
1、互联网业务挖掘
使用的主要数据和要解决的问题,初级的业务挖掘人员的工作会离数据和算法更近;高级的业务挖掘人员会离用户和业务更近。
职位需求趋势:
这类职位的需求量非常大,基本所有的主要互联网公司都设置了这个岗位。这个岗位的名字常常有&分析师&,&数据挖掘工程师&等。
零售,金融,电信,制造业等行业对于互联网业务挖掘人员也持欢迎态度。近几年对于这类人才的需求很能会有非常大的增长。
薪水状况:
从我接触到的猎头职位的情况来看,在这个岗位上工作三四年,能够独立和业务部门以及技术部门沟通,并且能够灵活的应用数据为业务部门提出解释和建议的人才的年度薪水在20万元到35万元左右。2年前见过大的互联网公司的分析总监给到50万元以上。
职业发展前景:
我个人认为人类曾经经历过火车时代,电力时代,汽车时代,电子时代;当下的时代是数据时代。具有良好的数据分析能力的人对于越来越多的企业具有至关重要的作用。根据海德思哲公司的分析,未来的企业领袖人物往往是business+science+technology三方面都很强的人,业务挖掘工程师的工作内容和其中的俩项密切相关。
2、推荐算法
解决的核心问题是给用户想要的,不要给用户不想要的,降低用户找东西的难度,给用户更多的惊喜。不同的互联网产品在不同的阶段,可以通过推荐系统解决不同的问题和实现不同的目标。
职位的设置情况和需求趋势:
相对业务挖掘岗位,有推荐算法职位的公司数量相对比较少。能够看到的一些公司如下。
电商:淘宝,当当,京东,口袋购物。
视频:优酷土豆,爱奇艺,风行在线,乐视。
音乐:豆瓣,虾米,网易云音乐,百度。
新闻APP:今日头条,网易新闻客户端,百度新闻,指阅。
阅读:盛大文学,掌阅科技。
团购:美团,糯米。
社交:微博,linkedin。
手机助手:豌豆荚,
LBS推荐:百度,高德。
相对电脑,手机的私密性更强,屏幕资源更小,可能会有更多的移动应用公司会部署推荐算法的岗位。
薪水状况:
我接触到的推荐算法负责人的职位(能够直接面对工程和产品部门,对推荐系统的效果负责),招聘方给到的年度薪在30万元到50万元左右。
职业发展前景:
移动互联网是近几年互联网行业最大的潜力细分领域,而推荐对于移动互联网的所有产品都有非常重要的作用,从这个角度来讲推荐算法工程师的职业前景非常不错。
在多个移动互联网的细分领域,推荐都处于核心地位,因此成熟的推荐算法人才创业的机会也比较多。
3、广告算法
数据主要是俩块,一块是用户的数据,除了公司自有的数据以外,也可以通过DMP(数据管理平台)获取到一些用户的数据;另外一块是关于广告的数据。
需要解决的问题就是把用户和进行更好的匹配,提升总体的市场效率。其中CTR预估是非常重要的工作内容。
职位的设置情况和需求趋势:
和其他的职位相比,计算广告的公司数量比较集中。公司主要分为三类。
一类是有Exchange或者类似体量的公司(相当于有设局或者设立证券交易所的公司),有百度,淘宝,腾讯,搜狗,360,微软,雅虎。这类公司的流量很大,广告主的数量也很大,他们制定各自的市场内的游戏规则(主要是资源分配的办法以及结算办法。)
另外一类是DSP(Demand side platform),比如MediaV,品友互动,浪淘金等。这类公司本身没有大的流量,但是都在努力建立相对广告主更为有效的广告投放能力,主要从广告主挣钱。主要的目标是帮助广告主更有效率的把广告投放到目标群体身上。
第三类公司是类似58同城,优酷,新浪微博这样的大媒体。或者多盟这样的SSP(Supply sideplatform)。这类公司自己有一定的流量,也有一些广告主客户。也需要有人来做市场效率的提升。
新增职业机会的来源,我能够看到的主要有以下几种。一种是在搜索市场上取得突破后需要建立商业变现体系的360;还有一些是来自于对淘宝模式模仿的电商公司,比如当当;还有一类是互联网广告公司的业务拓展和创新,比如SSP公司向DSP业务的拓展,或者互联网广告监测公司,或者广告生态种新的角色诞生带来的新职位机会。
近几年看到的互联网广告相关的变化主要有2个,一个是谷歌采用GSP(General second price)竞价方式并逐步被别的公司跟进;另外一个变化就是有些DSP公司大力倡导RTB(Real time bidding)。这些变化都没有带来行业内计算广告人才需求量的急速增长。看未来,广告生态系统的逐渐完善而催生出的新的细分行业和公司,也没有看到能够带来大的新增职位的急速增长。
但是互联网广告行业面临的挑战和机会也很多,比如多屏互动的期望,以及广告主日益增长的需求,都对企业的创新提出了要求。
综合以上,计算广告行业未来的人才需求特点可能是&少而精&。
薪水状况:
广告目前是互联网行业最重要的收入来源。从百度公司和阿里集团招股书中就可以看出,这俩个公司收入的绝大部分都来自广告。
因此计算广告人才的薪水也非常的高。
我了解到的比较成熟的计算广告人才(同时在算法和工程方面很成熟)的年收入有50万元到150万元左右 。
职位发展前景:
一旦进入计算广告行业,相对其他职位来说,创业机会较少。更有可能的是在行业内的少数几个公司成长。该类人才的创业机会可能需要具备几个条件,第一是外围环境的重大变化导致的新类型公司的创立机会比较成熟,这个周期可能比较长;另外要有大量资金的支持;另外相对来说可能风险会比较大。
使用的数据和要解决的问题:
使用的数据主要是人们日常随意写出来的或者说出来的话。比如新闻,文章,微博上的话,qq的聊天,贴吧里的话,博客上的话,企业呼叫中心的对话等。
要解决的问题主要是对这些内容进行抽象,映射或者响应。比如信息抽取(命名实体识别,情感分析等),机器翻译,聚类,分类,自动问答等。
职位的设置情况和需求趋势:
目前看到的NLP岗位设置主要有以下几类。
一类是在搜索公司的query处理相关的工作。目前我了解到的工作主要分俩个部分,一个部分是做query的纠正,改写,或者近义词分析等;另外一类工作是做Topic model的研究,意思就是把用户的需求抽象在一个&model&上,而同时预先把网页到抽象到一个&model&上,然后在model内部挑选出用户最感兴趣的网页优先展示。
还有一类是研发机构的研究岗位,比如微软,富士通研发,三星通信等机构都有NLP的研发岗位。
第三类岗位就是一些专业性公司,比如口袋购物,微博易,今日头条,掌阅科技,简网世纪这样的公司。在这些公司里NLP和图像处理的工作地位类似,就是为下一步的处理提供feature。
从用户端来看,WEB2.0的出现,以及社交网络的大力发展,为NLP积累下了大量的数据,同时企业也越来越重视通过网络来倾听用户,以及和用户进行沟通;同时信息的急速增长,导致用户对于个性化产品的需求越发明显,也促进了NLP工作的推进和岗位的设置。
今后NLP的岗位会急速增长。增长的来源一部分来自于搜索引擎公司,根据李航前辈的微博,未来搜索突破可能来自俩个方向,一个方向是LTR(Learning to rank),另外的一个方向是Semantic match。我的理解可能semantic mtach需要大量的NLP的工作和人才。
另外一类职位我觉得来自于大量的已经产生的大量非结构化的数据处理相关的公司,以及从大量的语音识别转化出来的数据的利用相关的公司。这个具体是在哪个方向上不好说,但是我想趋势上一定是企业对于海量用户产而生的嘈杂的声音的理解和利用。数据的量还在不断的急速增加,NLP工作量和任务类型也在增加,最终导致岗位需求的增加。
薪水状况:
NLP人才的需求不象数据挖掘和推荐那样量大和紧缺,和其他的职位相比薪水比较温和。
我接触过的猎头职位,有公司愿意给工作2年左右的NLP工程师20到30万元的年度工资;也有创业公司愿意给NLP leader50万元以上的年度工资。
职位发展前景:
我预测NLP工程师在原公司的职业生命活力会比较强(数据,算法以及工作目标可能都会有新的挑战和机会进来);同时成熟的人才也会有很多创业机会可以考虑。
5、图像处理
使用的数据和要解决的问题:
面对的数据是图像,具体也会有处理静态图像和动态视频的区别。以及离线处理和在线处理的区别。
常见的要解决的问题有检测(就是看某个图片里是否有某类东西,比如是否有人脸),识别(就是输入一个图片,看这个图片和库里的哪个图片是一致的。)分割,拼接,3D重建,聚类,分类等。
职位的设置情况和需求趋势:
传统的图像处理岗位主要分布在类似智慧眼,汉王这样的IT公司和类似佳能,微软这样的研发机构中。智慧眼和汉王这样的IT公司的产品,主要以行业用户为主,应用的场合有门禁,安全,社保识别等。
在大数据在中国兴起的前后,更多的互联网公司开始设立图像处理的岗位。其中百度是把图像和语音作为文字之外的新的搜索对象来看待的,设立了图像处理的岗位并招聘了人才,但是具体如何产品化目前还不太清楚,目前看到的只有图搜,就是把图片拷贝到检索栏里,然后可以看到一些检索的结果。
淘宝以及一些其他的电商公司也设立了图像处理或者正在招聘相关的人才,主要的工作目标是为广告和推荐等应用提供feature。
与数据挖掘,推荐和NLP职位相比,图像处理的职位数量相对较少,发展相对比较滞后,能够看到的大众用户使用的产品相对比较少。
我个人的感觉是图像处理行业正处在一个爆发的前夕;象智能交通事故报告系统(自动对摄像头采集到的图像进行处理,即使在夜间也可以自动的识别出来重大事故并且提醒交警去救援),自动驾驶,离群人群自动检测(比如机场和火车站的恐怖分子检测)等应用都具有足够的价值,目前系统能够做到的水平也非常接近商品化。
我的判断是随着技术的突破和外围配套(包括法规或者硬件等)的成熟,图像处理的岗位会有大的爆发。
薪水状况:
相对其他职位来说,图像处理的职位比较少一些;同时薪水不是很高。但是未来的收入前景不错。
职位发展前景:
不论在公司内部的提升,还是未来创业的角度来看,图像处理工程师的发展机会都会越来越多。
【编辑推荐】【责任编辑: TEL:(010)】
大家都在看猜你喜欢
热点热点热点热点热点
24H热文一周话题本月最赞
讲师:5人学习过
讲师:34人学习过
讲师:5人学习过
精选博文论坛热帖下载排行
本书是讲解C++语言程序设计的优秀教程。全书围绕C++语言来组织,开始章节介绍编程的普通感念,接下来详细介绍C++中的继承、多态、异常处理...
订阅51CTO邮刊醉了醉了NLP翻译技术上有了更大的突破你会下岗吗?-人工智能,机器学习-读者投稿-未来日报
> 醉了醉了NLP翻译技术上有了更大的突破你会下岗吗?
醉了醉了NLP翻译技术上有了更大的突破你会下岗吗?
零刻网讯 在创建用户状态模型和用户行为模型的基础上通过知识管理和机器翻译技术的融合,使系统能够动态获取和共享翻译过程中的知.....
& & & &零刻网讯 & &在创建用户状态模型和用户行为模型的基础上通过知识管理和机器翻译技术的融合,使系统能够动态获取和共享翻译过程中的知识,并通过系统与用户、用户与用户的协同工作实现了全过程的知识有效循环和共同增益;
& & & & &从而确保了用户(翻译人员)和系统的优势得到最大化发挥;在大规模科技资料(如:2亿汉字的百万专利)翻译工程实践中取得显著的应用效果,即500用户协同工作,在错误率不超过1.5%。(国家翻译质量标准)的前提下,平均翻译效率提高2至4倍。 那么现在机器翻译究竟做到什么程度了?&
& & & & 机器翻译初具&理解&能力
& & & & 理想丰满,现实亦可期。尽管现在机器翻译距离人工翻译还有一段距离,但随着技术的发展和人类对语言认知的深入,机器翻译取代人工翻译很值得期待。
& & & & 单词翻译是最为简单的,就是词典在做的事情,单词与单词放在一起,成了短语也可以应付。短语和单词构成句子,不同场景下有着不同的意思,如果还要考虑这些句子在不同篇章中,基于上下文语境的意思,这对机器翻译而言就有点儿难度了。&
& & & & 举个通俗的例子,电影字幕的翻译大家都很熟悉,也都知道只有翻译者理解了导演要说什么,演员要讲什么,理解了故事的来龙去脉,具备对应的专业背景知识,才能带给观众好字幕。
& & & & 工业界的翻译技术与它有异曲同工之处,目前尚处于能够准确翻译短语和单词,同时不断提升句子翻译质量的阶段,且逐步向精准的篇章翻译靠齐。
& & & & 句子翻译两大难题:消歧和调序
& & & & 机器翻译尚处于&句子翻译&的初级阶段,即准确地理解每一个句子的基本意思。据百度NLP(自然语言处理技术)技术人员介绍,尽管机器翻译在句法理解上有所突破,但最大的难点还在于消歧和调序。
& & & & 一个是顺序问题。长句子,英文的语序和中文的是不一样的,比如中文&在这张桌子上有一束花&,英文是&There are a bunch of flowers on the table&。这样的不同是当前机器翻译的一大难点,机器翻译需要做到适当地调整顺序。
& & & & 第二个问题是歧义问题。一个词有多个语义,比如&看&这个词,看病、看书、看球,是不一样的;打球、打赏、打牌、打脸中&打&的意思也非常不同。如果直接将句子中的&看&简单翻译为Look自然不行,而这样的情况又无法穷举。
& & & & 消歧和调序是机器翻译要解决的最重要的两个问题。如果能够突破,机器翻译未来就可以帮助人们做更多事情。
& & & & 机器翻译突破的杀手锏&&NLP技术
& & & & 业界如何解决机器翻译所面临的问题呢?不妨看看百度翻译的思路。
& & & & 百度翻译的核心方案是依靠NLP技术。NLP技术能够基于海量自然语言语料库,通过机器学习自动理解不同单词、短语和句式,模拟人脑思考过程去理解自然语言。
& & & & 比如,为了增加更多语种之间的互译可能,百度翻译选择中文或英文作为中间语言,在其他语种之间架起一座&翻译桥梁&。由于不同语种间的语料规模不一,并且一些小语种间的直接翻译模型也较小,如果用户想要将葡萄牙语翻译成日语,通过这项中轴语技术,机器将自动从葡语&&中文&&日语,葡语&&英文&&日语等模型中识别并过滤出最优模型,进而迅速呈现最优翻译结果。
& & & & 凭借NLP技术的深厚积累和领先优势,百度翻译在很多方面超越同类竞品。大规模语料去噪和过滤技术、基于枢轴方法的翻译知识桥接技术,使得资源匮乏的小语种翻译成为可能。此外,凭借着在中文资源上的先天优势,百度翻译还实现了普通话和粤语、文言文之间的互译。
& & & & 机器面对情绪丰富的人类,会醉吗?
& & & & 什么才是好的翻译?清末著名学者严复曾提出三个字&信、达、雅&。信是指要准确;达是指说人话接地气;雅则是指译文要词语得体、简明、优雅。最生动的例子莫过于&Bigger Than Bigger&这个口号的翻译。中国大陆版本被译成&比更大还更大&,被广为吐槽,只做到&信&。香港版本的翻译&岂止于大&就备受好评。
& & & & 机器翻译应该会很容易翻译出&比更大还更大&这样的结果,而要翻译出&岂止于大&这样具有信达雅风的语句自然还需要时间。
& & & & 好在百度、Google等公司都在翻译上投入大量资源,基于计算机、语言学等多种交叉学科不断在取得突破。人工智能的技术基石正在快速发展,给机器翻译带来了新的契机。
& & & & 随着科技时代的发展,机器翻译的设计和配置会越来越发达。而NLP技术要是在语言翻译上更深入的研究,那将会有更多的突破的。所以未来我们的生活不可缺少的翻译机器或机器人会取代人工翻译那并不是不可能哦。大家很期待吧?
(小编):yoyo}

我要回帖

更多关于 研究生论文可行性分析 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信