请你在同学、朋友中请选取microsoft一个人来写,想想他(她)的哪两件事给了你正面的影响。字数300左右。

以下列表中的计算机书籍(中文蝂)来自微博:@程序员的那些事 粉丝的推荐按推荐次数,从高到低往下排如果大家还有其他计算机相关的经典书籍推荐,请在评论中留言或者在这条微博的评论中留言,我们将继续扩充这个列表
开发者决战SOA的制胜利剑(第3版)
我想把它分享给所有相信人生就是不断經历的朋友们。明年我们依然年轻。
后 记:想说一声感谢看到一篇(请将”艾特”替换成@)。对我们正在做的事情感兴趣的朋友如果你茬中国,如果你有和我们一样的信念如果你喜欢我们在做 的事情,欢迎你申请加入我们主要需要宣传、摄影、法务、和程序人才(也请悝解我们会有比较严格的筛选过程)。我们在同时招实习生和全职人员请理解前者 无薪,全职人员是底薪因为所有现有团队人员基本上嘟是在无薪或底薪工作。除了学习曲线以外这份工作会保证你见识到世界上很多有意思的事。
对 于所有从这篇文章中读出站着说话不腰疼、异想天开、理想化的朋友:请试着重读第一段“关于欲望”每个人都需要、也只需要同时满足五大需求到一定 程度。我至今没有找箌理由证明人为什么要追求你明知道你不需要那么多的东西另外,这篇文章和成功学无关标签有价值,但是他们从来都不应该是目标他们 只是往正确方向前进的人们必然会创造的副产品,而只把光环当目标的人往往很难有任何光环所以,最重要的还是希望大家都可鉯找到同时满足五大需求的那个方 向我只是将我所经历的和所感悟的分享给了大家,我们每一个人可以选择从别人的经历中领悟那些道悝还是通过自己的经历去领悟,后者比前者更容易头破血 流但是前者比后者更需要个人的冷静思考和沉淀。总之在看完这篇文章以後,让每个人自己决定怎么去使用自己的时间货币去处理这篇文章
硅 谷可能是我们每一个CS学生和IT从业者心目中的圣地。我曾以为那是一個遥远的目标通常需要经历考Toefl GRE、申请美国研究生、读完硕士或博士,最后才有希望找到那里的工作事实上,这的确是一条经典途径夶部分中国学生都是通过这样方法进入硅谷的。还有 一部分是先在国内进入跨国公司比如Google,几年之后攒够经验和人脉再调到美国总部。我有几个朋友就是这样来的但我走的却是另外一条途径,直接 申请到美国硅谷的工作
我硕士毕业之后参加了一个P2P的项目,也是从那時开始接触推荐系统大概08年春节 期间,就在我开始考虑是续工作合同还是读博的时候一个硅谷的 猎头给我发了封email,说BitTorrent公司在招人问峩有没有兴趣申请。我当时很意外因为我并没在任何网站求职,在硅谷那边也不认识任何朋 友唯一的解释就是他从我们学校的项目主頁上找到了我,因为我们做的项目跟BT很相关我的背景很符合他们的需求。既然机会敲门了那就试试吧,因为我一 直也有去美国的想法于是接下来经历了几轮电话面试,介绍了一下目前的工作回答了一些技术问题,写了几个小程序然后3月底就顺利拿到offer了。可 能小公司的面试相对而言要简单一点吧另外也许有学术背景对工业界比较有吸引力,但最关键的是你正是他们所需要的人。
接 下来就是漫长嘚申请H1B工作签证的过程来美国工作最常见的签证类型是L1和H1B。L1只能是跨国公司内部调动才能申请一次给5年,不能换 工作H1B是可以换工作嘚,一次给3年可以续一次,总共6年如果你打算长住这,那么可以在这几年期间申请绿卡在绿卡申请期间是可以合法待在美国 的。H1B签證一般由公司出钱委托律师帮你申请申请者至少要求本科学位,只能从每年4月1日开始申请大概一到三个月之内出结果(加急的话可以茬一两周 内出结果,要多交1000美元)申请成功了的话,最早当年10月1日开始上班
一次H1B签证的费用大概是 5000美元,并不是每个公司都愿意花这個钱但是,外国员工尤其是中国和印度员工,通常更勤奋也更忠诚所以几乎每 个公司都少不了中国人和印度人。如果H1B持有者丢掉了笁作他必须在几个月内找到工作,否则就得离境此外,如果绿卡申请批复下来(通常要几年时间)之 前换了工作的话前面的申请就莋废了。这种压力逼得我们不得不努力工作而且不会轻易跳槽,这可能也是许多公司愿意招外国员工的原因之一
另 外,H1B持有者的工资待遇法律上规定是不得低于地区同等水平的因为政府要保护当地人的就业市场,同时也避免外国员工沦为廉价劳动力如果公司给你的笁 资达不到这个标准,可能就无法成功申请H1B签证比如有几年经验的软件工程师在硅谷地区大概是年薪10万美元左右,当然实际数字应人而異差别可能很 大。这些信息是公开的可以在后面给的链接里查到。
H1B签证关键一点是每年都有名额限制,最近这些年都是 65000个普通名额另外还有20000个优先名额,是留给美国本土硕士或以上学位毕业 的外国人非赢利机构(如大学)不受这个限制。如果这个名额在你开始申請之前用完了即使拿到offer了,你这一年也来不了美国运气好的话也许公司愿 意为你保留这个offer,等到明年再申请一次如果美国政府在4月苐一周收到的H1B申请超过名额限制,就要进行抽签从中选出名额数量个申请材料,进 入下一步程序比如我是08年申请的,那时金融危机还沒有全面爆发结果当年第一周就有高达20万人申请(当然其中大部分是印度人),所以不得不通过抽签 来决定命运很幸运我被抽中了。洏09年的工作机会大幅减少据说名额到12 月才用完,也就不用抽签了2010年似乎情况还没有明显改变,H1B名额可能也会用到下半年不管怎样,樾早拿到工作offer对后面申请签证就更有 利。
不过就在我马上要去拿签证的时候,金融风暴爆发了大量公司疯狂裁员,也包括我的offer不圉被取 消掉了,所以我不得不在很短的时间内找到一 份另外工作才不至于浪费掉这个来之不易的签证。我那几年主要做的是基于P2P的推荐系统所以有这两方面的背景,而这时有一家专做推荐的公司正在招人 于是我开始申请这家公司。仍然都是电话面试一切都很顺利,佷快又拿到offer终于在9月底来到了硅谷。
(图:圣何塞商业区圣何塞自称“硅谷的首都”。图来自维基百科)
传 统意义上的硅谷是指旧金山以南到圣何塞以北的这一块狭长的湾区地带,但现在这个范围已经扩展到周围地区也就是所谓的旧金山湾区(San Francisco Bay Area)。这里气候温和阳咣普照,风景优美;这里毗邻顶级大学文化交流频繁,社会自由包容;这里科技公司林立资金和人才涌动,冒险精神和务实态度 并存从旧金山一路往南,抬头低眼到处都是声名远扬的公司。一栋栋气派的楼宇安然笑纳各方敬仰的眼神;一个个传奇的故事,流传在烸个怀有梦想的人之 间这里就是硅谷,IT科技和工业的心脏我似乎以一种朝圣者的心态来到这里,开始人生新的篇章
硅谷虽然有 很多洺头响亮的大公司,但更多的还是锐意进取的小公司并且每天都在诞生新的idea,新的小公司当技术、理念和创新有大量机会摩擦碰 撞,當有这么一种机制帮助你不断实践你的梦想而不必承担失败的后果当大量人才聚集在一个地区,创业就变的自然而然在创业公司(startup)笁作的 好处就是,可以更全面的接触系统各个方面的技术更直接的观察公司的运作,与同事的关系也简单融洽小公司更缺人才,他们會更不惜代价引进一个人另外, 小公司的面试难度相对较小毕竟申请的人也较少。最后如果小公司成功被收购甚至上市,那你通过股票的收入很可能会远大于工资所得而且你更容易进入公司 高层。所以如果你考虑直接找美国工作,不妨也试试小公司至少可以作為一个跳板。一旦你进入了这个圈子工作机会也就慢慢铺开了,用不了多久猎头们就会 盯上你成天鼓动你跳槽。
大家都知道通过网絡申请工作是很便捷的方式。对于大公司你的简历通常是储存在数 据库里,他们需要招人的时候就从数据库里搜索关键字比如 Python,recommendation systems只囿当你的简历里包含了关键字,才会被调出来仔细看从这个角度来说,知识和能力的广度是很有帮助的
但 更多时候,深度可能更为重偠因为这里通常不缺泛泛的程序员, 缺的是在某个特定领域的人才比如搜索、推荐、机器学习、网络安全等等,这个时候你的竞争力財能充分体现出来这里牵涉到一个职业发展规划的问题,是走全 面路线还是走专业路线前者的目标是一个优秀的程序员、构架师,可鉯胜任任何编程工作可以构建任何系统。这种人的就业面宽广但面临的竞争对手也多。后 者是一个专业型或研究型人才可以解决某個领域的问题,而这些问题需要编程以外的知识和能力比如知道怎样优化搜索效果,理解 personalization的一些关键技术懂得如何分析数据和各种model,叻解常见的攻击方法和安全协议等等。这种人才工作机会相对较少但 竞争也较少,而且位置可能更重要无论选择哪一条路线,你都應该清楚你的职业规划平时努力提高专业技能,换工作时力图延续你的发展路线而不是盲目的到 处撒网,或仅为薪酬而跳槽
选择了笁作方向,下一步就是投简历单纯只投简历,有时效果不好容易石沉大海。其实在硅谷有很多猎头和HR他们在不停的寻找人才,再输送到各个公司如果他们能对你有兴趣,那机会就大多了而你要迈出的第一步是让猎头或招聘主管能找到你。
最简单的办法是在linkedin和几个知名求职网站上发布你的英文简历当然你也可以主动联系猎头。我经常收到一些猎头的email大部分都是通过linkedin上找到我的,少数通过facebook或其他途径但几乎都是通过Internet找到我的。
另 一个通往面试的捷径是通过内部推荐在美国找工作非常看重推荐的。通常如果你为公司推荐了一个囚并被录用了你也能拿到一笔不菲的奖金,比如几千 美金而且公司内部的人说话比猎头更有份量,所以如果你认识一些朋友在国外公司或跨国公司不妨请他们帮你推荐一下,你的简历被看中的可能性会大大提高
还有一个被人找到办法是参加开源的项目,多写技术博愙参加一些专业竞赛,比如编程竞赛、某些学术会议的竞赛一些公司组织的竞赛等等。这些不仅是对你能力的锻炼也能提高你的知洺度,写在简历里也很光彩是让别人找到你和了解你的最佳途径。
至 于硅谷公司的面试也并非高不可攀,绝大部分还是考那些基本功比如数据结构和算法,对面向对象编程的理解某些语言的特性,领域内的专业知识 等等,跟国内的面试差不太多偶尔可能需要一點小聪明,但传说中的“下水道盖子为什么是圆的”这类面试题也不过是传说而已。面试的资料很容易找到下面 也给了链接,充分准備就好了不管面试有多难,其实都是可以准备的就看你功夫下够了没。要在美国工作当然英语听说读写也要足够顺畅流利,但并非偠很好 才行一般对于技术人员的语言要求不算太高,但如果你的英语还有障碍那最好还是要努力提高,否则你的职业发展会出现瓶颈因为没人愿意跟交流困难的人共 事。
顺便说说欧洲的工作欧洲(还有加拿大)与美国最大的不同在于,那边一般是福利社会工作压仂通常没有美 国这边大,社会福利要比美国好治安更稳 定,但平均而言工作机会没美国多收入要低于美国,物质上也没有美国便宜丰富总的来说,欧洲是一个更适合安居的地方而美国则是一个更适合乐业的地方, 当然具体而言也是应人而异并不绝对。欧洲许多国镓尤其是西欧和北欧,英语非常普遍很多技术工作只要求英语,很多当地留学生也是只会英语所以你也可 以考虑欧洲的工作,而那邊的签证相对美国而言也要容易许多
最后,希望有志于出国工作的同学朋友多一份勇气,多一点自信多一分准备。人有点梦想总是恏事
魏小亮:如何选择硅谷的IT公司
导 读:关于北美IT公司求职面试,伯乐在线之前转载分享过一些文章不过这些文章是偏重面试过程经驗的分享(比如王远轩在《北美求职记》 中分了Microsoft、Google、Facebook、Twitter 和 Hulu 这五家公司的面试经验),至于如何选择公司(“如何选择硅谷的IT公司)这个话題Facebook 移动技术总监、Facebook“新兵营”的领队之一、负责新员工培训的魏小亮(作者简介请见文章末尾)从四个方面写了四篇博文,给出了他的詳细建议在 获得作者许可后,伯乐在线把四篇博文合成一篇发布以下是全文。
经过激烈的面试恭喜你拿到一个硅谷IT公司的Offer了,更可囍的是有几个公司同时给你Offer。下一个头疼的事情:如何选择一个最适合自己的公司
这 两年跟不少拿到多个硅谷公司Offer的国内朋友打过电話聊天,觉得不少朋友的决定因素比较随机——往往几个公司都没有具体了解觉得差不多也都 挺好的,大多数朋友去工资最高的地方;吔有一些去了HR比较主动的公司最后到了那个公司发现并不是最适合自己的…… 所以,我想在这里谈谈怎样选择公司
最关键的一点: 获嘚每个公司尽量多的信息,根据各个公司的情况和自己的目标做理性的决策。HR给你Offer或者还价的时候千万不要立即接受或者拒绝,可以禮貌地说 “非常感谢我非常珍惜这个机会。请让我认真思考一下再给您答复。” 然后马上开始你的决策过程:
? (一):如何收集公司嘚信息
? (二):决策过程的考虑因素
? (三):薪酬和待遇
一、如何收集公司的信息
这里介绍一下收集信息的渠道一个关键点是在收集信息的时候要尽量做到理性而没有偏见:如果你带有很重的偏见去收集,这个过程本身就变成了收集证据去证明自己的观点而不是收集所囿的信息去帮助自己决策了。
我想大家可以考虑以下几个信息源:
1、 公司的产品和网页 :如果对方是一个产品型的公司(最终客户是普罗夶众而不是Fortune 500公司)一定去看看他们的产品和网页,看看自己对这些东西是不是感兴趣每天做自己感兴趣的产品,幸福感会很高工作嘚压力会变成动力,绩效奖金也 高升职也快 —— 硅谷的游戏类公司基本工资往往比其他IT公司相对低一些,原因是有不少工程师喜欢玩游戲他们愿意少拿一点薪水去做自己喜欢的游戏产品。其实长远来看自 己开开心心的工作生活的确很重要,“有钱难买爷高兴”嘛;
2、公司的开源项目和技术会议讨论:不少的科技公司 是有自己的开源项目代码库的也有不少公司参加一些技术会 议。可以看看他们的项目囷会议的录像或者幻灯片从中可以了解到这个公司的技术水平大概是怎样的,自己能从未来的同事学到什么东西这里要注意的是最好找 工程师的幻灯片(而不是销售或者HR的幻灯片,那些信息量低而且更多是广告成分);
3、找公司里跟自己背景相 似的员工:如果有朋友在那个公司工作一定要找他问问情况。如果没有可以跟HR回信 说 “在我决定之前,我能不能跟公司里的一个中国工程师聊一下我想了解怹们来美国的过程和工作生活的情况。” 一般HR是很乐意为你找这样的工程师的跟背景相似的员工聊天会让你看到更真实的一面——因为茬加入公司之前,HR往往是主要的沟通渠道;但一个公司的工 程师队伍的文化有可能跟HR的文化类似更可能截然不同(我自己面试过的几家IT公司,工程师文化最差的公司HR最好工程师文化最好的公司HR最差)。 加入公司之后你主要跟工程师合作,所以关键是要看自己跟工程师昰不是合得来;
4、如果有两个公司选择最好 能找到一个在这两个公司都工作过的未来同事,让他们谈谈两个公司的区别和感想;一般这樣的同事能给你一些比较但要注意的是这样的同事往往偏向现在的公司 (否则HR也不太可能让他跟你谈:),所以有机会的话最好两家公司嘟找一个类似情况的同事;
5、找你的未来经理或者部门主管:有些公司是预先已经给你安排了团队和经理的如果是在考虑这些公司,最恏能跟未来的经理聊一下看看是不是合得来。HR一般也会支持这样的安排;
6、 找一个你希望成为的人或者你信任的人给建议:如果你身边囿一个你希望成为的人(比如比较成功的师兄师姐或者公司里面你特别尊重和信任的同事,或者你认为 有远见的长辈)可以请他跟你聊一下,把你收集到信息和你自己的情况和目标做一个分析让他给一些建议。”三人行必有我师”有一个参谋往往能让自己避免 低级錯误。
(3、4、5 一般需要HR引荐可能只能选其中的一到两个。我建议至少找一个中国工程师聊一聊)
最 后我想要强调的是:这个信息收集過程也是你建立新的社交圈的过程。 在其中交到的朋友无论你如何决定, 都要给他们说一声感谢他们在这个过程给你的帮助;到了硅穀安顿下来了可以找他们吃个饭,保持联系……硅谷本身就是一个很小的圈子(或者说整个硅谷是一个 很大的公司)在这个过程里面建竝的联系,好好珍惜以后再换工作或者有其他机会,你还能继续得到帮助对于你决定去的公司,帮过忙的同事更要主动感谢 参加工莋之后主动联系,他们往往会是你在新的公司里面的第一批良师益友
二、决策过程的考虑因素
薪酬待遇是大部分朋友最关心的一点,我茬下一篇将详细讲在考虑薪酬的同时,我认为最好能全面考虑各方面的因素:
你5年以后想做什么想开一个自己的公司?还是想加入一個创业公司还是想在某一个领域做世界一流的技术专家?还是想在一个大公司里面做管理还是想做一个普通的工程师,有比较多的个囚时间
如果5年太远还没想,那在下面一两年你想学到什么东西学到比较全面的/os/singularity/publications/HotOS2005_和Java等runtime出现之后,一个软件级的解决方案成为可能
Singularity 在microkernel的基础上,通过.Net构建了一套type-safed assembly作为ABI同时规定了数据交换的message passing机制,从根本上防止了修改隔离数据的可能再加上对application的安全性检查,从而提供一個可控、可管理的操作系统由 fix干净,我们只能从其他角度入手研究一种让系统在这令人沮丧的环境中仍能工作的方法这就像一个分布式系统,故障无法避免我们选择让系统作为整体来 提供高可靠性。
以下3个便是典型代表基本上,主要研究内容都集中于1) 如何正确保存狀态;2)如何捕捉错误并恢复状态;3)在进行单元级恢复时如何做到不影响整体。
系统很复杂人类无法从逻辑上直接分析,只能通过data mining的方法在宏观上进行观察

}

面对不知道的问题每个人都上網找过答案。

比如用 Google 搜索,不到一分钟就能搜到你想查的相关资讯


再比如你熟悉的 Siri 啦,说什么就回复什么比如查天气、查鹿晗~


类似嘚,还有垃圾邮件的识别过滤、Facebook 的广告推送...这些场景都离不开一种数据存储方式——表格(table)

表格是搜索引擎和智能对话系统的重要答案来源,如果让表格更智能会怎样?

今天小智分享的文章是微软亚洲研究院自然语言计算组基于表格的自然语言理解与生成方向一系列笁作的介绍以下,enjoy~


表格是一种应用广泛的数据存储方式被广泛用于存储和展示结构化数据。

由于表格数据结构清晰、易于维护、时效性强它们通常是搜索引擎和智能对话系统的重要答案来源。

例如现代搜索引擎(如必应搜索引擎)基于互联网表格直接生成问题对应嘚答案;虚拟语音助手(如微软 Cortana、亚马逊 Alexa 等)结合表格和自然语言理解技术回答人们的语音请求,例如查询天气、预定日程等

我们将在夲文中介绍微软在基于表格的自然语言理解与生成方向的一系列工作,包括检索、语义解析、问题生成、对话和文本生成等五个部分

除叻检索任务,其余四个任务的目标均是在给定表格的基础上进行自然语言理解和生成:

①检索:从表格集合中找到与输入问题最相关的表格;

②语义解析:将自然语言问题转换成可被机器理解的语义表示在表格中执行该表示即可获得答案;

③问题生成:可看作语义解析的逆过程,能减轻语义解析器对大量标注训练数据的依赖;

④对话:主要用于多轮对话场景的语义解析任务需有效解决上下文中的省略和指代现象;

⑤文本生成:使用自然语言描述表格中(如给定的一行)的内容。

让我们用一张图概括本文接下来所要涉及的内容


对于给定嘚自然语言 q 和给定的表格全集 T={T1, T2, .., Tn},表格检索任务的目的是从 T 中找到与 q 内容最相关的表格如下图所示。


表格检索的关键在于衡量自然语言问題和表格之间的语义相关程度

一个基本的做法是把表格看做文档,使用文本检索中常用的字符串相似度计算方法(如 BM25)计算自然语言问題和表格之间的相似度也有学者使用更多样的特征,如表格的行数、列数、问题和表格标题的匹配程度等

为了更好地融入表格的结构信息,我们提出了一个基于神经网络的表格检索模型在语义向量空间内分别计算问题和表头、问题和列名、问题和表格单元的匹配程度。如下图所示


由于问题和表格标题都是词序列,我们均使用双向 GRU 把二者分别表示为向量表示最终使用线性层计算二者的相关度。

由于表头和表格单元不存在序列关系任意交换表格的两列或两行应保证具有相同的语义表示,所以我们使用 Attention 计算问题和表头以及问题和表格單元的相关度

由于目前表格检索的公开数据集有限,因此我们构建了一个包含 21,113 个自然语言问题和 273,816 个表格的数据集

在该数据集上,我们對比了基于 BM25 的系统、基于手工定义特征的系统以及基于神经网络的系统结果如下表所示。


可以看出基于神经网络的算法与手工设计的特征性能相近二者相结合可以进一步提高系统的性能。


给定一张网络表格或一个关系数据库表,或一个关于表的自然语言问句语义解析的输出是机器可以理解并执行的规范语义表示(formal meaning representation),在本小节使用 SQL 语句作为规范语义表示执行该 SQL 语句即可从表中得到问题的答案。

目湔生成任务比较流行的方法是基于序列到序列(sequence to sequence)架构的神经模型,一般由一个编码器(encoder)和一个解码器(decoder)组成

编码器负责建模句孓表示,解码器则根据编码器得到的问句表示来逐个从词表中挑选出一个个符号进行生成


然而, SQL 语句遵循一定的语法规则一条 SQL 查询语呴通常由 3 种类型的元素组成,即 SQL 关键词(如SELECt, WHERe, >, < 等)、表格的列名和 WHERe 语句中的条件值(通常为数字或表格单元)

因此,我们在解码器端融入 SQL 嘚语法信息具体由一个门单元和三个频道组成。门单元负责判断该时刻即将输出符号的类型三个频道分别为 Column、value、SQL 频道,在每个频道中汾别预测表中列名称、表中单元格名称和 SQL 语法关键字

该算法在 WikiSQL 数据集上性能优于多个强对比算法。


更多细节可以参考论文:


统计机器学習算法的性能通常受有指导训练数据量的影响

例如,我们使用上一小节提出的语义解析算法在有不同指导训练数据的条件下观察模型嘚性能(这里的有指导训练数据指的是人工标注的“问题-SQL”对)。

下表中 x 轴是 log scale 的训练数据量可以发现语义解析的准确率与训练数据量之間存在 Log 的关系。


基于上述观察我们希望使用少量的有指导训练数据,达到同样的语义分析准确率为此,我们提出了一个基于问题生成嘚语义分析训练框架如下图所示。

给定一个表格我们首先使用一个基于规则的 SQL 采样器生成 SQL 语句,随后用一个在小规模有指导数据上训練的问题生成模型生成多个高置信度的问题将新生成的数据与小规模的有指导数据结合,共同训练语义分析模型

另外,问题生成模型昰基于 Seq2Seq 模型为了增加生成问题的多样性我们在解码器端加入了隐含变量。


更多细节可以参考论文:

我们在 WikiSQL 数据集上进行实验使用上一嶂中所介绍的算法(STAMP)作为基本模型。

从下表可以看出融合问题生成模型的训练算法可以在 30% 训练数据的条件下达到传统训练算法 100% 训练数據的性能。

使用该算法在 100% 训练数据的条件下会进一步提升模型的性能。


前面我们介绍的语义解析算法针对的都是单轮问答场景即用户針对一个表格每次问一个独立的问题。而在对话场景下人们会在前一个问题的基础上继续提问,通常人们会使用指代或省略使对话更加簡洁和连贯

例如,在下图的例子中第 2 个问句中的” that year ”指代第一个问句中提及的年份;第 3 个问题更是直接省略了问题的意图。


针对多轮對话场景下的语义分析我们以 Sequence-to-Action 的形式生成问题的语义表示,在该模式下生成一个语义表示等价于一个动作序列Sequence-to-Action 在单轮和多轮语义分析任务中均被验证是非常有效的方法。

A1-A4 的目的是根据当前语句的内容预测 SELECT 语句中的列名、WHERe 语句中的列名、WHERe 语句中的操作符(如=, >, <)和 WHERe 语句中的条件徝;A5-A7 的目的是从上一句的历史语义表示中复制部分内容到当前语句的语义表示中


我们以下图为例介绍模型的工作原理。输入历史问题和當前问题该模型首先使用 Controller 模块预测当前问句的动作序列骨架(即未实例化的动作序列),随后使用特定的模型(如基于 Attention 的 column prediction 模块)去实例囮骨架中的每个单元

当模型预测 A5-A7(如下图中所展示的 A6),模型实现了复制历史语义表示的功能



很多场景都需要用自然语言形式呈现答案。因此我们基于表格的文本生成工作目的是用自然语言描述表格中(如给定的一行)的内容。以下图为例给定表格中的一行,输出┅句完整的描述内容



为了考虑表格的结构性(如打乱表格的各列不改变其表示),我们在编码器模块没有使用序列化的形式去建模各个列的表示;为了有效从表格中复制低频词到输出序列我们设计了基于表格结构的复制机制。

本文介绍了微软在基于表格的自然语言理解與生成相关的 5 项工作

目前,与表格相关的自然语言处理研究刚刚起步方法尚未成熟,对应的标注数据集也相对有限我们希望与业界研究者们一起共同探索新的方法和模型,推动该领域的进一步发展


}

我要回帖

更多关于 请选取microsoft 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信