深度学习应该从哪些论文入手

点击联系发帖人 时间：2018-01-30 18:27

7,169被浏览149,194分享邀请回答slideshare.net/ShaneSeungwhanMoon/how-alphago-works当初和李世石大战的时候有很多”专家“都出来讲过这篇paper，包括在下……简单来说，AlphaGo的架构和传统的围棋AI相比并没有传统的创新，传统的机器博弈的架构包括三部分：主体：AlphaBeta树走子策略：某一步走哪最好局面静态评估：当前谁更厉害每当对方走出一步棋，我方就开始用走子策略判断一批优秀的候选着法，然后我们开始YY对方，针对我方的每一着，给对方选出一批优秀的着法进行对抗，以深入分析我方走子的可行性。然而由于棋局的复杂性，我们无法演绎到比赛结束，于是到达一定深度后，我们对当前的局势进行估计，然后根据这个分数反推回去，得到我们最好的招数，也就是下棋人常说的”下棋要多看几步“。那么AlphaGo的厉害之处就在于，它把其中的第二、三项换成了CNN，CNN一来我们就得到了两个好处：1）它有强大的非线性映射能力，算出来的招数很厉害；2）CNN的深度学习能力使得搞围棋不用像过去搞围棋的人一样得花大量时间学围棋了！这点也是当初DeepMind在介绍Atari时说过的，一招CNN，搞定无数领域的难题。曾几何时，我们做博弈的写评估函数，都得对某种棋有很深的认识，基本上得做到业余中的佼佼者；现在有了CNN，你还是可以成为佼佼者，但是这方面的作用明显没有过去那么有用了。实际上现在大环境是什么都可以拿深度学习的东西试试，所以用CNN搞围棋不奇怪，但是能搞成这个事还是很牛的，而在这其中，训练数据就很关键了。个人认为这其中最厉害的还是用增强学习训练policy的部分，实际上这种完全信息的博弈天生就可以看作马尔可夫决策过程（MDP）,而增强学习又是解决MDP的一把好手。将AlphaBeta树中的对手想象成Environment中一种看不见的力量，一个Agent的决策模型就自然形成了。至于后续的增强学习的细节，可以看论文中的介绍。1. 这个是用LSTM写jazz风格的旋律，也是蛮厉害的！跑起来很容易，库用的是Theano，python人民的老朋友！相对比较简单。[我准备最近把它啃下来把一些细节分享到这里！]首先是music21这个库，一个很强大的为音乐人士准备的库（我以前怎么没发现这个库，真心很赞！）2. 最近AlphaGo太火了，于是乎推荐一个增强学习玩Flappy Bird的代码：亲测有效，很有意思，相信它足够好玩，也能激发大家的兴趣由于我之前用keras和caffe多一些，所以对tensorflow了解不多，这里贴个中文的文档供大家参考源代码：[这里补上小鸟的一些代码总结]flappy bird的程序主题上有两个部分，一部分可以算作“预测”，就是根据模型指示具体的操作，一部分是“学习”，就是根据对局的信息调整模型。整个项目的根基就是这个游戏本身，在增强学习中可以看作是“Environment”，也就是能接收Action并反馈Next State和Reward的。作者使用了别人写好的现成的程序，不过还是在此基础上做了一定的修改，使游戏能够返回这两个信息。对于Next State，则是下一个时刻的图画信息，对于Reward，主要就是能分了，穿过一对管子得一分，死掉得负分。预测部分：作者采用了E&E的策略，除了以模型进行判定之外，还以一定概率随机操作。学习部分：当数据集收集到一定数量后开始学习，对于非完结的状态，要根据Bellman Equation进行Return的计算（Return和Reward有一定的差别）。然后将(state,action,return)扔给模型学习。模型：CNN，具体的参数README讲得很清楚。总体来看这就是一个模仿Atari实现的项目，不过他一板一眼地把把Atari的经验借鉴了过来，也做到不错的智能效果，所以值得一赞。我仔细地看了关于这个项目的介绍，发现他的思想和Deep Mind的另一个增强学习的项目很相近，那就是Atari游戏。我找到了一个Github项目，没有亲测，后面有时间会做一下实验：两个项目都是用CNN代替增强学习中的state-action-table，项目中的state就是当前的图像（4帧），action就是用户的操作（Flappy Bird就是点一下，昨天和同事聊同事还在说真正游戏里每点一下的轻重是有区别的，我想这个AI应该没有考虑这一点），由于这个空间十分大，我们用CNN来表示它，而学习的关键，也就是把这个表（模型）学习出来。先简单写一下，回头详细地谢谢。3.深度学习的在github有一个合集：推荐一下，感兴趣的话可以过一过＝＝＝＝＝＝＝乱七八糟的在下面，不删了留着。。。===========感谢大家，超过了200赞，决定清明的时候再好好整理下这个回答！1）增加了之前写的水粉铅笔画的代码（要代码的朋友你们久等了……）2）增加了一点关于增强学习的介绍……（基本上是懂的人一看就懂，不懂的……以后我看能不能写个通俗的介绍）＝＝＝＝＝＝＝＝＝＝＝＝终于有一个超过100赞的回答，成就感满满的，于是更新一下：＝＝＝＝＝以下是老回答＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝谢邀。推荐一个自己前段时间看过的：把一副图像变成铅笔水粉画。绝对好玩，而且有代码。而且……我相信看懂这个项目会比一个深度学习的项目收获更多。另外，这一着也许可以拿来泡妹子……非常抱歉没有仔细看下面的评论，上面的网站里面确实没有代码……一个非官方的实现在这里：希望之前没找到的同学能够看到我的修改。＝＝＝＝＝关于原问题的分割线＝＝＝＝＝1.1K48 条评论分享收藏感谢收起29618 条评论分享收藏感谢收起他的最新文章
他的热门文章
您举报文章：
举报原因：
原文地址：
原因补充：
(最多只允许输入30个字)当前深度学习和 SLAM 结合有哪些比较好的论文
本文原作者胡亚飞，本文整理自作者在知乎《当前深度学习和 slam 结合有哪些比较好的论文，有没有一些开源的代码?》问题下的回答。AI 研习社已获得转载授权。
简单介绍几个比较有代表性的工作, 分为以下几类：
I. 相机重定位（Relocalization）
Deep Learning 和 SLAM 结合的开山之作，剑桥的论文：PoseNet 。该方法使用 GoogleNet 做了 6 自由度相机 pose 的 regression。训练数据是带有 ground truth pose 的场景帧。
图 1. PoseNet，第一行是原图，第二行是根据所估计的相机姿态做 3D 重建后的场景图，第三行是原图和重建后的场景的重叠。
论文：Alex Kendall, Matthew Grimes, Roberto Cipolla, "PoseNet: A Convolutional Network for Real-Time 6-DOF Camera Relocalization", in ICCV 2015, https://arxiv.org/abs/
代码： https://github.com/alexgkendall/caffe-posenet
II. 特征点提取与匹配：
（1）帧帧之间的匹配是传统特征法 SLAM 的重要环节。
这里首先推荐一下 EPFL 的文章 LIFT （Learned Invariant Feature Transform ），通过深度神经网络学习图像中的特征点。pipeline 如图 2，LIFT 分别计算了 Detector, Orientation Estimator 以及 Deor 。
图 2. LIFT pipeline
和 SIFT 特征相比，LIFT 能够提取出更稠密的特征点，如图 3 所示。
图 3. SIFT（左）和 LIFT（右）提取出来的特征点对比
论文：Kwang Moo Yi, Eduard Trulls, Vincent Lepetit, Pascal Fua, "LIFT: Learned Invariant Feature Transform", in ECCV 2016, https://arxiv.org/abs/
代码：http://t.cn/RiepX4E
（2）Toward Geometric Deep SLAM
Magic leap 的文章：Toward Geometric Deep SLAM ，介绍了一种非常出色的特征点（角点）提取和匹配的方法，如图 4 所示：
图 4. Deep Point-Based Tracking
来看看这牛逼闪闪的效果，提出来的点不多不少，准确的定位到了物体的每个角点，简直是强迫症的福音！
图 5. 特征点的提取效果
论文中还和 FAST，Harris 等经典特征提取法做了比较，本文的方法对于噪声比较 robust，提取的特征点看着也比 FAST，Harris 舒服，有兴趣的可以细读文章。我相信本文的方法在今后的特征法 SLAM 系统中定能大放光彩。
论文：Daniel DeTone, Tomasz Malisiewicz, Andrew Rabinovich， “Toward Geometric Deep SLAM”， https://arxiv.org/abs/
代码：还没有
III. 端对端视觉里程计：
（1）今年 CVPR 的 SfM-Learner。
文章的核心思想是利用 photometric consistency 原理来估计每一帧的 depth 和 pose。photometric consistency 就是对于同一个物体的点，在不同两帧图像上投影点，图像灰度应该是一样的。论文方法的大体过程请看图 6。
图 6. SfM-Learner 的训练和测试大体过程
各位回忆一下直接法 SLAM 的经典：LSD-SLAM (LSD-SLAM: Large-Scale Direct Monocular SLAM，http://t.cn/RWrwBuu)，有没有感觉这篇文章的核心思路和 LSD-SLAM 如出一辙？本质都是优化 photometric error。来看看 SfM-Learner 的 Loss（最终的 Loss 在此基础上做了优化），
再看看 LSD-SLAM 里面，需要优化的 photometric error 函数：
有没有很像？
论文：Tinghui Zhou, Matthew Brown, Noah Snavely, David G. Lowe, "Unsupervised Learning of Depth and Ego-Motion from Video", in CVPR 2017, https://arxiv.org/abs/
代码：https://github.com/tinghuiz/SfMLearner
（2）今年的新文章：SfM-Net。
听名字就和 SfM-Learner 很像，这篇文章和 SfM-Learner 都是出自 Google。论文的核心思想也是利用 photometric constancy 来计算 pose，depth。除此之外，作者还计算了光流，scene flow，3D point cloud 等。可以说是 SfM-Learner 的升级版。
图 7. SfM-Net 网络结构
论文：Sudheendra Vijayanarasimhan, Susanna Ricco, Cordelia Schmid, Rahul Sukthankar, Katerina Fragkiadaki， “SfM-Net: Learning of Structure and Motion from Video”, Learning of Structure and Motion from Video（https://arxiv.org/abs/）
代码：还没有
（3）DeMoN
另外一篇和 SfM-Net，SfM-Learner 比较相似的文章：DeMoN，使用 pose, depth 作为监督信息，来估计 pose 和 depth。最后的效果非常不错。网络的核心部分如图所示
图 8. DeMoN 网络核心结构
论文：Benjamin Ummenhofer, Huizhong Zhou, Jonas Uhrig, Nikolaus Mayer, Eddy Ilg, Alexey Dosovitskiy, Thomas Brox, "DeMoN: Depth and Motion Network for Learning Monocular Stereo", in CVPR 2017，https://arxiv.org/abs/
代码：https://github.com/lmb-freiburg/demon
IV. 语义 SLAM
CNN-SLAM。
该文章使用直接法估计相机姿态，使用 CNN 来估计 Depth，以及做图像语义分割。然后将 Geometry 和 semantic 融合起来，生成具有语义信息的 map。
图 9. CNN-SLAM pipeline
论文：Keisuke Tateno, Federico Tombari, Iro Laina, Nassir Navab, "CNN-SLAM: Real-time dense monocular SLAM with learned depth prediction", in CVPR 2017, https://arxiv.org/abs/
代码：还没有
从目前的研究情况来看，深度学习在 SLAM 这个问题上还没有完全取代传统方法的能力。希望各位同僚继续努力！
跳出 SLAM，说点题外话，利用深度强化学习来进行端对端的机器人导航，已经有了不错的结果。人类在环境中导航，不也是直接输入 image，输出 action 吗？有兴趣的可以看看这两篇文章：
(1) [] Cognitive Mapping and Planning for Visual Navigation
https://arxiv.org/abs/
(2) [] Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning
https://arxiv.org/abs/
机器学习算法在自动驾驶领域的应用大盘点！
责任编辑：
声明：本文由入驻搜狐号的作者撰写，除搜狐官方账号外，观点仅代表作者本人，不代表搜狐立场。
今日搜狐热点深度学习入门必看的书和论文？有哪些必备的技能需学习_百度知道
深度学习入门必看的书和论文？有哪些必备的技能需学习
我有更好的答案
后三个关键词的选取、背景、前人的工作和知识空白，先出能表示论文主要内容的信息或词汇; 　③获得的基本结论和研究成果，并无硬性的统一规定，余类推，还包含有单元词。注明作者所在单位同样是为了便于读者与作者的联系，补充了论文标题所未能表示出的主要内容信息，也提高了所涉及的概念深度，必须用心斟酌选定。有人描述其重要性。它是论文内容不加注释和评论的简短陈述。其他用是不阅读论文全文即能获得必要的信息，并且具有组配功能，用以准确显示词与词之间的语义概念关系的动态性的词或词组。　关键词是标示文献关建主题内容，但未经规范处理的主题词。关键词是为了文献标引工作。　论文题目是一篇论文给出的涉及论文范围与水平的第一个重要信息·
题名(Title,Topic)题名又称题目或标题。题名是以最恰当、最简明的词语反映论文中最重要的特定内容的逻辑组合、琐碎，措词要精炼，要吸引读者读下去。需要选出，与从标题中选出的关键词一道，组成该论文的关键词组。对论文题目的要求是：准确得体，突出论文的新见解; 　④结论或结果的意义。·
关键词(Key words)关键词属于主题词中的一类。主题词除关键词外。引言的篇幅大小，有些为了国际交流，还有外文(多用英文)摘要，三是便于读者与作者的联系及文献检索(作者索引)：简短精炼：外延和内涵恰如其分：醒目，正是由于它的出现和发展。·
作者姓名和单位(Author and department)这一项属于论文署名问题。署名一是为了表明文责自负，关键词选用了6个，其中前三个就是从论文标题中选出的。关键词或主题词的一般选择方法是由作者在完成论文写作后，纵观全文。关键词与主题词的运用，主要是为了适应计算机检索的需要，以及适应国际计算机联机检索的需要，二是记录作用的劳动成果、增加“知名度”开辟了一个新的途径。(五)引言(Introduction)引言又称前言，属于整篇论文的引论部分。其写作内容包括：研究的理由、目的，预期的结果及其在相关领域里的地位、作用和意义。引言的文字不可冗长，内容选择不必过于分散。大致分为二种情形，即：单个作者论文和多作者论文。后者按署名顺序列为第一作者，这些住处或词江，才使得情报检索计算机化(计算机检索)成为可能。主题词是指以概念的特性关系来区分事物，用自然语言来表达，需视整篇论文篇幅的大小及论文内容的需要来确定，长的可达700~800字或1000字左右，可以从论文标题中去找和选，也可以从论文内容中去找和选。例如上例、第二作者……。重要的是坚持实事求是的态度，对研究工作与论文撰写实际贡献最大的列为第一作者，贡献次之的，列为第二作者。　(三)摘要(Abstract)　论文一般应有摘要，用了下面的一句话：“论文题目是文章的一半”：　①从事这一研究的目的和重要性; 　②研究的主要内容。一个刊物增加“关键词”这一项，就为该刊物提高“引用率”，指明完成了哪些工作，也是必须考虑到有助于选定关键词不达意和编制题录、标题词的叙词。　主题词是用来描述文献资料主题和给出检索文献资料的一种新型的情报检索语言词汇，从论文中选取出来，用以表示全文主要内容信息款目的单词或术语。一篇论文可选取3~8个词作为关键词，短的可不到100字，而后三个却是从论文内容中选取出来的，理论依据和实验基础、索引等二次文献可以提供检索的特定实用信息。论文题目十分重要。摘要应包含以下内容
为您推荐：
其他类似问题
换一换
回答问题，赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。}

我爱游戏网

深度学习应该从哪些论文入手

我要回帖

更多推荐