能否具体解释下svo的运动估计与svo 深度滤波器估计两方面

点击联系发帖人 时间：2018-05-26 23:24

svo 深度滤波器

基于运动估计的深度信息生成技术研究
随着立体显示技术和多媒体技术的发展,众多厂家纷纷推出自己的立体显示器,立体视频技术日益受到关注。立体电视,立体电影,立体广告等对于人们已不再陌生,也取得了巨大的市场利益。早期的立体电视需要助视设备(如3D眼镜,头盔等)才可观看到立体效果,现在已出现不需要借助于任何助视设备即可观看的立体电视。目前,制约立体电视普及的因素主要有立体电视系统方案和立体视频内容的制作,而在立体视频内容中,平面视频转换立体视频技术尤为受到人们的重视。本文介绍了立体电视的原理、立体电视系统方案的发展和一种自然立体电视系统方案,从立体电视系统方案中可以看出,基于深度信息的立体电视系统方案因其能最大限度兼容当前平面电视系统,在显示端可以生成任意视角图像,在未来有可能成为立体电视的一种标准,因此,本文在介绍了两种平面视频转换立体视频方法后,提出一种基于深度信息的半自动平面视频转换立体视频方法。这种半自动转换方法是把视频序列分为关键帧和非关键帧,关键帧的深度信息人&
(本文共61页)
权威出处：
随着计算机多媒体技术的快速发展，人们对数字图像与视频有了更高的要求。传统的数字高清2D电视虽然在图像质量上较以前来说有了很大的提高，但是它显示的是二维信息，不能体现真实的三维世界，满足不了人们在观看视频时对真实感的追求。人们希望在观看视频时有一种真真切切的身临其境的感受，于是三维立体显示便应运而生。3D显示器只能播放特定的3D内容，用立体相机直接产生3D视频的方法简单方便，但是代价较高。目前已经有大量传统2D视频，寻找一种合适算法将2D视频转化为可以在立体显示器上播放的3D视频更有现实的意义。近年来，研究者通过引入不同的算法来解决2D转3D这个问题，并取得了一定的效果。目前“二维视频+深度信息”的立体视频格式在2D转3D方案中经常使用，因此如何获得2D视频序列的深度信息是2D转3D中最重要的工作。本文采用的是基于人机交互的深度信息估计方案，首先将二维视频序列分解成一帧帧图像，并依据内容人工确定为关键帧和非关键帧，然后对关键帧图像...&
(本文共56页)
权威出处：
0引言黑白电视机到彩色电视机是电视机的第一次飞跃,标清电视到高清电视是电视机的第二次飞跃,那么高清晰电视机到立体电视(3DTV)将是电视机的第三次飞跃[1]。目前,3DTV已越来越受到人们重视,图1为一套3DTV系统方案,包括3D内容制作、3D编码、传输、3D解码和终端显示五个部分。在现有的数字广播网进行实施完成后,未来人们在家里就可利用裸眼立体显示器或者经改造后的家用电视(比如佩戴专业眼镜设备等)等多种模式观看到立体电视节目,而且节目源可以在压缩之后经由电视机顶盒接收,或者制作成专门的DVD格式播放,可解决现有节目源匮乏、不稳定的问题。图1中的3D内容制作方法,主要有三种:一种是通过立体拍摄方法直接获取3D内容,即通过双(多)镜头对场景进行拍摄,并通过后期处理获得立体视频内容。一种是通过动画制作模型,结合动画脚本,实现立体场景的多通道渲染,最终获得立体视频内容。一种是将平面视频转换为立体视频,通过对平面视频进行识别和分析,获得...&
(本文共5页)
权威出处：
1立体电视系统概述进入21世纪以来,立体显示技术[1-3]获得了长足发展,以《阿凡达》为代表的一大批立体电影的出现,在全球掀起了3D立体风暴,预示着3D时代的到来。在这样的大环境下,立体电视技术也受到了学术界和工业界的广泛关注,成为电视技术领域新的研究热点和发展方向。一个完整的立体电视系统主要由立体视频采集、立体视频编码压缩、立体视频传输以及立体视频显示5部分组成,如图1所示。立体视频采集部分主要采用双摄像机拍摄、三维动画制作以及二维视频转三维视频的方法实现;立体视频压缩编码与传输部分包括立体视频压缩,对编码后视频流的纠错以及传输控制,以实现立体视频在信道上的可靠传输;立体显示部分则分为戴眼镜和不戴眼镜的显示方式。下面将从立体视频编码压缩、立体视频传输两方面介绍立体电视的相关技术和业务实现,以及未来立体电视技术发展所面临的问题。2立体视频编码压缩一般来讲,立体拍摄所得的原始立体素材具有较大的数据量。为有效利用传输带宽和存储空间,...&
(本文共7页)
权威出处：
背写色与尺在20世纪30年代初，贝尔电话实验室委托日er匕ertEugene IVes研究立体电视(Three一dimen引onalbroadCast teleVISion，3DTV)。H.E.Ives由此而研究了一系列的立体电视成像系统[1一2]，并用立体图片加以验证。现在普遍使用的柱镜光栅立体化entICUlar sheet)图像、狭缝光栅(尸a厂aljax barr，er)立体图像、视差照明(Parallax illumination)立体图像都是在那个时期研究并成为立体印刷的原始技术，同时，日.E.]V es也发明了立体照相机等一系列图像拍摄装置。但由于当时的材料、工艺、技术水平的限制，基于上述三个基本成像机理的立体电视技术的研究无法取得突破性进展。随后，由于全息技术的出现，似乎为立体电视技术的突破带来新的曙光，科学家的兴趣逐渐被吸引到全息技术的研究中，而技术视差光栅的立体电视技术的研究渐渐地淡出人们的视线。1 953年...&
(本文共4页)
权威出处：
1引言一些发达国家中近来出现了不少涉及下一代立体电视的科技研发和企业实践活动,其中最值得予以注意者是:(1)欧盟通过政策鼓励和拨款资助,推动了着重于全息技术的立体电视研发,第3.2节中“使欧洲成为这个新领域中的领先者”的提法反映了欧盟和欧洲有关产业界的巨大欲望。(2)第4节中陈述的4项全息型立体电视研发突破中,3项出自美国和日本的大学,笔者据此在第4节开头一段中,陈述了关于基础理论、基础现象和基础性元器件的探索性科研发挥了探路、开路作用的鄙见,与第3.7节标题相呼应,希望引起注意。(3)第5节中陈述的美国出现科技与艺术结合型立体影视研发制造企业一事,期待国内有关产业界予以关注。在发表于《广播电视信息》2011年第1期及第2期的拙文“拓展大众传媒的社会功能,为四个文明建设服务刍议”第4.3节中,遵循钱学森院士倡导的社会系统工程论和科学与艺术联姻论,陈述了关于落实温家宝总理“使信息网络产业成为推动产业升级、迈向信息社会的发动机”这一...&
(本文共6页)
权威出处：
0引言1.2立体电视信号的处理立体电视是利用人的双眼各自独立地接收来自同一编码器进行压缩、编码,输出ASI信号。该信号经调制后如图2所示,将来自切换台的双路HD-SDI信号送入场景的特定摄像点的左右图像,左眼看偏左的图像,右眼看偏右的图像,形成对同一场景的视觉差异(工程上称为进入传输信道(有线网、卫星网、地面无线网)。双目视差),使大脑得到图像的深度信息,产生立体视觉(来自切换台或录像机)HD-SDI R效果。立体电视具有图像的深度性、逼真性,在影视娱(来自切换台或录像机)HD-SDI L编码器ASI(R/L)调制器乐、远程教学、医疗诊断、战场仿真、科学研究等领域应用前景广泛,因此对其进行技术与服务的研究意义重大。1立体电视的制播图2立体电视信号的处理示意图至RF传输信道播放立体电视节目需要的数据量比普通(高清)电1.1立体电视的摄制视节目大,通常带宽为普通节目的2倍。对目前有线、卫摄像机L)间距调整为6.5cm,与正常成年人相...&
(本文共2页)
权威出处：
扩展阅读：
CNKI手机学问
有学问，才够权威！
xuewen.cnki.net
出版：《中国学术期刊（光盘版）》电子杂志社有限公司
地址：北京清华大学 84-48信箱大众知识服务
京ICP证040431号&
服务咨询：400-810--9993
订购咨询：400-819-9993
传真：010-&figure&&img src=&https://pic2.zhimg.com/v2-45ad74f8d80f2ffbe6c11b1_b.jpg& data-rawwidth=&768& data-rawheight=&512& class=&origin_image zh-lightbox-thumb& width=&768& data-original=&https://pic2.zhimg.com/v2-45ad74f8d80f2ffbe6c11b1_r.jpg&&&/figure&转自极市&a href=&https://link.zhihu.com/?target=http%3A//cvmart.net/community/article/detail/48& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&CVPR 2017论文：基于网格的运动统计，用于快速、超鲁棒的特征匹配（附大神解读）&/a&。&p&&b&CVPR 2017论文&/b&&/p&&p&&b&Grid-based Motion Statistics for Fast, Ultra-robust Feature Correspondence&/b&&/p&&br&&b&&ul&&li&&b&说明&/b&&br&&/li&&/ul&&br&&/b&&p&将平滑度约束引入特征匹配是已知的可以实现超强鲁棒匹配。然而，这样的匹配方案既复杂又缓慢，使得它们不适合于视频应用。本文提出了GMS（基于网格的运动统计），一种简单的方法，将运动平滑度作为一个统计量，进行局部区域的匹配。GMS可以将高匹配数字转换成高匹配质量。这提供了一个实时、超强的匹配系统。评估低质量、模糊的视频和广泛基线显示，GMS始终如一地优于其他实时匹配器。&/p&&p&办公椅演示demo&br&&/p&&a class=&video-box& href=&https://link.zhihu.com/?target=https%3A//v.qq.com/x/page/u1318owv7e0.html& target=&_blank& data-video-id=&& data-video-playable=&& data-name=&视频_腾讯视频& data-poster=&https://puui.qpic.cn/qqvideo_ori/0/u1318owv7e0_228_128/0& data-lens-id=&&&
&img class=&thumbnail& src=&https://puui.qpic.cn/qqvideo_ori/0/u1318owv7e0_228_128/0&&&span class=&content&&
&span class=&title&&视频_腾讯视频&span class=&z-ico-extern-gray&&&/span&&span class=&z-ico-extern-blue&&&/span&&/span&
&span class=&url&&&span class=&z-ico-video&&&/span&https://v.qq.com/x/page/u1318owv7e0.html&/span&
&br&&br&&p&项目主页:&a href=&https://link.zhihu.com/?target=http%3A//jwbian.net/gms& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&GMS: Grid-based Motion Statistics for Fast, Ultra-robust Feature Correspondence | Total Visits 8521 | JiaWang Bian&/a&&br&&/p&&p&本人主页:&a href=&https://link.zhihu.com/?target=http%3A//jwbian.net/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Home | Total Visits 5054 | JiaWang Bian&/a&&/p&&p&C++代码：&a href=&https://link.zhihu.com/?target=https%3A//github.com/JiawangBian/GMS-Feature-Matcher& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&JiawangBian/GMS-Feature-Matcher&/a&&/p&&p&&em&&b&以上转自视觉机器人微博&/b&&/em&&/p&&br&&b&&ul&&li&&b&以下是来自大神对论文的解读&/b&&br&&/li&&/ul&&br&&/b&&p&论文GMS的方法实际上是消除错误匹配的一种方案，比如可以替换ransac。算法执行的大致流程是：&b&先执行任意一种特征点的检测和特征点的描述子计算，论文中采用的是ORB特征。然后执行暴力匹配BF，最后执行GMS以消除错误匹配。&/b&&br&&/p&&p&opencv的ransac非常耗时，他这个GMS则非常快，比opencv的ransac快好几倍。我是说在同样特征点执行错误消除的时候要比openCV的ransac快。实际上ransac可以优化到非常快，至少可以比openCV的ransac要快10倍以上。&/p&&p&如果说是超越sift，是从最终的效果上看的。其实两个完全不是一个可以直接进行比较的对象。&/p&&br&&p&如论文中所说，ORB特征采用1w个特征点，则orb部分耗时占90%，而GMS的时间可能之占10%。论文中的GMS需要大量的特征点，占时间的将会集中在最前面部分了。这样对比才是对的：&/p&&p&&b&传统的匹配： ORB + BF + RANSAC的时间比例是：30% + 30% + 40%&/b&&/p&&p&&b&GMS匹配： ORB + BF + GMS的时间比例是：50% + 40% + 10%&/b&&/p&&br&&p&当然最终的效果的确不错，这是论文中值得称道的地方。具体还要看应用场景，gms只是解决匹配的问题，ransac除了消除错误匹配，最重要的是得到了图像之间的投影变换矩阵。而且有一点，如果把特征点的数量弄到只有几百个，那最终的效果势必会大打折扣。具体需要进一步去跑跑代码才能知道。&/p&&br&&p&我的结论是：&b&在同样特征点个数的情况下，用ORB+BF+GMS 的时间小于 SIFT + RANSAC的时间。&/b&&/p&&br&&p&为了保证效果,特征点的个数就会很多。这时候ORB+BF+GMS的匹配效果要远好于SIFT+RANSAC,但整个时间可能和SIFT+SANSAC的时间相当甚至还要长。&/p&&br&&p&附大神的博客：&a href=&https://link.zhihu.com/?target=http%3A//blog.csdn.net/celerychen2009& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&CeleryChen 致力于语音图像视频算法在各种硬件体系结构下的最优化实现&/a&&/p&&p&附大神的分享：&a href=&https://link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s%3F__biz%3DMzI5MDUyMDIxNA%3D%3D%26mid%3D%26idx%3D1%26sn%3D3cafe5e82fdc5b5baa78%26chksm%3Dec1fef57dbb7fa417daa48c284e4e33ff8ad1aedacbfd652fee76d9dd%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&面向移动端的目标检测算法&/a&&/p&&p&附原作者线上分享视频回放：&/p&&a href=&https://link.zhihu.com/?target=https%3A//www.bilibili.com/video/av/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&【极市】边佳旺-稳定的图像特征匹配以及快速的GMS方案_演讲o公开课_科技_bilibili_哔哩哔哩&/a&
转自极市。CVPR 2017论文Grid-based Motion Statistics for Fast, Ultra-robust Feature Correspondence 说明将平滑度约束引入特征匹配是已知的可以实现超强鲁棒匹配。然而…
&p&谢邀。&/p&&p&利益相关：机器视觉工程师，前Kinect应用Developer&/p&&p&3D扫描其实太概括了。这里面涵盖了3D传感器信号处理，3D图像的重构和3D图像的应用这几个非常大的Topic，单独拿任意一个话题都可以挖的很深，作为PhD方向都完全够用。所以这里就不深入了写了。&/p&&p&&b&应用前景：&/b&&/p&&p&家用领域：游戏是我想到的最有前景的市场，事实上XBOX的Kinect也是销量最好的游戏机外设之一。3D扫描结合VR可以给玩家提供沉浸式的游戏体验。&/p&&p&医用领域：&/p&&p&1. 医学成像/辅助诊断：利用MRI或CT等并重构3D图像，利用算法对特定组织/器官进行Segmentation，辅助医生诊断。&/p&&p&2. 物理治疗，辅助康复及评估：类似于游戏应用，对于有移动障碍需要理疗的病人，类似的应用可以帮助医生评估其康复程度（如可活动性等），甚至可以用来引导病人进行康复训练。&/p&&p&工业领域：&/p&&p&1. 工业测量与检测 (Measurement and Inspection): 对于工业产品进行相应的测量及缺陷检测，精度可达到微米级别。这一方面，工业应用已经非常成熟。&/p&&p&2. 机器人引导 (3D Vision Guided Robotics)：利用3D图像重构帮助机器人进行物品定位，并进行抓取放置动作。这一领域处于工业领域前沿，目前应用较少。&/p&&p&&b&阻碍：&/b&&/p&&p&我认为目前最大的阻碍为两个：&/p&&p&1. 算法准确性：在医用和工业领域，对于算法精度的要求较高，很多当前的算法并不能达到要求。&/p&&p&2. 计算能力限制：工业应用对于处理时间尤为敏感，目前很多较为复杂的应用处理时间过长，导致不能满足工业需求。&/p&&p&总体而言，个人认为这是一个非常有前景的领域。&/p&
谢邀。利益相关：机器视觉工程师，前Kinect应用Developer3D扫描其实太概括了。这里面涵盖了3D传感器信号处理，3D图像的重构和3D图像的应用这几个非常大的Topic，单独拿任意一个话题都可以挖的很深，作为PhD方向都完全够用。所以这里就不深入了写了。应用前…
&p&现在有啦！&/p&&p&最近，微软亚洲研究院云计算及移动计算组推出了一个有趣的研究项目：寻路（Path Guide），提供低成本、即插即用的室内导航服务。在“领路人”的带领下，用户可以跟随前人的移动轨迹在室内找到通向某地的正确路线。&/p&&br&&p&————这里是正式回答的分割线————&/p&&br&&p&室外GPS导航应用的大规模普及，拯救了无数路痴患者于水火之中。只要拥有一台智能手机，人们便可以在陌生国度的城市里轻松地找到一条通往目的地的路径。但“路痴”这个词尚未完全退出历史的舞台：由于卫星信号的衰减，GPS在室内几乎毫无用武之地。&/p&&p&最近，微软亚洲研究院云计算及移动计算组推出了一个有趣的研究项目：&b&寻路（Path Guide）&/b&，提供低成本、即插即用的室内导航服务。在“领路人”的带领下，用户可以跟随前人的移动轨迹在室内找到通向某地的正确路线。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-4b1e90de14cafe8149da5_b.jpg& data-rawwidth=&626& data-rawheight=&442& class=&origin_image zh-lightbox-thumb& width=&626& data-original=&https://pic2.zhimg.com/v2-4b1e90de14cafe8149da5_r.jpg&&&/figure&&br&&p&“寻路”界面（界面显示语言会根据系统语言自动切换中英文）&/p&&br&&h2&&b&室内导航，真的遥不可及吗？&/b&&/h2&&p&我们先来解释一下为什么不能用GPS做室内导航技术。&/p&&p&GPS导航首先需要解决的是定位问题。简单来说，就是手持设备中的GPS接收芯片收到用于定位的卫星信号，并以此计算出设备坐标。由于GPS卫星信号功率极低，穿透能力很差，因此常常受到建筑墙体的阻隔而无法进入室内。其次，即使有了精确的定位结果，导航所依赖的地图信息在室内场景下也并不容易获得，所以实时室内导航就更无从谈起了。&/p&&p&那么，&b&目前室内导航都有哪些解决思路呢？&/b&&/p&&p&首先一种比较受欢迎的做法是基于&b&蓝牙信标定位&/b&的导航方法。以苹果推出的iBeacon为例，&b&在一个或多个iBeacon基站的帮助下，智能手机的软件能大致得到其在地图上的位置，从而进行路线规划和导航&/b&。但是由于蓝牙的传输距离较短，从而导致在大型室内环境（商场、写字楼）中会产生极高的部署和维护成本。&/p&&p&另外一种解决方案是基于&b&Wi-Fi信号&/b&进行定位和导航。相比蓝牙信标，Wi-Fi在室内环境中更加常见。&b&与蓝牙方法类似，这类方法主要通过无线信号衰减模型和三角定位法确定移动设备的大致位置&/b&。亦有其他一些通过信号相位差、传输时间差、信道状态等方式的定位系统。但其本质都是利用来自不同Wi-Fi天线的信号差异及相互关系进行定位。此外，也可以利用机器学习算法将室内区域进行网格划分，根据每个区域的信号强度信息生成热力图进行训练，从而提高定位的准确性。但是由于室内环境的复杂性，Wi-Fi信号很容易受环境的变化而改变，因此维护成本依然很高、精度也受到Wi-Fi路由器部署密度、环境稳定性、训练时长等的制约。&/p&&p&还有一些基于&b&专用设备&/b&的解决方案。&b&通过在室内各个区域部署大量的专业传感设备，包括RFID、红外线、超声波、摄像头甚至激光设备&/b&等等。这类解决方案虽然克服了精度问题，但是高昂的硬件成本也使其难以扩展和推广。&/p&&p&此外，室内导航一般依赖于室内地图。而大型室内环境地图数据的采集、制作及表达等问题始终悬而未决，且耗费巨大，这为室内导航技术的普适应用打上了一个巨大的问号。&/p&&p&那么，如何实现&b&低成本、即插即用、易扩展&/b&的室内导航呢？&/p&&br&&h2&&b&寻路：一种有趣的室内导航解决方案&/b&&/h2&&p&在以上背景下，微软亚洲研究院的研究员们将目光投向了人人都有的智能手机上。&/p&&p&随着手机的一代代升级，&b&如今手机上的各种传感器越来越多，比如加速度传感器、陀螺仪、电子罗盘、气压计&/b&等。如何最大限度地发挥这些传感器的功能，用这类传感器数据作为室内导航的依据便成了主要的研究课题。在实验中研究员们发现，室内的磁场信息会受到建筑结构的干扰。于是，&b&基于不同位置的磁力传感器数据的室内导航&/b&想法应运而生。&/p&&p&鉴于上述基本原理，以及在移动计算、普适计算和智能感知等领域的多年积累，微软亚洲研究院云计算及移动计算组的研究员们开发出了“寻路”这款可以提供室内导航服务的应用。它&b&完全不需要室内地图信息，也不需要在室内预装任何硬件设备&/b&，在智能手机上下载应用后即可立即使用，完全实现了低成本、即插即用和易扩展的室内导航推广需求。&/p&&p&这项应用可在多个场景下使用。例如：你与几个同事初次前往某大型写字楼的某会议室与客户开会，但该写字楼内布局复杂且公司众多，因此会议室并不好找。而你的同事A此前来开过会，所以被任命为“领路人”。领路人在进入写字楼门口时，打开APP，拍下自己的起点，并使用该APP记录自己的路线。&/p&&br&&figure&&img src=&https://pic2.zhimg.com/v2-364fe7baf19_b.jpg& data-rawwidth=&640& data-rawheight=&1012& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic2.zhimg.com/v2-364fe7baf19_r.jpg&&&/figure&&br&&p&当他到达会议室后，选择结束路线，并将这一路线在APP上分享给其他同事。这样，同事们在到达写字楼后，打开APP就可以根据同事A分享的路线进行导航，并最终找到会议室。&/p&&br&&figure&&img src=&https://pic1.zhimg.com/v2-5de7f5a3c8bf46760bac20ffa6af18a4_b.jpg& data-rawwidth=&640& data-rawheight=&1001& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic1.zhimg.com/v2-5de7f5a3c8bf46760bac20ffa6af18a4_r.jpg&&&/figure&&br&&p&如果是在商场等更加开放的场景下，“领路人”还可以将自己的路线分享给其他所有人，这样所有用户均可搜索到该路线，并通过APP找到目的地，比如一家隐蔽的餐厅或者服装店等。&/p&&p&其实“寻路”的原理非常简单，它通过收集智能手机在运动过程中的磁场、加速度传感器、陀螺仪和气压计等数据的变化来记录用户的相对运动轨迹（包括步数信息、转弯和上下楼等），进而生成一个参考路线供用户分享。后者只需要沿着“领路人”的路线指引即可找到对应的位置。在路线创建的过程中，“寻路”也支持添加个性化文字、语音及照片等功能，既为分享路线增添了乐趣也能帮助后续用户更容易地找到终点。&/p&&p&不过作为仍处于研究阶段的应用，“寻路”在用户体验上还有提升的空间，大家多试几次即可上手。观看教程视频，请前往&a href=&//link.zhihu.com/?target=https%3A//mspg.azurewebsites.net/Home/Tutorial& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&项目官网&/a&。&/p&&br&&h2&&b&室内导航的多种运用&/b&&/h2&&p&正如我们在户外越来越多地依赖GPS指路一样，未来在地形复杂的办公大楼、火车站、飞机场或购物中心里，精准的室内导航服务将使人们可以轻松前往想去的地点。例如，会议邀请邮件附带会议室的导航轨迹；在超市或大卖场，手机自动带你去往所需商品所在的柜位等等。&/p&&br&&figure&&img src=&https://pic4.zhimg.com/v2-00ebbfbaed6e_b.jpg& data-rawwidth=&640& data-rawheight=&262& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic4.zhimg.com/v2-00ebbfbaed6e_r.jpg&&&/figure&&br&&p&此外，用户还可以收到当前所处位置可能需要的信息。举例而言，逛街购物时手机将能告诉你相关店面现在有什么优惠，以及商品信息与评价。而博物馆或展览馆的导览系统也能运用该技术，指引参观者走到特定的展品前，并接收该项展品的相关信息。&/p&&p&“在微软亚洲研究院，我们有着充分的自由来实现这些有趣的研究想法。”该项目的研发负责人，微软亚洲研究院研究员舒元超表示，“我们希望‘寻路’这项前沿研究创意能够被更多的用户体验，也欢迎各类反馈与建议。”在谈及室内导航的研究前景时，舒元超表示：“室内导航这项研究还有许多不同的可能性，在未来，我们希望能推出更加成熟的室内导航商业服务，与大家一起创造更多使用的场景和可能。”&/p&&p&快来体验“寻路”的魔力吧！目前，大家可以陆续在Google Play等安卓应用市场搜索&Path Guide&或在&a href=&//link.zhihu.com/?target=https%3A//mspg.azurewebsites.net/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&项目官网&/a&下载“寻路”，并和小伙伴们分享你的室内“寻路”体验。&b&如果你有什么体验心得也可以第一时间在应用内的“建议与反馈”处提交或者给我们留言&/b&。研究员们会根据大家的意见加以改进并不断提升用户体验。毕竟，这目前还是一个基于研究的原型系统。&/p&&br&&p&————这里是回答结束的分割线————&/p&&br&&p&以上回答摘选自微软研究院AI头条，&a href=&//link.zhihu.com/?target=https%3A//mp.weixin.qq.com/s%3F__biz%3DMzAwMTA3MzM4Nw%3D%3D%26mid%3D%26idx%3D1%26sn%3D6d532fb17be30a0d948c2%26chksm%3D82c0ab58b5bdea4a42a3e1cff56f6cfc3424%23rd& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&寻路：室内导航新玩法&/a&。 &/p&&p&感谢大家的阅读。&/p&&p&本账号为微软亚洲研究院的官方知乎账号。本账号立足于计算机领域，特别是人工智能相关的前沿研究，旨在为人工智能的相关研究提供范例，从专业的角度促进公众对人工智能的理解，并为研究人员提供讨论和参与的开放平台，从而共建计算机领域的未来。&/p&&p&微软亚洲研究院的每一位专家都是我们的智囊团，你在这个账号可以阅读到来自计算机科学领域各个不同方向的专家们的见解。请大家不要吝惜手里的“邀请”，让我们在分享中共同进步。&/p&&p&也欢迎大家关注我们的&a href=&//link.zhihu.com/?target=http%3A//t.sina.com.cn/msra& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&微博&/a&和微信账号，了解更多我们研究。&/p&&p&&a href=&//link.zhihu.com/?target=http%3A//weixin.qq.com/r/PUliejrEzWeyrX4Z9xwv& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&weixin.qq.com/r/PUliejr&/span&&span class=&invisible&&EzWeyrX4Z9xwv&/span&&span class=&ellipsis&&&/span&&/a& (二维码自动识别)&/p&
现在有啦！最近，微软亚洲研究院云计算及移动计算组推出了一个有趣的研究项目：寻路（Path Guide），提供低成本、即插即用的室内导航服务。在“领路人”的带领下，用户可以跟随前人的移动轨迹在室内找到通向某地的正确路线。 ————这里是正式回答的分割…
&p& 如果你出门问别人『学习SLAM需要哪些基础？』之类的问题，一定会有很热心的大哥大姐过来摸摸你的头，肩或者腰（不重要），一脸神秘地从怀里拿出一本比馒头还厚的《Multiple View Geometry》或《State Estimation For Robotics》或《An Invitation to 3D Computer Vision》塞给你。然后告诉你，只要潜心修炼两年，一定会……&/p&&br&&p&千万不要信他们的鬼话！&/p&&br&&p&视觉SLAM是一个视觉问题的小分支，但是涉及的知识点繁杂错乱，对于想入门学习SLAM的人来说，一头扎进教科书，从『1+1』这样的知识点开始学将会非常痛苦。窃以为比较针对性的SLAM书籍应该是从系统上层讲清楚SLAM的职责和经典结构，然后对于经典SLAM系统分解，就其中重要的组件和涉及到的知识点进行讲解，并辅以代码实例供初学者把玩……不出一个月……顶多两个月，你就可以对SLAM的经典问题有个由上到下的理解，不说立马能进入研发状态，但跟别人吹吹牛是没有问题的了……&/p&&br&&p&谁都想要这样一本SLAM书籍，那些投资人估计买书钱都准备好了，但这样书压根就不存在……我的意思是全世界范围内都不存在。像我们这些当年学SLAM的，只能硬着头皮看那些大部头，看那些个大牛的博士论文……别提多痛苦了……捂脸。&/p&&br&&p&现在好了，德艺双馨的高博扛起大旗，拨开这三十年视觉SLAM蓬勃发展的乱麻，撰写《视觉SLAM……十……四……讲》填补了这个世界级空白……这对中文SLAM圈子的成长和发展有极大的正面意义。对于那些想要入坑的新朋友，强烈推荐阅读。除了配有实例代码外，还有活人@半闲居士在线答疑……小伙子你就别犹豫了！&/p&
如果你出门问别人『学习SLAM需要哪些基础？』之类的问题，一定会有很热心的大哥大姐过来摸摸你的头，肩或者腰（不重要），一脸神秘地从怀里拿出一本比馒头还厚的《Multiple View Geometry》或《State Estimation For Robotics》或《An Invitation to 3D Co…
现在深夜四点，熬了一夜粗读了Cartographer的核心代码。忍无可忍，提前填坑。&br&&br&Cartographer的算法应该算是state-of-art，但就我读文章[1]时的感受，感觉并没有牛逼到让我合不拢嘴的程度（当然很有可能是我太愚钝了）。泛泛总结一下就是，这个玩意用Grid（2D/3D）的形式建地图；局部匹配直接建模成一个非线性优化问题，利用IMU提供一个比较靠谱的初值；后端用Graph来优化，用分支定界算法来加速；2D和3D的问题统一在一个框架下解决。&br&&br&算法的具体过程先放一边，先来感受一下算法的&b&设计目标&/b&：低计算资源消耗，实时优化，不追求高精度。这个算法的&b&目标应用场景&/b&昭然若揭：&b&室内用服务机器人（如&/b&&b&扫地机器人&/b&&b&）、无人机&/b&等等&b&计算资源有限、对精度要求不高、且需要实时避障的和寻路&/b&的应用&b&。&/b&特别是3D SLAM，如果能用在无人机上，岂不是叼炸天。&br&&br&我不掌握Google内部关于这个项目的消息，这里诛心一点：现在扫地机器人、端茶倒水机器人、无人机等等火的不要不要的，Google要插一杠子进来。虽然暂时只是一个SLAM库，但后续发展谁知道呢？会不会出现机器人的Android系统呢？ &br&&figure&&img src=&https://pic1.zhimg.com/463ccb42ea534b5278e08_b.jpg& data-rawwidth=&292& data-rawheight=&173& class=&content_image& width=&292&&&/figure&小米扫地机器人研发了两年，SLAM效果非常好。Cartographer有可能降低了友商追赶的门槛。&br&&br&而且读代码之后，我认为Cartographer这个库&b&最重要的东西还不是算法，而是实现&/b&。&br&这玩意儿实现得太TM牛逼了，只有一个操字能形容我看到代码时的感觉。&br&&br&2D/3D的SLAM的核心部分仅仅依赖于以下几个库：&br&&ul&&ul&&li&&b&Boost&/b&：准标准的C++库。&/li&&li&&b&Eigen3&/b&：准标准的线性代数库。&/li&&li&&b&Lua&/b&：非常轻量的脚本语言，主要用来做Configuration&/li&&li&&b&Ceres&/b&：这是Google开源的做非线性优化的库，仅依赖于Lapack和Blas&/li&&li&&b&Protobuf&/b&：这是Google开源的很流行的跨平台通信库&br&&/li&&/ul&&/ul&没有PCL，g2o, iSAM, sophus, OpenCV, ROS 等等，所有轮子都是自己造的。这明显不是搞科研的玩儿法，就是奔着产品去的。前面说过，算法需要的计算资源少，而且因为依赖很少，因此&b&几乎可以直接应用在一个产品级的嵌入式系统上&/b&。以前学术界出来的开源2D/3D SLAM算法不少，但能几乎直接拿来就用在产品上的，恕我孤陋寡闻还真想不出来。因此，我认为进入相关领域SLAM算法的门槛被显著降低了。&br&&br&这个算法效果看起来完全够用，但根本不需要在效果上成为最牛逼的。开源、需要资源少，代码干净拿来就能使，不用ROS、PCL、OpenCV等庞然大物也能做2D甚至3D SLAM，而且效果还不错。&br&&br&呼，幸亏在下创业是搞机器臂智能软件的，不是某某、某某、某某等公司的，要不然岂不是要睡不着觉？现在创业者除了担心BAT模仿，还要担心谷歌开源（笑）。&br&&br&发布短短几天，Cartographer就已经是Github上所有有关SLAM的repo中&b&获得Star最多&/b&的了，一举超过了许多诞生多年的知名repo。就问你怕不怕。&br&&br&前两天刷朋友圈看到余凯老师呼吁大家少用TensorFlow(参见：&a href=&https://www.zhihu.com/question/& class=&internal&&如何评价余凯在朋友圈发表呼吁大家用caffe, mxnet等框架，避免使用TensorFlow？ - 百度&/a&)，当时&br&&figure&&img src=&https://pic2.zhimg.com/452ccfcf19_b.jpg& data-rawwidth=&580& data-rawheight=&335& class=&origin_image zh-lightbox-thumb& width=&580& data-original=&https://pic2.zhimg.com/452ccfcf19_r.jpg&&&/figure&才TM两天就被教做人了。。。我只能算是DL的初级应用者，对TensorFlow的态度当然是坐享其成。但是2D/3D SLAM对我来说就更为熟悉和相关了。熬夜读Cartographer的代码时，我居然似乎有点儿理解了余凯老师的想法。。。&br&&br&当年微软等公司不开源，招致FSF为首的键盘侠们疯狂的口诛笔伐。如今G家恨不得开源一切，搞&b&实际控制&/b&，我只能说&br&&figure&&img src=&https://pic3.zhimg.com/f7c6d691c95b3fc23d92b08d48e97ed6_b.jpg& data-rawwidth=&338& data-rawheight=&324& class=&content_image& width=&338&&&/figure&&br&[1]：Google关于2D SLAM文章，发表于ICRA 2016, 链接：&a href=&//link.zhihu.com/?target=https%3A//research.google.com/pubs/archive/45466.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&research.google.com/pub&/span&&span class=&invisible&&s/archive/45466.pdf&/span&&span class=&ellipsis&&&/span&&/a&
现在深夜四点，熬了一夜粗读了Cartographer的核心代码。忍无可忍，提前填坑。 Cartographer的算法应该算是state-of-art，但就我读文章[1]时的感受，感觉并没有牛逼到让我合不拢嘴的程度（当然很有可能是我太愚钝了）。泛泛总结一下就是，这个玩意用Grid（2D…
还是说视觉slam吧。&br&先说视觉这块，首先射影几何的一些内容相机模型，单视几何，双视几何和多视几何。这些内容可以在&a href=&//link.zhihu.com/?target=http%3A//www.robots.ox.ac.uk/%7Evgg/hzbook/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Multiple View Geometry in Computer Vision&/a&这本书中找到。英文版的，另外中科院的吴福朝编著的“计算机视觉中的数学方法”也很好，涵盖了上述了MVG in CV book中的大部分内容，强烈安利。&br&&br&然后是一些视觉特征，这方面就是一些特征，描述子，匹配相关等。见SIFT，ORB、BRISK、SURF等文章。&br&&br&数学方面首先是三维空间的刚体运动，参考&a href=&//link.zhihu.com/?target=https%3A//www.amazon.cn/%25E6%259C%25BA%25E5%%25E4%25BA%25BA%25E5%25AD%25A6-%25E8%%25E8%2587%25AA%25E5%/dp/B002SMDN0W& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&《机器人学(第2版)》蔡自兴【摘要书评试读】图书&/a&。&br&&br&关于优化，SLAM中的优化方法十分基本，参考高斯牛顿，LM，结合稀疏线性代数。其实用的时候会使用一种g2o的图优化库或者ceres。参考文章 g2o: A General Framework for Graph Optimization &br&&a href=&//link.zhihu.com/?target=http%3A//ais.informatik.uni-freiburg.de/publications/papers/kuemmerle11icra.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&ais.informatik.uni-freiburg.de&/span&&span class=&invisible&&/publications/papers/kuemmerle11icra.pdf&/span&&span class=&ellipsis&&&/span&&/a&&br&&br&最难的应该算是李群和李代数，这方面可以参考book [state estimation for Robotics](&a href=&//link.zhihu.com/?target=http%3A//asrl.utias.utoronto.ca/%7Etdb/bib/barfoot_ser15.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&asrl.utias.utoronto.ca/&/span&&span class=&invisible&&~tdb/bib/barfoot_ser15.pdf&/span&&span class=&ellipsis&&&/span&&/a&)。当然不想看书的话可以参考博客&a href=&//link.zhihu.com/?target=http%3A//www.cnblogs.com/gaoxiang12/tag/%25E6%259D%258E%25E4%25BB%25A3%25E6%/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&李代数 - 标签 - 半闲居士 - 博客园&/a&。&br&&br&为了看论文的时候能够比较流畅，还应该具备一些概率论的知识，这里推荐book[Probabilistic Robotics](&a href=&//link.zhihu.com/?target=http%3A//www.probabilistic-robotics.org/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&probabilistic-robotics.org&/span&&span class=&invisible&&/&/span&&span class=&ellipsis&&&/span&&/a&) [pdf](&a href=&//link.zhihu.com/?target=https%3A//docs.ufpr.br/%7Edanielsantos/ProbabilisticRobotics.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&docs.ufpr.br/~danielsan&/span&&span class=&invisible&&tos/ProbabilisticRobotics.pdf&/span&&span class=&ellipsis&&&/span&&/a&)&br&&br&话说高翔博士近期完成一本SLAM的入门book，有理论有实践，写的不错，推荐。他包含了上述在视觉slam需要的所有基础知识，真是造福大众啊。详细研读此书，以后读各种论文就不会显得那么吃力了吧。最后列举一些玩slam的一些必备工具和相关资源。&br&&br& tools&br&&br&1. ubuntu,
cmake, bash, vim, qt(optional).&br&2. OpenCV install, read the opencv reference manual and tutorial&br&3. ros, [install](&a href=&//link.zhihu.com/?target=http%3A//wiki.ros.org/ROS/Installation& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&ROS/Installation - ROS Wiki&/a&), [tutorial}(&a href=&//link.zhihu.com/?target=http%3A//wiki.ros.org/ROS/Tutorials& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&ROS/Tutorials - ROS Wiki&/a&).&br&4. python. 可以使用pycharm,作为IDE.&br&为什么使用ubuntu？因为大家的代码，全是用linux，而且很多使用ros的，ros一定是要Linux的，同时还要cmake。Ubuntu是比较适合初学Linux的人，非常好用。&br&&br&somethind about Calibration&br&&br&1. [opencv camera Calibration](&a href=&//link.zhihu.com/?target=http%3A//docs.opencv.org/2.4/modules/calib3d/doc/camera_calibration_and_3d_reconstruction.html& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&docs.opencv.org/2.4/mod&/span&&span class=&invisible&&ules/calib3d/doc/camera_calibration_and_3d_reconstruction.html&/span&&span class=&ellipsis&&&/span&&/a&)&br&2. [matlab camera Calibration toolbox](&a href=&//link.zhihu.com/?target=http%3A//www.vision.caltech.edu/bouguetj/calib_doc/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Camera Calibration Toolbox for Matlab&/a&)&br&3. [svo camera Calibration](&a href=&//link.zhihu.com/?target=https%3A//github.com/uzh-rpg/rpg_svo/wiki/Camera-Calibration& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&uzh-rpg/rpg_svo&/a&)&br&4. [ros wiki camera Calibration](&a href=&//link.zhihu.com/?target=http%3A//wiki.ros.org/camera_calibration& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&camera_calibration - ROS Wiki&/a&)&br&为什么要标定相机呢，因为slam的模型中假设相机的内参数是已知的，因此有了这个内参数我们才能正确的初始化slam系统。&br&&br&slam open sources&br&&br&1. [svo](&a href=&//link.zhihu.com/?target=https%3A//github.com/uzh-rpg/rpg_svo/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&uzh-rpg/rpg_svo&/a&)&br&2. [orb slam](&a href=&//link.zhihu.com/?target=https%3A//github.com/raulmur/ORB_SLAM2& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&raulmur/ORB_SLAM2&/a&)&br&3. [ar_tracker_alvar githun page](&a href=&//link.zhihu.com/?target=https%3A//github.com/sniekum/ar_track_alvar& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&sniekum/ar_track_alvar&/a&) [ros page](&a href=&//link.zhihu.com/?target=http%3A//wiki.ros.org/ar_track_alvar& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&ar_track_alvar - ROS Wiki&/a&)&br&4. [ros ptam](&a href=&//link.zhihu.com/?target=http%3A//wiki.ros.org/ethzasl_ptam& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&ethzasl_ptam - ROS Wiki&/a&),原始代码不支持ros, 这里给出ros版本的代码. 原始[代码](&a href=&//link.zhihu.com/?target=https%3A//github.com/Oxford-PTAM/PTAM-GPL& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Oxford-PTAM/PTAM-GPL&/a&)[网站](&a href=&//link.zhihu.com/?target=http%3A//www.robots.ox.ac.uk/%7Egk/PTAM/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Parallel Tracking and Mapping for Small AR Workspaces (PTAM)&/a&)&br&5. DSO &a href=&//link.zhihu.com/?target=https%3A//github.com/JakobEngel/dso& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&JakobEngel/dso&/a&&br&&br&ros books&br&&br&1. Learning ROS for Robotics Programming&br&2. 机器人操作系统（ROS）浅析&br&3.
ros by example &a href=&//link.zhihu.com/?target=http%3A//www.ros.org/news/book/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&http://www.lulu.com/shop/http://www.lulu.com/shop/r-patrick-goebel/ros-by-example-indigo-volume-1/ebook/product-.html&/a&&br&&br&some blogs about ros&br&&br&1. &a href=&//link.zhihu.com/?target=http%3A//www.guyuehome.com/page/1& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&古月居 - 怕什么真理无穷，进一寸有一寸的欢喜&/a&&br&&br&&br&SLAM基础学习&br&&br&1. [Multiple View Geometry in Computer Vision](&a href=&//link.zhihu.com/?target=http%3A//www.robots.ox.ac.uk/%7Evgg/hzbook/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Multiple View Geometry in Computer Vision&/a&)。&br&2. Sparse Matrix [Sparse Non-Linear Least Squares in C/C++](&a href=&//link.zhihu.com/?target=http%3A//users.ics.forth.gr/%7Elourakis/sparseLM/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Sparse Non-Linear Least Squares in C/C++&/a&)&br&3. [openSLAM](&a href=&//link.zhihu.com/?target=https%3A//www.openslam.org/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&openslam.org/&/span&&span class=&invisible&&&/span&&/a&)&br&4. dataset [tum](&a href=&//link.zhihu.com/?target=https%3A//vision.in.tum.de/data/datasets/rgbd-dataset& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&RGB-D SLAM Dataset and Benchmark&/a&)&br&5. [PCL](&a href=&//link.zhihu.com/?target=https%3A//github.com/PointCloudLibrary/pcl& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&PointCloudLibrary/pcl&/a&)&br&6. [opencv](&a href=&//link.zhihu.com/?target=http%3A//opencv.org/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&OpenCV | OpenCV&/a&)&br&&br&推荐阅读的书&br&&br&1. [Multiple View Geometry in Computer Vision](&a href=&//link.zhihu.com/?target=http%3A//www.robots.ox.ac.uk/%7Evgg/hzbook/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Multiple View Geometry in Computer Vision&/a&)&br&2. [Probabilistic Robotics](&a href=&//link.zhihu.com/?target=http%3A//www.probabilistic-robotics.org/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&probabilistic-robotics.org&/span&&span class=&invisible&&/&/span&&span class=&ellipsis&&&/span&&/a&) [pdf](&a href=&//link.zhihu.com/?target=https%3A//docs.ufpr.br/%7Edanielsantos/ProbabilisticRobotics.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&docs.ufpr.br/~danielsan&/span&&span class=&invisible&&tos/ProbabilisticRobotics.pdf&/span&&span class=&ellipsis&&&/span&&/a&)&br&3. [state estimation for Robotics](&a href=&//link.zhihu.com/?target=http%3A//asrl.utias.utoronto.ca/%7Etdb/bib/barfoot_ser15.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&asrl.utias.utoronto.ca/&/span&&span class=&invisible&&~tdb/bib/barfoot_ser15.pdf&/span&&span class=&ellipsis&&&/span&&/a&)&br&4. [Quaternion kinematics for the error-state KF](&a href=&//link.zhihu.com/?target=http%3A//www.iri.upc.edu/people/jsola/JoanSola/objectes/notes/kinematics.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&iri.upc.edu/people/jsol&/span&&span class=&invisible&&a/JoanSola/objectes/notes/kinematics.pdf&/span&&span class=&ellipsis&&&/span&&/a&)&br&5. 凸优化，&a href=&//link.zhihu.com/?target=https%3A//web.stanford.edu/%7Eboyd/cvxbook/bv_cvxbook.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&web.stanford.edu/~boyd/&/span&&span class=&invisible&&cvxbook/bv_cvxbook.pdf&/span&&span class=&ellipsis&&&/span&&/a&&br&6. 线性系统理论，&a href=&//link.zhihu.com/?target=https%3A//www.amazon.com/Linear-System-Electrical-Computer-Engineering/dp/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Chi-Tsong Chen: 0: Amazon.com: Books&/a&&br&7. An Invitation to 3-D Vision，&a href=&//link.zhihu.com/?target=https%3A//www.eecis.udel.edu/%7Ecer/arv/readings/old_mkss.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&eecis.udel.edu/~cer/arv&/span&&span class=&invisible&&/readings/old_mkss.pdf&/span&&span class=&ellipsis&&&/span&&/a&&br&8. Rigid Body Dynamics，&a href=&//link.zhihu.com/?target=http%3A//authors.library.caltech.edu/25023/1/Housner-HudsonDyn80.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&authors.library.caltech.edu&/span&&span class=&invisible&&/25023/1/Housner-HudsonDyn80.pdf&/span&&span class=&ellipsis&&&/span&&/a&。&br&&br&paper about
vision slam&br&&br&- Georg Klein and David Murray, &Parallel Tracking and Mapping for Small AR Workspaces&, In Proc. International Symposium on Mixed and Augmented Reality (ISMAR'07, Nara).&br&- D. Scaramuzza, F. Fraundorfer, &Visual Odometry: Part I - The First 30 Years and Fundamentals IEEE Robotics and Automation Magazine&, Volume 18, issue 4, 2011.&br&- F. Fraundorfer and D. Scaramuzza, &Visual Odometry : Part II: Matching, Robustness, Optimization, and Applications,& in IEEE Robotics & Automation Magazine, vol. 19, no. 2, pp. 78-90, June 2012.&br&doi: 10.1109/MRA.&br&- A Kalman Filter-Based Algorithm for IMU-Camera Calibration Observability Analysis and Performance Evaluation&br&- SVO- Fast Semi-Direct Monocular Visual Odometry&br&- [eth zasl sensor](&a href=&//link.zhihu.com/?target=http%3A//wiki.ros.org/ethzasl_sensor_fusion& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&ethzasl_sensor_fusion - ROS Wiki&/a&),&br&
- Stephan Weiss. Vision Based Navigation for Micro Helicopters PhD Thesis, 2012 pdf&br&
- Stephan Weiss, Markus W. Achtelik, Margarita Chli and Roland Siegwart. Versatile Distributed Pose Estimation and Sensor Self-Calibration for Autonomous MAVs. in IEEE International Conference on Robotics and Automation (ICRA), 2012. pdf&br&
- Stephan Weiss, Davide Scaramuzza and Roland Siegwart, Monocular-SLAM–based navigation for autonomous micro helicopters in GPS-denied environments, Journal of Field Robotics (JFR), Vol. 28, No. 6, 4. pdf&br&
- Stephan Weiss and Roland Siegwart. Real-Time Metric State Estimation for Modular Vision-Inertial Systems. in IEEE International Conference on Robotics and Automation (ICRA), 2011. pdf&br&
- Simon Lynen, Markus Achtelik, Stephan Weiss, Margarita Chli and Roland Siegwart, A Robust and Modular Multi-Sensor Fusion Approach Applied to MAV Navigation. in Proc. of the IEEE/RSJ Conference on - - Intelligent Robots and Systems (IROS), 2013. pdf&br&- [orb slam]&br&
- Raúl Mur-Artal, J. M. M. Montiel and Juan D. Tardós. ORB-SLAM: A Versatile and Accurate Monocular SLAM System. IEEE Transactions on Robotics, vol. 31, no. 5, pp. , 2015. (2015 IEEE Transactions on Robotics Best Paper Award). PDF.&br&
- Dorian Gálvez-López and Juan D. Tardós. Bags of Binary Words for Fast Place Recognition in Image Sequences. IEEE Transactions on Robotics, vol. 28, no. 5, pp. , 2012.&br&&br&最后来张脑图&br&&figure&&img src=&https://pic3.zhimg.com/v2-57addafd4bb750e3d2cb82_b.png& data-rawwidth=&1451& data-rawheight=&1422& class=&origin_image zh-lightbox-thumb& width=&1451& data-original=&https://pic3.zhimg.com/v2-57addafd4bb750e3d2cb82_r.jpg&&&/figure&
还是说视觉slam吧。先说视觉这块，首先射影几何的一些内容相机模型，单视几何，双视几何和多视几何。这些内容可以在这本书中找到。英文版的，另外中科院的吴福朝编著的“计算机视觉中的数学方法”也很好，涵盖了…
&p&同意 &a data-hash=&ee9fcc7a131b5065c44fa& href=&//www.zhihu.com/people/ee9fcc7a131b5065c44fa& class=&member_mention& data-hovercard=&p$b$ee9fcc7a131b5065c44fa&&@默然&/a&的，加个实际的例子：&br&&figure&&img src=&https://pic2.zhimg.com/v2-8a2c7b4cd14d20fb1104bae71112aa15_b.jpg& data-rawwidth=&4208& data-rawheight=&3120& class=&origin_image zh-lightbox-thumb& width=&4208& data-original=&https://pic2.zhimg.com/v2-8a2c7b4cd14d20fb1104bae71112aa15_r.jpg&&&/figure&这个是我做的，看到底下挂着的那一桶了吗？标准的一加仑水（3.78升，将近四个大桶可乐）。&br&这玩意在冬天可以续航20分钟左右，飞行高度高于400英尺（100米以上），速度没敢试。&br&地面站软件用的Mission planner, 给一个初中生都会操作，在地图上画几个线而已。飞控Pixhawk,成熟的飞控。&br&&br&有着负载量，软件这么简单，真的想干嘛都可以....&br&&br&----------------------------------&br&&b&&i&&u&安全第一，避开人群密集区，遵守法律法规，别给自己惹事！！！！&/u&&/i&&/b&&br&&b&&i&&u&几公斤的东西从一百米掉人脑袋顶上，可不是闹着玩的。&/u&&/i&&/b&&/p&
同意的，加个实际的例子：这个是我做的，看到底下挂着的那一桶了吗？标准的一加仑水（3.78升，将近四个大桶可乐）。这玩意在冬天可以续航20分钟左右，飞行高度高于400英尺（100米以上），速度没敢试。地面站软件用的Mission planner, 给一个初中生…
&figure&&img src=&https://pic4.zhimg.com/v2-baa6b_b.jpg& data-rawwidth=&1146& data-rawheight=&652& class=&origin_image zh-lightbox-thumb& width=&1146& data-original=&https://pic4.zhimg.com/v2-baa6b_r.jpg&&&/figure&&p&你能想象没有堵车的北京，畅通无阻的长安街吗？根据驭势科技CEO，前英特尔中国研究院院长研究发现，无人驾驶将是解决城市拥堵问题的重要关键。未来20年，无人驾驶汽车可帮助高速公路容纳汽车能力提高5倍，平均时速可以提到2-3倍。&/p&&p&无人车取代真人驾驶，就像现在正发生的电动车正在取代汽油车一样。从Google、Uber、百度到奔驰、特斯拉，全世界资本正涌向这个前途无量的领域。然而，无人驾驶并不只是科技巨头的专利，&strong&你，也可以造一辆无人驾驶汽车。&/strong&&/p&&p&&strong&在春节来临之际，为回馈所有BitTiger同学一年以来对我们无私的支持，本次课程仅象征性收取10USD。&/strong&&/p&&br&&p&&strong&通过本次课程你将获得&/strong&&/p&&ul&&li&&p&Self-driving 领域最新研究成果&/p&&/li&&li&&p&无人车技术的关键难点&/p&&/li&&li&&p&无人驾驶的新思路&/p&&/li&&li&&p&无人驾驶的电脑视觉处理&/p&&/li&&li&&p&建造过程中的技术难点与突破&/p&&/li&&/ul&&p&（本次课程全英文授课）&/p&&br&&br&&h2&&strong&讲师介绍&/strong&&/h2&&p&&strong&Andrew Raharjo Tsai&/strong&&/p&&figure&&img src=&https://pic4.zhimg.com/v2-2b3d8f046d1866b66edcbbf_b.png& data-rawwidth=&872& data-rawheight=&524& class=&origin_image zh-lightbox-thumb& width=&872& data-original=&https://pic4.zhimg.com/v2-2b3d8f046d1866b66edcbbf_r.jpg&&&/figure&&p&任职Vector.ai CEO 毕业于佛罗里达理工大学电子和计算机工程。曾在美国领先的国防工业公司Lockheed Martin和Northrop Grumman 就职多年。参与众多国防高等研究计划署DARPA项目。目前也任职优达学城Udacity无人驾驶汽车课程导师。精通SLAM，ConvNet和controllers。&/p&&p&&strong&在2016年，他在自家车库中自制了一辆无人车。&/strong&&/p&&p&&figure&&img src=&https://pic1.zhimg.com/v2-fd92960df8_b.png& data-rawwidth=&1286& data-rawheight=&1366& class=&origin_image zh-lightbox-thumb& width=&1286& data-original=&https://pic1.zhimg.com/v2-fd92960df8_r.jpg&&&/figure&
Andrew的无人车谍照&br&&/p&&br&&p&&figure&&img src=&https://pic1.zhimg.com/v2-7ec5cb438bf9d0e69d054_b.jpg& data-rawwidth=&1080& data-rawheight=&1920& class=&origin_image zh-lightbox-thumb& width=&1080& data-original=&https://pic1.zhimg.com/v2-7ec5cb438bf9d0e69d054_r.jpg&&&/figure&报名链接（点击阅读原文）：&a href=&http://link.zhihu.com/?target=https%3A//www.bittiger.io/livecourses/BpSzn3RviYAA5pGKf& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&BitTiger&/a&&/p&&figure&&img src=&https://pic4.zhimg.com/v2-df0b9b3a36a86f405aef_b.png& data-rawwidth=&1388& data-rawheight=&852& class=&origin_image zh-lightbox-thumb& width=&1388& data-original=&https://pic4.zhimg.com/v2-df0b9b3a36a86f405aef_r.jpg&&&/figure&
你能想象没有堵车的北京，畅通无阻的长安街吗？根据驭势科技CEO，前英特尔中国研究院院长研究发现，无人驾驶将是解决城市拥堵问题的重要关键。未来20年，无人驾驶汽车可帮助高速公路容纳汽车能力提高5倍，平均时速可以提到2-3倍。无人车取代真人驾驶，就像…
svo我从头到尾看过一遍，基本上只要你有问题我应该都可以答上来。&br&&br&-------------------------------------------------------------&br&提纲&br&&ol&&li&svo简介&/li&&li&Tracking部分&/li&&li&Mapping部分&/li&&li&评述&/li&&/ol&&br&-------------------------------------------------------------&br&1. SVO 简介&br&SVO 全称 Semi-direct monocular Visual Odometry（半直接视觉里程计），是苏黎世大学机器人感知组的克里斯蒂安.弗斯特（Christian Forster，主页：&a href=&//link.zhihu.com/?target=http%3A//www.cforster.ch/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Christian Forster&/a&）等人，于2014年ICRA会议上发表的工作，随后在github开源：&a href=&//link.zhihu.com/?target=https%3A//github.com/uzh-rpg/rpg_svo& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&uzh-rpg/rpg_svo&/a& 。2016年扩展了多相机和IMU之后，写成期刊论文，称为SVO 2.0，预定将在IEEE Trans. on Robotics上发表（视频见[2]）。SVO 2.0目前未开源（个人认为以后也不会开）。&br&&figure&&img src=&https://pic3.zhimg.com/v2-392f016a15d97fb9d592_b.jpg& data-rawwidth=&280& data-rawheight=&362& class=&content_image& width=&280&&&/figure&&br&（克里斯蒂安.弗斯特，图片来自bing）&br&&br&SVO主要工作由弗斯特完成，此外他也在乔治亚理工的gtsam组呆过一段时间，参与了gtsam中IMU部分，文章发表在RSS 2015上，亦是VIO当中的著名工作[3]。此文章后续亦有期刊版本，预计也在TRO上发表。不过会议论文中公式推导有误，而且弗斯特本人似乎只参与了实现部分，没怎么管公式推导……当然这些都是八卦，不谈了。与SVO相关工作是同一组的REMODE[4]，实现了在SVO定位基础上的单目稠密建图（需要GPU），由SVO的二作马蒂亚（Matia Pizzoli）完成。&br&&br&SVO，虽然按照作者的理解，称为“半直接法”，然而按照我个人的理解，称为“稀疏直接法”可能更好一些。众所周知，VO主要分为特征点法和直接法。而SVO的实现中，混合使用了特征点与直接法：它跟踪了一些关键点（角点，没有描述子，由FAST实现），然后像直接法那样，根据这些关键点周围的信息，估计相机运动以及它们的位置。这与特征点法（以ORB-SLAM为代表）那样，需要对每张图像提取特征点和描述子的实现，是有明显不同的。所以，作者称之为“半直接法”。&br&&br&不过，由于SVO跟踪的“关键点”，亦可以理解成“梯度明显的像素”。从这个角度来看，它和LSD-SLAM[5]更加相近。只是LSD-SLAM跟踪了所有梯度明显的像素，形成半稠密地图；而SVO只跟踪稀疏的关键点，所以不妨称之为“稀疏直接法”。这一点，和今年慕尼黑理工丹尼尔.克莱默（Daniel Cremers）组的雅各布.恩格尔（Jakob Engel）提出的DSO[6]是很相似的。（PS：ORB,LSD,SVO几个作者似乎都去了同一个公司啊……那我还搞啥……）&br&&br&在视觉里程计中，直接法最突出的优点是非常快（ORB作者劳尔曾认为特征点比较快，我觉得是不对的）。而在直接法中（包括稀疏的，半稠密的以及稠密的），使用稀疏的直接法，既不必费力去计算描述子，也不必处理像稠密和半稠密那么多的信息，能够达到极快的速度。因此，SVO即使在低端计算平台上也能达到实时性，而在PC平台上则可以达到100多帧每秒的速度。在作者后续工作SVO 2.0中，速度更达到了惊人的400帧每秒。这使得SVO非常适用于计算平台受限的场合，例如无人机、手持AR/VR设备的定位。无人机也是弗斯特等人最初开发SVO的目标应用平台。&br&&br&SVO另一特点是实现了一种特有的深度滤波器（Depth Filter）。这里一种基于均匀——高斯混合分布的深度滤波器，由弗吉亚兹于2011年提取并推导[7]。由于原理较为复杂，之后再详细解释。SVO将这种滤波器用于关键点的深度估计，并使用了逆深度作为参数化形式，使之能够更好地计算特征点位置。这里SVO在建图线程中的主要任务。&br&&br&开源版的SVO代码清晰易读，十分适合读者作为第一个SLAM实例进行分析。初学者可以从SVO或ORB开始读起，弗斯特写代码一直比较清楚。&br&&br&SVO的整体框架如下图所示：&br&&br&&figure&&img src=&https://pic3.zhimg.com/v2-d7b1aa778a3febb48b3fc52_b.png& data-rawwidth=&666& data-rawheight=&721& class=&origin_image zh-lightbox-thumb& width=&666& data-original=&https://pic3.zhimg.com/v2-d7b1aa778a3febb48b3fc52_r.jpg&&&/figure&&br&整个过程分为两个大模块：追踪与建图（与PTAM类似）。&br&&ul&&li&上半部分为追踪部分。主要任务是估计当前帧的位姿。又分为两步：&/li&&ul&&li&先把当前帧和上一个追踪的帧进行比对，获取粗略的位姿。&/li&&li&然后根据粗略的位姿，将它与地图进行比对，得到精确的位姿并优化见到的地图点。随后判断此帧是否为关键帧。如果为关键帧就提取新的特征点，把这些点作为地图的种子点，放入优化线程。否则，不为关键帧的时候，就用此帧的信息更新地图中种子点的深度估计值。&br&&/li&&/ul&&li&下半部分为建图部分。主要任务是估计特征点的深度。因为单目SLAM中，刚提的特征点是没有深度的，所以必须用新来的帧的信息，去更新这些特征点的深度分布，也就是所谓的“深度滤波器”。当某个点的深度收敛时，用它生成新的地图点，放进地图中，再被追踪部分使用。&br&&/li&&/ul&整个SVO架构要比ORB简单一些（ORB有三个线程，且要处理关键帧的共视关系和回环检测），所以效率也要高一些。下面详细谈这两个模块的做法。&br&&br&-------------------------------------------------------------&br&2. 追踪（Tracking）部分&br&追踪部分理解难点主要有两个：&br&&ul&&li&如何计算帧与帧之间位姿变换？&/li&&li&如何计算帧与地图之间的位姿变换？&br&&/li&&/ul&下面分别来说这两点。&br&&br&2.1 Frame-to-Frame的位姿变换&br&追踪的第一步是将当前帧与上一个追踪成功的帧进行对比，粗略估计当前帧的位姿。该问题的基本形式为：已知上一帧对地图点的观测（包括2D投影位置和深度），以及当前帧的图像，如何计算当前帧的位姿？用数学语言说，已经&img src=&//www.zhihu.com/equation?tex=k-1& alt=&k-1& eeimg=&1&&帧的位姿&img src=&//www.zhihu.com/equation?tex=T_%7Bk-1%7D& alt=&T_{k-1}& eeimg=&1&&，并且知道它的观测量&img src=&//www.zhihu.com/equation?tex=u_i%2C+i%3D1%2C+%5Cldots%2C+N& alt=&u_i, i=1, \ldots, N& eeimg=&1&&时，求解&img src=&//www.zhihu.com/equation?tex=T_%7Bk-1%2Ck%7D& alt=&T_{k-1,k}& eeimg=&1&&。&br&&figure&&img src=&https://pic4.zhimg.com/v2-87a1dc1f04fb_b.png& data-rawwidth=&588& data-rawheight=&339& class=&origin_image zh-lightbox-thumb& width=&588& data-original=&https://pic4.zhimg.com/v2-87a1dc1f04fb_r.jpg&&&/figure&&br&&br&在SVO里，该问题被称为 Model-based Image Alignment （带有相机模型的图像配准），实际上就是我们平时说的稀疏直接法。直接法的原理在我的博客中给出过比较细的推导：&a href=&//link.zhihu.com/?target=http%3A//www.cnblogs.com/gaoxiang12/p/5689927.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&直接法 - 半闲居士 - 博客园&/a& ，此外我也讲过一次讲座：&a href=&//link.zhihu.com/?target=http%3A//www.bilibili.com/video/av6299156/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&直接法的原理与实现_高翔_bilibili_演讲o公开课_科技_bilibili_哔哩哔哩弹幕视频网&/a& 。本质上，它通过最小化前一帧和当前帧之间的光度误差来求得当前帧的（粗略）位姿：&br&&figure&&img src=&https://pic1.zhimg.com/v2-4ab3bdcf51066abfabdd48_b.png& data-rawwidth=&585& data-rawheight=&89& class=&origin_image zh-lightbox-thumb& width=&585& data-original=&https://pic1.zhimg.com/v2-4ab3bdcf51066abfabdd48_r.jpg&&&/figure&&br&要理解它，你需要非线性优化的基本知识。同时，为了求目标函数相对于位姿的导数，你需要学习一些李代数的知识。这在我的博客和讲座中均有比较详细的探讨：&br&&ul&&li&&a href=&//link.zhihu.com/?target=http%3A//www.bilibili.com/video/av7705856/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&视觉slam第4章_演讲o公开课_科技_bilibili_哔哩哔哩弹幕视频网&/a& &br&&/li&&li&&a href=&//link.zhihu.com/?target=http%3A//pan.baidu.com/s/1c2qPdle& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&非线性优化与g2o录像：http://pan.baidu.com/s/1c2qPdle&/a& &/li&&/ul&由于不想在知乎打公式，所以请读者去看视频和讲座以了解其中原理（因为都已经讲过一遍了）。实现当中，SVO自己实现了高斯——牛顿法的迭代下降，并且比较取巧地使用了一种反向的求导方式：即雅可比在k-1帧图像上进行估计，而不在k帧上估计。这样做法的好处是在迭代过程中只需计算一次雅可比，其余部分只需更新残差即可（即G-N等式右侧的&img src=&//www.zhihu.com/equation?tex=-J%5ETe& alt=&-J^Te& eeimg=&1&&）。这能够节省一定程度的计算量。另一个好处是，我们能够保证k-1帧的像素具有梯度，但没法保证在k帧上的投影也具有梯度，所以这样做至少能保证像素点的梯度是明显的。&br&&br&实现当中另一个需要注意的地方是金字塔的处理。这一步估计是从金字塔的顶层开始，把上一层的结果作为下一层估计的初始值，最后迭代到底层的。顶层的分辨率最小，所以这是一个由粗到精的过程（Coarse-to-Fine），使得在运动较大时也能有较好的结果。&br&&br&值得一提的是，完全可以使用优化库，例如g2o或ceres来实现所有的步骤。在优化库中，可以选用更多的优化方式，而且L-M或Dogleg的结果也会比G-N更有保证。我自己就用两个库各实现过一遍。&br&&br&2.2 Frame-to-Map&br&在2.1求解之后，我们得到了当前帧位姿的粗略估计。因为它是基于上一帧的结果来计算的，所以如果把它当作真实位姿估计的话，将有较大的累积误差。因此，需要进一步和地图之间进行特征点比对，来对当前帧位姿进一步优化。主要步骤如下：&br&&ul&&li&遍历地图中的所有点，计算在当前帧的投影位置。由于当前帧有粗略的位姿估计，这个投影位置应该与真实位置有少量误差（2~3个像素）。&/li&&li&对每个成功投影的地图点，比较这些点的初始观测图像与当前帧的图像。通过计算光度的误差，求取更精准的投影位置。这步类似于光流，在SVO中称为Refinement。&/li&&li&根据更精确的投影位置，进行位姿与地图点的优化。这一步类似于Bundle Adjustment，但SVO实现中，是把Pose和Point两个问题拆开优化的，速度更快。&/li&&li&判断是否生成关键帧，处理关键帧的生成。&br&&/li&&/ul&这里理解的难点是，地图点初次被观测到的图像与当前帧的图像进行比对时，不能直接对两个图像块求差，而需要计算一个仿射变换（Affine Warp）。这是因为初次观测和当前帧的位移较远，并且可能存在旋转，所以不能单纯地假设图像块不变。仿射变换的计算方式在PTAM论文的5.3节有介绍，似乎是一种比较标准的处理方式。（其实SVO的追踪部分和PTAM整个儿都挺像。）&br&&br&实现当中可能还需要注意一些细节。例如有些地方使用了网格，以保证观测点的均匀分布。还有Affine Warp当中需要注意特征点所在的金字塔层数，等等。&br&&br&此后的Bundle Adjustment部分和传统的区别不大，除了把pose和point分开计算之外。关键帧判断方面，SVO是比较薄弱的（考虑的东西太少），和ORB相比差了不少。&br&&br&-------------------------------------------------------------&br&3 Mapping部分&br&Mapping部分主要是计算特征点的深度。如前所言，单目VO中，刚刚从图像中提取的热乎的关键点是没有深度的，需要等相机位移之后再通过三角化，再估计这些点的深度。这些尚未具备有效深度信息的点，不妨称之为种子点（或候选点）。然而，三角化的成功与否（以及精度），取决于相机之间的平移量和视线的夹角，所以我们通常要维护种子点的深度分布，而不是单纯的一个深度值。&br&&br&牵涉到概率分布的，往往都是理论一大堆屁话，实际可以操作的只有高斯分布一种——高斯只要在计算机里存均值和协方差即可。在逆深度[8]流行起来之后，用逆深度的高斯分布成了SLAM中的标配。然而SVO却使用了一种高斯——均匀混合分布的逆深度（由四个参数描述），推导并实现了它的更新方式，称为Depth Filter。它的工作逻辑大概是这样的：&br&&ul&&li&如果进来一个关键帧，就提取关键帧上的新特征点，作为种子点放进一个种子队列中。&/li&&li&如果进来一个普通帧，就用普通帧的信息，更新所有种子点的概率分布。如果某个种子点的深度分布已经收敛，就把它放到地图中，供追踪线程使用。&br&&/li&&/ul&当然实现当中还有一些细节，比如删掉时间久远的种子点、删掉很少被看到的种子点等等。&br&&br&要理解Depth Filter，请搞清楚这两件事：&br&&ol&&li&基于高斯——均匀的滤波器，在理论上的推导是怎么样的？&/li&&li&Depth Filter又是如何利用普通帧的信息去更新种子点的？&br&&/li&&/ol&&br&第1个问题，请参照论文[4],[7],以及[7]的补充材料，以及补充材料的补充材料。相信研究SVO的人应该都推导过，并不很难，静下心来推一遍即可，我当时也就一块小白板就推完了。在SLAM群的群文件里有一个depth filter.pdf，也给出了推导过程：&br&&figure&&img src=&https://pic2.zhimg.com/v2-ccecab32391d_b.png& data-rawwidth=&1920& data-rawheight=&1030& class=&origin_image zh-lightbox-thumb& width=&1920& data-original=&https://pic2.zhimg.com/v2-ccecab32391d_r.jpg&&&/figure&或者请看&a href=&//link.zhihu.com/?target=http%3A//www.cnblogs.com/luyb/p/5773691.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&SVO原理解析 - 路游侠 - 博客园&/a& 。我觉得应该用不着把公式在知乎上再敲一遍……&br&&br&第2个问题，你需要搞明白极线搜索这件事。由于种子点的深度不确定，它在别的帧里看起来就在一条直线（极线）上：&br&&figure&&img src=&https://pic4.zhimg.com/v2-e9d783f5c7_b.png& data-rawwidth=&710& data-rawheight=&461& class=&origin_image zh-lightbox-thumb& width=&710& data-original=&https://pic4.zhimg.com/v2-e9d783f5c7_r.jpg&&&/figure&于是你从这条极线的一个端点走到另一个端点，把每处的图像块都和参考的去比较，就可以（可能）找到正确的匹配了。哦别忘了要Affine Warp一下……找到之后，让depth filter更新其深度分布即可。当然如果位移太小或视线平行性太高，让深度变得更加不确定也是有可能的。在理想情况下，你可以期待一个地图点经过不断观测之后收敛的过程。&br&&br&-------------------------------------------------------------&br&4 评述&br&以上就是SVO的基本工作原理了。那么，这样一套系统实际工作起来效果如何呢？相比于其他几个开源方案有何优劣呢？&br&&br&首先要澄清一点的是：开源版本的SVO，是一个比较挫的版本。相比于LSD或ORB，我还很少看到有人能一次性把SVO跑通的。但是从论文上看，开源版本并不能代表SVO的真实水平。所以应该是心机弗斯特开源了一个只有部分代码的，不怎么好用的版本，仅供学习研究使用。相比之下，DSO，LSD，ORB至少能够在自己数据集上顺利运行，而ORB、LSD还能在大部分自定义的相机上运行，这点开源版本的SVO是做不到的。&br&&br&那么，抛开开源实现，从理论和框架上来说，SVO有何优劣呢？&br&&br&优点：&br&&ul&&li&着实非常快，不愧为稀疏直接法；&/li&&li&关键点分布比较均匀；&br&&/li&&/ul&缺点：（不是我嫌弃它，确实有一堆可以吐槽的地方）&br&&ol&&li&首先这货是VO，不是SLAM，没有闭环。这意味着丢失后没法重定位——丢了基本就挂了。&/li&&li&追踪部分：SVO首先将当前帧与上一个追踪的帧比较，以求得粗略的位姿估计。这里存在一个问题：这必须要求上一个帧是足够准确的！那么问题就来了：怎么知道上一个帧是准的呢？开源SVO里甚少考虑出错的情况。如果上一个帧由于遮挡、模糊等原因丢失，那么当前帧也就会得到一个错误的结果，导致和地图比对不上。又由于这货是没法重定位的，所以就。。。挂了呗。。。&/li&&li&还是追踪部分。既然是直接法，SVO就有直接法的所有缺点。后面那位同学来背一遍直接法缺点？&/li&&/ol&&ul&&li&怕模糊（需要全局曝光相机）&/li&&li&怕大运动（图像非凸性）&/li&&li&怕光照变化（灰度不变假设）&br&&/li&&/ul&
4. 地图部分：&br&&ul&&li&Depth Filter收敛较慢，结果比较严重地依赖于准确的位姿估计。如果统计收敛的种子点的比例，会发现并不高，很多计算浪费在不收敛的点上。&/li&&li&相比于纯高斯的逆深度，SVO的Depth Filter主要特点是能够通过Beta分布中的两个参数a,b来判断一个种子点是否为outlier。然而在特征点法中我们也能够通过描述来判断outlier，所以并不具有明显优势。&br&&/li&&/ul&&br&--------------------------------------------------------------------------------------------&br&小结&br&&ol&&li&SVO是基于稀疏直接法的视觉里程计，速度非常快。&/li&&li&代码清晰易读，研究SVO会有不少启发。&/li&&li&但是开源实现存在诸多缺点，不实用。论文中效果应该不是这个开源代码能够实现的。&br&&br&--------------------------------------------------------------------------------------------&br&&/li&&/ol&&br&参考文献&br&[1] Foster et al., SVO: Fast semi-direct monocular visual odometry, ICRA 2014. &br&[2] &a href=&//link.zhihu.com/?target=http%3A//rpg.ifi.uzh.ch/svo2/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&SVO 2.0&/a&&br&[3] Foster et al., IMU preintegration on manifold for efficient visual-inertial maximum-a-posteriori estimation, RSS 2015.&br&[4] Pizzoli, Matia and Forster, Christian and Scaramuzza, Davide, REMODE: Probabilistic, monocular dense reconstruction in real time, ICRA 2014. &br&[5] Engel, Jakob and Schops, Thomas and Cremers, Daniel, LSD-SLAM: Large-scale direct monocular SLAM, ECCV, 2014. &br&[6] Engel, Jakob and Koltun, Vladlen and Cremers, Daniel, Direct sparse odometry, 2016.&br&[7] George Vogiatzis and Carlos Hernández, Video-based, real-time multi-view stereo, Image and Vision Computing, 2011.&br&[8] Civera, Javier and Davison, Andrew J and Montiel, JM Martinez, Inverse depth parametrization for monocular SLAM, IEEE transactions on robotics, 2008.&br&&br&附：SVO相关中文博客、材料&br&&ul&&li&&a href=&//link.zhihu.com/?target=http%3A//fengbing.net/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&冯兵的博客|内外兼修
&一步步完善视觉里程计&是对SVO比较完整的介绍。&/a&&/li&&li&&a href=&//link.zhihu.com/?target=http%3A//www.voidcn.com/blog/heyijia0327/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&白巧克力亦唯心的博客 - 程序园&/a&
贺一家的博客，有几篇关于SVO的介绍。&/li&&li&&a href=&//link.zhihu.com/?target=http%3A//www.cnblogs.com/luyb/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&路游侠 - 博客园&/a& 这个是谁。。。知道的回复我一下。。。&/li&&li&&a href=&//link.zhihu.com/?target=http%3A//www.bilibili.com/video/av5934066/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&ORB-LSD-SVO比较-刘浩敏_bilibili_演讲o公开课_科技_bilibili_哔哩哔哩弹幕视频网&/a& 浩敏师兄讲的一次ppt&/li&&/ul&&br&&p&&br&嗯，大概就这些，别嫌我啰嗦……&/p&
svo我从头到尾看过一遍，基本上只要你有问题我应该都可以答上来。 ------------------------------------------------------------- 提纲 svo简介Tracking部分Mapping部分评述 ------------------------------------------------------------- 1. SVO 简介 …
由于工作与科研的关系，接触了一些3D sensor ，双目的话，首先，灰点公司的大黄蜂，之前实验室用的bumblebee2，现在应该出最新的了，直接可以输出深度图的那种，工业相机很稳定，在实验室自己制作的小车（跑起来比较颠簸）成像依旧没有问题（不糊），就是比较贵，适合科研。。。还有个缺点就是1394的接口不好，需要一个转接卡，才能在PC端使用，嵌入式设备上使用比较困难。然后就是Stereolabs推出的ZED立体相机，可以输出实时的深度图，USB的接口，使用比较方便，深度图的计算是使用本地的GPU计算的，没有真正使用过只是试了下，在室内感觉深度图效果还不错。。。。&br&还有就是一些小公司的啦，比如，人加智能的movesense，也是直接输出深度图的双目相机，本地使用fpga计算的，USB的接口，使用过一段时间，做避障之类的基本够用啦，不过楼主如果想用纯双目做交互类的话，还是有一定困难的吧？添加结构光会好一些吧？室外的话接触过的就是以上三款啦，哈哈哈～～～～感觉由于大家需求不一样，很多公司都在自己做符合自己需求的双目相机吧？！？
由于工作与科研的关系，接触了一些3D sensor ，双目的话，首先，灰点公司的大黄蜂，之前实验室用的bumblebee2，现在应该出最新的了，直接可以输出深度图的那种，工业相机很稳定，在实验室自己制作的小车（跑起来比较颠簸）成像依旧没有问题（不糊），就是比…
已有帐号？
无法登录？
社交帐号登录
5784 人关注
2807 条内容
7541 人关注
339 条内容
11980 人关注
544 条内容
6599 人关注
137 条内容
4133 人关注
329 条内容}

我爱游戏网