如何打造基于摄像头的感知定位解决方案？DeepMotion给出了答案

2018年06月08日 19:22:41
来源：智东西

4月20日起，智东西公开课推出自动驾驶系列课第二季，9位自动驾驶新势力的创始人和高管将带来9节系列课。

自动驾驶系列课第二季第六课由DeepMotion联合创始人兼CEO蔡锐主讲，主题为《自动驾驶的感知定位与高精地图解决方案》。共计9184字，预计10分钟读完。一起了解下课程的提纲：

1、自动驾驶中的感知定位与高精地图

2、如何构建高精地图众包解决方案

3、DeepMotion感知定位解决方案解析

4、落地案例

在浏览正文之前，可以先思考以下几个问题：

-环境感知、高精定位与高精地图三者之间的关系是什么？

-为使得自动驾驶落地更可期，环境感知、高精定位与高精地图三者应该如何配合？

-众包高精地图的构建条件是什么？

-DeepMotion自动驾驶系统有什么优势？

-如何平衡高清定位中各传感器的权重问题？

主讲实录

蔡锐：大家晚上好，我是DeepMotion的蔡锐。首先感谢智东西的邀请，非常高兴有机会和大家交流，也非常开心在周末的晚上能有这么多的朋友来参与公开课，感谢大家。

我今天分享的主题是自动驾驶的感知定位与高精地图解决方案。自动驾驶的感知定位和高精地图，随便抽取任何一个环节出来都足够讲一天，因此今天在这里就利用时间和大家主要是分享一下我们对这几大块之间的一些想法和认知。

首先介绍一下我们自己，深动科技成立于2017年7月，整个团队专注于为高级别智能驾驶提供安全可靠、可量产的环境感知、高清地图构建以及高精定位的解决方案。

创始团队主要来自微软研究院，均从事了多年的计算机视觉，包括立体视觉以及深度学习相关的一些工作。微软的一些核心产品比如必应搜索、Hololens与微软认知服务也都有我们的贡献，我们在这块有着丰富的经验和积累。

从最早的DARPA智能驾驶比赛到Google在2009年开始做这件事情，再到Waymo以及到目前国内外各种自动驾驶技术的逐渐成熟。我们可以看到，在不计成本的情况下，从技术方面来说，自动驾驶的可行性已经得到了较为充分的验证。所以目前在整个发展过程中，大家更愿意或者更需要花力气去做一些事情，如何在成本和性能之间达到一个更好的平衡，这也是整个商业发展所必然经历的一个过程，类似地，从最早的飞机的发明到商用也是这样的一个过程。深动科技希望在这个过程中，立足于技术创新，推动整个高级别智能驾驶技术的逐步落地和深化。

今天主要和大家分享三个部分的内容：

1，环境感知、高精定位与高精地图，分享一下我们对高级别智能驾驶中环境感知、高精定位与高精地图这三个模块之间的关系的理解；

2，解决方案：众包高精地图构建，讲解一下在众包高清地图构建方面的一些解决方案；

3，基于高精地图的感知与定位。

首先来谈谈第一部分，关于环境感知、高精定位和高清地图之间的关系以及我们的一些思考。

关于智能驾驶，普通大众最了解以及最能直观感受的就是环境感知这部分了，环境感知是智能驾驶中相对于现有的汽车工业来说的一个全新模组，因此也得到了最多的关注。

目前在环境感知方面，大家可能有不同的方案，有激光雷达方案，分为高线束和低线束；也会有传统的视觉方案，使用摄像头；毫米波雷达的微波反射信号等；对于激光雷达，大家最主要的工作就是从点云中快速地分辨出障碍物和有语义信息的物体，比如行人、车辆等；在视觉方面，如上图所示，要判断图像中每个像素的类别，从而达到对环境的语义理解；相对而言，毫米波雷达的信号主要是一些微波反射，现在一些可以成像的毫米波雷达技术也在发展之中。目前还有一些多传感器融合的工作，比如把激光点云信号和图像信号对齐，然后在更高维的特征空间中去做一些事情，这些都是很好的趋势。这里我想强调一点，目前的感知技术基本上也只是用了传感器本身的信息而已，并没有去考虑别的可能有用的信息。

高精定位，可能在相应的科技报道里面提的会比较少，但是相信对于智能驾驶的从业者来说，对这一块都应该是非常熟悉。目前高级别智能驾驶的解决方案，基本上还是采用了最早的测绘级定位手段，主要是依赖专业级的GNSS，再加上一个专业级陀螺仪做的INS来做车辆的姿态估计，为了能达到车道级别的定位准确性，会辅以RTK信号，可以用自建的基站或者是用千寻位置等企业提供的RTK服务。

对于高精定位这种专业级的设备，如果要求在GPS失锁时的精度能达到足够高，那么对惯导本身的要求以及价格成本就会呈指数级增长，市面上大家能用的设备，便宜的可能是数万块钱，如果不计成本，那么价格在30万以上都会是有的。

大部分无人驾驶系统中，高精定位做为一个独立运作的功能模块，主要是通过卫星和惯导信号的组合来得到对车辆位置的独立估计。这在以寻迹为主，或者一些规定路线驾驶中也能达到很好的效果。但是在一些更广阔的使用环境里面，比如城区高楼密集的情况下，也会是有一定的挑战。

现在高精地图领域，主要是以图商为主在做一些高精地图的绘制和采集。目前比较成熟的方式还是采用专业测绘的方式，就是用激光和高精定位结合的方式对环境进行三维扫描和重建。

目前一辆专业级的采集设备，价格可能是800万到1000多万，稍微便宜一点的，至少也得百万起步。

在采集的过程中，专业技术人员在每次作业之前都会对车辆和设备进行校准，在需要的情况下，会辅以RTK的基站来规划采集的路线。因此可以看出人力成本也是不可忽略的。

此外，内外业人员的配比目前也是行业的一个痛点，因为外业采集一公里的数据，内业处理的时间或者处理的人数会达到1:5或者是1:6，甚至是更高的配比。

目前高精地图的绘制会把更多更精确的信息记录下来，包括坐标的信息，比如坡度、横坡、曲率等。在有可能的情况下，还会进一步记录路面的反射率，这主要是为了后期能识别路面的交通标识，以及希望反射率能够在一定条件下提供一些可能会用到的定位帮助。

目前来说，对于智能驾驶中的环境感知、高精地图的绘制以及高精定位这三块来说，我们认为在绝大多数现有的应用中还是一种比较松散的耦合。环境感知就是做好自己的事情，处理好一个或多个传感器的信号输入，尽量基于传感器的输入信息判断出周围环境存在的障碍物以及相关的环境信息；对于图商来说，就是尽可能地用最好的设备和最好的工艺把所有能记录下来的信息都记录下来，并做一个高精度高质量的地图；对于高精定位来说，就是使用最好的位导加惯导设备，即使是在卫星信号失锁的情况下，也提供尽可能高的定位精度。

最终这三个模块的信息都交给决策控制模块。决策和控制模块会首先根据高精定位返回的厘米级精度的GPS位置去查询高精地图，从而得到前方的道路拓扑结构、所处车道以及车的行走轨迹和相应车道的GPS坐标等。环境感知模块负责在行进的过程中不要撞上别的障碍物。因此，可以看到这三块都是比较独立地为决策控制模块提供输入信号，让决策控制模块做出后续的判断和操作。

我们认为这三者应该是以一种更加紧密的方式来进行联系。

首先高精地图和环境感知的关系。上图是中关村路口的一张照片，我每天都会经过这个路口，我是从东往南走，会在桥上进行左转，在左转的时候，司机都会看见三个灯，我发现很多司机都会非常的犹豫应该按照哪一个红绿灯的指示来操作，当B处的绿灯亮时，很多的司机都会下意识地松开刹车向前开，发现不对后又停了下来。

其实细心的同学可以看到左转的控制灯是在C位置上一个比较小的红绿灯，因为我经常经过这个地方，所以我在熟悉了环境以后，知道应该在什么地方去找红绿灯。这就告诉我们一件事情，在环境感知时，环境的上下文会为环境感知提供很多有用的信息。有了环境上下文以后，我就会直接去C位置看红绿灯颜色的变化，而不会在AB处找。从机器层面来讲，首先计算量会大大减少，同时也有助于提高及机器判断的准确率。

当然这只是例子，在未来的使用，对于可以通过信号控制的设备，更有可能是使用V2X的方式来处理，这里只是作为一个例子，告诉大家语义上下文对于环境理解的准确率是很有帮助的，而我们人也是的确是这样去做的。

这张图表明的是定位的方式，人类对于自己所处位置的定位是标准的三角定位过程，通过比对环境中的一些参照物来确定自己的相对位置，这与GPS的绝对定位是存在着本质差异的。

绝对的GPS定位，可以认为是闭着眼睛的。会有广播输入告诉现在所观察到的卫星的位置，同时会有一个陀螺仪，通过观察陀螺仪的的运动来判断自身的瞬时运动。

但是人类在定位的时候，更多依靠的是用眼睛观察周围的环境和物体，从而判断自己的相对位置。我们知道，绝对定位会受GPS信号的影响，比如很长的隧道或者是山区。考虑到这些情况，通过比对参照物的方式来做相对的定位也是很需要的。这也是高精地图和高精定位应该产生更紧密联系的佐证吧。

基于以上的观察，我们把前图重新修正了一下。我们认为在这个过程中，高精地图、环境感知以及高精定位应该是更紧密的耦合。高精地图可以为环境感知提供上下文，也能为高精相对定位做一些很好的参照物比对。同时在实操中，基于高精定位和环境感知的结果，也可以实时地对高精地图中的一些变化部分进行实时修正。因此这三个模块在自动驾驶车辆中应该是以更紧密耦合的运行方式。

在目前情况下，松散地使用高精地图、高精定位和环境感知模组有助于快速交付可以运行的Demo。但是从长期来说，我们认为这三部分的紧密耦合一定有助于提高环境感知和定位的精度。同时一定程度上也可以降低对设备的要求，从而使自动驾驶的落地更可预期。

接下来讲解一下第二部分，我们对众包高精地图构建的一些思考。

首先我们认为，不管用什么方式来做高精地图，都应该满足以下三个要求：

1、支持国标中所定义的各种车道线、交通标识、道路标牌，道路的弯度曲率等丰富的道路元素及属性。这些属性有些是测量一次之后可以长期使用的，比如一条路在修了以后，它的曲率、坡度等物理特征基本上都是定义好了的。其他的如交通标识、路面施画以及周围的路牌都能有可能经常变化，地图需要很好的体现这些变化。

另外，根据不同的应用需求，我们还会扩展加入一些道路元素，比如道路中间的隔挡、灯杆或者别的参照物等。因此制图的流程也应该能够比较好地支持这些定制化的地图元素。

2、需要满足高级别自动驾驶对高精地图精度的需求，也就是达到厘米级。

3、在实际应用中，除了上面第二条提到的对地图精度的需求以外，为了使得地图活性得到保证，需要可接受的采集成本和采集周期。在设计地图制作方案的时候，必须要考虑到这一点。初期阶段大家可以不计成本，不计代价地做出第一版底图。但是在规模化生产应用以后，还是要虑到自动化、更新频次和采集成本等因素。

我们设计的可众包高精地图构建分成端和云两部分。

在端这一部分，我们会通过车载的GNSS以及惯导来做两方面事情。一方面是估计车辆自运动，得到车辆的6-DOF位姿。从上图可以看到，在实践中我们会用一些语义级的特征，首先对图像进行地图元素的识别和分割，再对识别结果进行比对，然后结合惯导和GPS的信息来比较准确地估计车辆6-DOF的姿态。

当有了姿态之后，可以很方便地把刚才图像识别所得到的一些地图元素进行矢量化的抽取，其中涉及到一些比较复杂的处理，比如道路平面的估计以及识别结果的规整，使其标准化。结合姿态，可以很自然地把这些元素放在三维空间中。

我们统计了一下相关的一些数据，如果真正要做一个高效的采集系统，目前传统的内外业方式不一定完全适用，因为大量数据不能够实时处理，也就不可能众包。同时大数据的拷贝、迁移等也会对整个地图的生产过程造成比较大的延时。

因此我们提倡的是把矢量化的地图元素结合当前采集车辆的6-DOF位姿进行打包后压缩，然后传回云端。我们估计在城区中的数据量大概在40-50KB/Km，城区道路元素相对多一点，而对于高速公路来说，数据量要小很多。

对于众包车辆来说，我们可以要求它只提供矢量化的元素。如果是希望做从0到1的制图过程，我们也支持存储一些关键帧，以便后期对制图的质量进行更好的把控。

在基于众包的情况下，传回云端的数据主要包括车辆姿态以及一些矢量化的道路元素。我们会根据车辆所在的位置（绝对坐标）对其进行一些分组。大家都知道在传统的作图过程中，是分成小块一个个进行处理的。类似地，我们也会把地图分成几块，每一块里面会做相应的层级空间聚类。

对于每一块中的轨迹，包括相应帧中的姿态以及关键帧中的矢量化地图元素，如何从不同的轨迹中去找到它们之间的相对关系，比如如何快速地判断本次采集中的某个路口的某个箭头和前次采集中的箭头是不是同一个。

当你能够很高效准确地做这一点以后，那么就会在多条轨迹之间建立约束。一方面可以连在一起生成更大的轨迹地图，另一方面，这些约束会对整个轨迹的几何结构优化产生相当重要的作用。这整个过程都是在云端进行的，最后的输出就是大画幅、大尺寸、矢量化的高精地图。

为能达上述目的，这是我们现在在车端使用的基于NVIDIA TX-2的算力单元。这块小板上既有CPU也有GPU。CPU主要负责同步GNSS、IMU、Camera的时序信号、负责整个车辆的自运动估计，以及输出矢量化的地图元素。另外我们会利用板上的GPU来做道路元素的识别和分割。可以看到，这块板卡的算力要承担比较多的任务，因此如何在时间上和不同线程之间合理地分配计算资源，保证在车辆轨迹不丢失的情况下，保证比较高准确率的道路元素抽取，这是一个很大的挑战。其中会有非常多的研发和调试的工作需要去做。

以目前的技术水平，基于这样的板卡基本上能做到10fps以上的处理速度，在车速80-90km/h的情况下也能满足作图的需求。

这是一个真正在云端多轨迹融合的例子，真实情况较为复杂。在不同情况下，采集车辆所处的车道不一样，所看见的视野也不一样，在不同视野里，不同地图元素的准确精度也是不一样的，这点做视觉的人都应该知道，所以在多个轨迹中不仅仅有轨迹的拓扑结构，你所看见的元素可能也会有些差异，那么估计出来的矢量化地图元素的坐标可能也会有不同的精度。其中最核心的算法就是不同轨迹中地图元素的配准。还有一个难点是基于矢量化的地图元素和采集车的行进轨迹，推理出道路的拓扑结构，这些事情也是放在云端来做的。

接下来讲解一下第三部分，我们在基于高精地图的感知与定位上的一些想法。

这是我们现在所研发方案的一些功能特点。首先我们还是坚持以视觉为主，因为我们认为视觉的潜能还是很大的。当然我们也不排斥多传感器，因为要想很快的实用，在现有的情况下还是需要多传感器冗余的信号辅助，因此我们的方案会辅以低线束激光雷达来做这件事情。

而我们希望能达到的效果是即使在GPS信号比较弱的区域，仍然能够提供一个足以支持高级别智能驾驶的定位精度。

另外，我们的方案也会支持多种不同的摄像头、激光雷达、GNSS/IMU模组，从而提供在未来一定时间内，市场可接受的一种硬件配置。

这张图是我们的整个系统架构，实践中它们的关系比较复杂。我尽量把它呈现出来，希望能给大家解释清楚。

这里面主要有两件事情，分别是高精定位和环境感知。

在高精定位中，整个系统会有IMU和GPS信号输入。通过摄像头获取图像，进而通过感知模块把地图元素给抽取出来。地图元素和高精地图做比，再结合GPS和IMU信号，得出高精度的定位坐标。

当有了高精定位以后，我们可以把地图在当前视野里进行一个反投。可以把地图的投影看作是一种mask，mask中标记出地图元素应该出现在当前视野中的哪些位置。之后再结合摄像头和激光雷达，就能够做到更好的环境感知。

这里会出现鸡和蛋的问题。环境感知希望地图投影给它一个mask，能够让它做得更准。但为了得到地图投影，又需要知道当前车辆的位置和姿态。而定位本身又依赖于环境感知部分从当前图片中抽取的地图元素。

因此在实操中，这是一个迭代的过程。在t+1的时刻，即使这时还没有高精定位的位置，也会根据前一时刻t的位置来做一个预测。这个预测的位姿会用来做地图投影。在有了地图投影之后，把投影输入到环境感知模块中，再进行t+1时刻地图元素的抽取，进而去改进t+1时刻的高精定位。

在实操中会发现地图投影并不需要是非常准确的位姿。地图投影本身只是提供图像中的一个大概的目标区域，来告知感知模组哪里有需要识别的环境语义标识。

高精定位本质上就是一个优化问题，我们有GPS观测、惯导观测以及地图和图像中地图元素检测结果之间匹配状况的关系。这里有多重约束，不同约束会对应车辆位姿的不同部分，比如GPS是对position（位置）的约束，IMU会约束车辆的orientation（朝向）和时序上的位置变化。而地图与图像的比对会对位置和朝向的6-DOF（自由度）都会有约束。

实操中最难的是如何根据在车辆行进过程中去自适应调整不同的约束在整个优化cost中的权重。举个例子，在过隧道的时候，我们完全不应该去相信GPS信号，需要直接忽略它了cost。此外在实际上也会考虑到传感器本身置信度，比如IMU的噪音漂移等情况。这就需要去预测这几个信号之间可信度的时序变化，并对此进行建模，从而帮助不断调整不同约束在融合中的权重。

最后，深度学习对图像处理的帧率可能不够高。但操控车辆的时候，往往需要更高帧率的位姿输出。这里就涉及到在图像间进行姿态插值，利用IMU信号来得到更高频的输出，这些也是实际中所需要考虑的问题。

对于环境感知来说，毋庸置疑，大家首先会考虑使用RGB的图像信息，也会把Lidar的空间数据放进感知系统中，同时比较重要的是会把高清地图在当前帧的投影也输入到神经网络中。因此我们神经网络有三种不同信号的输入。

对于神经网络的输出，一方面是比较标准的像素级图像的语义分割，同时我们还会恢复一个非常稠密的深度图。在这个稠密的深度图恢复过程中，我们用到了高精地图对路平面的估计，也用到了Lidar点云以及图像的信息，使得最终的数据是一个比较稠密的深度图。神经网络会同时输出空间和语义这两方面的信息。这是一个在比较底层的特征融合，体现在网络本身的结构和权重的优化过程中。

每帧数据都有了这两方面的信息以后，可以建立一个local（本地）的空间坐标系。在这个坐标系中，路平面、车辆、交通标识等都可以用一种真3D的模式得到表现。这也为后续车辆的控制和决策提供了非常直观的输入。

最后我们总结一下，从DeepMotion出发，有两个观点。

1.我们认为应该重新思考高精地图在整个自动驾驶环节中的地位。就是以高精地图为核心，提供更好的环境感知与高精定位。

2.在不计传感器成本和设备成本的情况下，已经证明了智能驾驶的可行性，那么在当前落地的过程中，我们应该花更多的功夫去充分挖掘算法和和背后大数据的潜力，尽可能地在不损失安全性的情况下，在性能和成本之间达到一个更好的平衡，使量产和落地变得更可期。

我的讲解到此结束了，欢迎更多的朋友在线上线下和我们多多讨论，大家共同合作推动无人驾驶在整个应用场景下的快速落地。谢谢大家。

Q&A环节

提问一

姚灿-高德-产品经理

1、高精地图理想的绝对精度和相对精度是多少，哪个更重要？

2、高精众包方案，以DeepMotion的经验，多少次数据回传能够满足制图需求？绝对精度和相对精度分别能达到多少？

蔡锐：1、问题范围很大也很专业，简单讲讲我的一些想法。其实很难去讨论绝对精度和相对精度谁更重要。如果绝对精度能做得很高，那么相对精度自然也能做得很高。在实际过程中使用RTK信号，或者对多条采集路径进行融合优化，都能得到不错的绝对精度。目前来看，如果地图和定位是一个比较松散耦合的情况下，肯定是绝对精度比相对精度要重要，因为在弱沟通环境下，大家需要在同一个非常准确一致的坐标系中进行沟通，这就要求地图和真正的车载定位系统都要求达到一个非常高的精度，这样大家才能在一个坐标系下去进行对话，才能不犯任何错误。

随着技术的发展，相对定位技术会逐渐成熟。相对定位精度在某些情况下是很必要的，比如在隧道等无法保证绝对精度的工况下。

2、关于多少次回传数据能满足制图的需求，这需要讨论具体的道路场景。按我们的经验，在城区道路中，单次能处理5-6个车道宽的区域。如果像长安街这样特别大、车道特别多的道路，可能要跑好几次采集才能完成一个比较完整的拼接。此外比较复杂的是路口的情况，路口是一个比较开阔的区域，由于车辆在行进或者转弯的过程中，区域的覆盖范围可能需要更仔细的考量。我们在构建地图的过程中，会有指引告诉外业采集人员可能会缺哪块区域。

目前我们的绝对定位精度非常依赖于真正采集时的初始定位设备，如果是主动采集，我们不排斥使用一些稍微贵一点的设备，尤其是位导。位导可以提供一个很好的初始点，这样能保证绝对精度。我们用的视觉方案有单目和双目两种，精度上会有一些差异，但都能达到20公分以内的相对精度。

提问二

谢荣豪-广汽研究院-自动驾驶产品工程师

1、高精度地图在车上是集成在车辆导航里的还是独立的模块?

2、视觉自定位和差分定位相比，优劣在哪里? 哪些数据可以足够支撑亚米级的横向自定位?

蔡锐：1、我们认为高精地图不应该是现有车机地图的使用方式。它应该和车上其他传感器处于一个紧耦合的状态，比如在车辆定位的过程中，需要获取摄像头信号来比对地图元素。因此我认为它模块的划分可能会和现在的车辆导航中模块划分是不同情况的。但具体采用什么样的一种配合方式，车机负责什么、传感器负责什么、在哪里进行交互运算等，我们也希望能多听听车厂朋友们的专业分析。

2、视觉自定位和差分定位相比，我认为这两个不是排斥的关系，而是一种互补的关系。差分定位是一种比较独立的定位，它参考地基信号来解算位置。而视觉更多是对环境中相对位置的分析，我觉得它们是一个互补的关系。

我的理解是，对于横向自定位，根据车道施画，可以很好地解决定位的问题，如果在没有车道施画的情况下，参考路边的路牌，或者是路基和路面的宽度等参数来进行分析。

提问三

海丹-军科系统院-Vslam

怎样融合多车采集的数据形成最后一张一致的地图。例如由于误差每个车采集到的车道线肯定会有不同，精度有可能是10cm以上。而且每个车使用的基准都不一样，最后是怎么融合成一条车道线的？

蔡锐：这是高精地图，尤其众包制作高精地图中比较核心的部分，每个单独轨迹可能都有自己独立的误差，由于实际的物理车道本身是刚性的，它们所产生的约束在你考虑到多次轨迹融合的时候，它们所产生的误差在整体上是一个减小和抵消的过程。

很多情况下，你会发现地图中很多道路的路口是比较丰富的，而它能提供的路面信息相对来说会更多一些。这时你会发现如果把它每个路口对齐得很好的情况下，路口之间的车道相应的对齐和融合相对来说会变得更加容易一些。

此外，融合不是单纯地将两个有十厘米偏差的轨迹相加。每一个轨迹都有背后的样条曲线表征，优化的是样条函数的参数。此外还有很多路面外的信息，比如空中的路牌。其实空中路牌是很重要的，因为对于地面元素的优化来说，地面距离越远，误差就会越大，但是空中路牌会给我们提供一些更多方向的约束。

提问四

王维-高德-测试开发工程师

众包采集和更新地图时，如何解决车道线的多源融合和拼接问题

蔡锐：这个问题跟上面的问题四是蛮类似的。可以考虑几个问题，首先以一种什么样的形式去描述车道线；其次是如何充分利用车道线以外的其他路面特征和空中信息去形成一个全方位的约束。

提问五

郑国贤-东北大学-双控

视觉惯性融合的SLAM在无人驾驶中扮演着怎样的角色？感觉一般都是听到深度学习的场景分割和语义理解。

蔡锐：视觉和惯导融合的SLAM在自动驾驶中是很重要的。比如在我们系统中一直会跑一个多传感器融合的SLAM。它会实时输出车辆的姿态，如果你没有很专业级的惯导，一定程度上，它会提供一些精度还不错的车辆姿态信息。

的确，在大家提到的自动驾驶中，场景的分割和语意的理解是比较直观的。除了环境感知以外，语义理解能帮助视觉和惯导融合的SLAM。我们认为室外的驾驶环境是非常具有挑战性的，所以必须依赖高级别语义的视觉特征。

说得更直白一点，在市场上能做场景分割和语义理解的人才储备还算比较丰富的，而在SLAM这块，相对来说人才储备还比较匮乏一些。

提问六

蔡少骏-驭势科技-视觉算法工程师

1、开放道路的定位方案是什么？

2、多传感器融合定位怎么做的？

3、动态变化的场景怎么处理？

蔡锐：1、对于开放道路的定位方案，我们认为是一个比较有挑战性的过程。开放道路的地图本身就不像结构化的道路，因此考虑思路也不一样，开放道路可以根据你适用的范围做出更细的划分，比如一些厂区、园区的道路以及一些小区道路，这对于做相对定位所用的比较稳定的视觉元素的选择来说会有一些区别。

2、这其实就是你算法的核心。如何充分地使用惯导、位导、视觉信息以及与高精度地图的比对信息在联合优化的过程中得到一个最优的姿态结算。

3、对于动态场景怎么处理的问题，我可能没有太理解你的问题。在这里说说我的理解，在上面的回答中我也提到，实际道路上的车辆位姿估计是一件很有挑战的事情。因为道路上除了一些比较稳定的参照物外，还有大量的运动物体。这本质上需要更好地利用不同传感器的输入，去帮你判断路面上的相对运动和绝对运动，从而减轻运动物体对姿态估计的影响。