格灵深瞳赵勇演讲实录：驾车上计算机比人安全几十倍

2014年11月18日 18:02
来源：凤凰科技

我们召集了全中国全世界在人工智能上最有能力的科学家和工程师一起解决这样的问题，我们希望在未来可以源源不断把最好的机器视觉带到应用世界中来，让计算机看懂这个世界。

凤凰科技讯 11月18日消息，2014年凤凰财经峰会于国贸三期举行。在“创新空间”论坛中，格灵深瞳创始人赵勇发表演讲。

以下为演讲实录：

今天我给你们讨论一个纯技术问题，什么问题呢？请看下一页，机器人，我们大家都听说过机器人，也见过机器人，都在电影电视剧里面，这些机器人都是用来杀人的，实际上杀人的机器人是存在的，机器人在战争里面的应用是最透彻的，这个机器人是一个被谷歌收购的公司做的，它做大狗，可以背很多的物资在很难走的道路上穿梭，做军事运输，今天他们已经可以把这个机器人做得非常厉害，可以在非常陡峭的地面上保持平衡。

请再播放一下右下角的视频，叫做猎豹，他们让这个机器人奔跑的速度越来越快，去年的时候猎豹已经可以跑到28英里每小时，已经比地球人跑得最快的人博尔特还快。

在今天的战场上已经出现了一个趋势，打仗越来越像打电子游戏了，这是一个非常危险的趋势，意味着什么？一些科技非常先进的国家，像美国，发动战争是很容易的事情，因为美国有钱有技术，他如果发动战争不死自己人的话，那就没有危险了，这是一件很可怕的事，如果要阻止一个国家为所欲为的话，一些其他的国家也应该有这样的技术制衡他们。

其实机器人不只可以杀人，这张照片显示的是德国宝马公司在欧洲的一条生产线，这个生产线只造宝马7系列的车，这个生产线上75%的工作都是机器人做的，人只需要做5%的工作，在一个流水线一个机器手臂可以把钢铁轻易的拿过来，几分众之内可以钻很多孔再送到下一个工具里，下一个工具又把一个很重的引擎调过来，做组装的工作，这些工作为什么不让人做呢？问题是你想制作这么一辆好的汽车，可以高速奔跑，可以在各种天气下稳定的工作，而且它能够给你提供很舒适的感觉，当把你产品的要求提到这么高的时候，人发现不能犯任何的错误，这种要求事实上已经超过了人体的极限，没有任何一群工人可以长期的用这种要求，把这种产品，可以用规模化的方式造出来。所以今天不得不求助机器人。

事实上在今天，机器人已经可以给人动手术了，美国有家公司叫da Vinci Surgery，这个公司就是专门做这种机器人，来帮人动手术，你可能会问，我才不想让机器人给我开刀呢，我举个例子，什么情况下你非常希望给你动刀的是机器人，比如你不幸必须动心脏手术，目前心脏手术怎么做？把你放倒，麻晕了，打开，把这管子切端，连上机器，在手术过程中这个循环可以保障，所以你不会死掉，这个时候你有一颗跳动的心脏，他们想办法把这个心脏停下来，这个时候动刀了，动完刀以后再把这个过程重新做一遍，把管子合起来，把你缝起来，这个时候你的心脏是停的，他们再帮你重启一下，这个过程的伤害是很严重的，而且有一定的几率重启是失败的，如果失败发生的话，这个病人就不能下这个手术台了。

所以这家公司想做什么事呢？他们可以把微小的手术设备，通过微创手术钻个小洞，所以不用开胸，也不用让心脏停止跳动，其实心脏跳的还很快，请播放一下这两个视频，上个视频可以告诉你今天的机械手术刀可以做多少细微的工作，可以把一个葡萄皮很轻易的剥下来，下一个视频是一千祯每秒的速度把心脏跳动跟踪，然后他们把一个静止的心脏画面传递到一个屏幕上，在这个屏幕上医生可以用虚拟的手术刀在静止的心脏上动手术，叠加了心脏跳动的动作，这样的话可以在心脏跳动的过程中完成这个手术，手术完成以后所有的东西抽出来，只剩下你身上几个小孔。在今天这家公司已经可以在完全不同20种的手术上使用这种机器人，如果我们对健康的要求提高的话，有一天我们不得不依赖机器人。

基础设施建设，比如说电力系统，我们大家可能还记得三四年前南方发生了冰雨事件，那个是春运的时候，这个国家就陷入一片慌乱，所以在今天这个社会我们对基础设施要求越来越高了，小时候在我农村外公家每天都停电，但是你可以想象今天在北京停电一个小时会发生什么吗？手术在进行过程中没电了，地铁在运行过程中失控了，你今天在一个电站的话已经没有人巡逻了，全部是机器，那是一个很危险的工作，有时候一个电弧在两三米以外可以把一个人击穿。

我想讲一下汽车，因为刚才周航讲了易到用车，我觉得这是特有趣的话题，左半部分是谷歌作的项目，希望有一天计算机代替人开车，最近特斯拉公司也宣布在明年上半年会销售一个新的车型，这个车型有一个选项，就是说在有一些时候，他们叫自助巡航，有些时候新的特斯拉可以自己开自己，我们为什么要计算机代替我们开车呢？这里有很多误解，比如这样你就可以不用开了，你就可以打游戏看报纸了，这个不是很重要，我认为有两个原因非常重要。第一是安全，因为车祸带来的安全问题是一个非常严重的问题，你们可能不清楚，想象这么一个世界，如果你每一天起床之后听到的第一个新闻是有一家波音737追回了，机上250个人全死了，中午又听到一个消息又坠毁一架，晚上又听到一个消息又坠毁一架，每年365天都坠毁三架，你还敢坐飞机吗？我相信绝大多数的人回答是否定的，但是你知道吗？在中国的道路上每天因为车祸死亡的人比这些人还要多，你还开车吗？你还开车。

我还打听一个数据，在中国每年死亡的人数不到一千万人口，其中因为车祸死亡的超过20人，也就是说在我们身边每50万人就有一个人是这样死去的，我认为这是一个非常严重的问题。

造成车祸的原因有很多，其中很大一部分是人为的事故，如果我们可以造出最好的计算机系统，让他们帮我们驾驶，也许有一天我们可以事项一个理想，就是死在路上的人越来越少，我认为这个目标是可以实现的，事实上在谷歌他们已经体现了这一点，比如说截止到去年为止，他们的技术已经经过70万英里的测试了，在这些测试中没有一起事故发生，比如我们问一下保险公司，发现每160英里就有一个人汇报事故，所以计算机比人安全几十倍。这是第一个维度，

第二个维度，更有意思，汽车共享，今天已经有一些方式了，比如说租车，比如说出租车，比如说易到用车，我们为什么要做汽车共享呢？我们做过一个调查，在美国每一辆家庭用车在它的一生当中，只有3%的时间是在奔跑的，97%的时间都在停车的状态，这是一件可耻的事情不是吗？如果我们可以把3%提高到20%，也就是说这个世界只需要六分之一的车辆就可以满足大家交通的需求，这不是很好的事情吗，第一不用占用那么多的停车空间，第二不用浪费那么多的玻璃、钢铁、橡胶。

那么怎么实现这种共享呢？易到用车很方便，但是有的也不方便，比如租车，你取车，用完了还过去，出租车坦率说价钱有点贵，如果汽车可以开自己，我们想象这种生活是什么样子，比如赵勇开一辆车跟朋友约会吃饭，结果到了那地方找不到车位，我花了20分钟把我车停下来，这个时候饭菜凉了，聚会也开结束了，假如这个车可以自己开自己，顺便在路上接到两个易到的单子，不是更好的事吗。其实还有更好的事，如果街上所有的车都可以自己开自己，我拿着易到用车，他送我完又去接别人了，我的理想世界是这个世界上的车越来越少，但是我用的时候它的就要出现了。

我说了很多机器人应用，对你们来说我希望你们听完我之后改变这个想法，从技术上来说如果想让机器人成功的话只有一个瓶颈，你们已经看到了机器人现在跑得很快，跳得很高，力气非常大，它可以安装很多传感器，收集非常多的数据，但是有一个事情机器人没有做好，就是感知，它是不是可以通过这些数据精确感知周围的世界是什么样子，精确做一个判断，如果我们可以解决这些问题，我们真的可以让机器人在真实的世界里面，在大街小巷，在千家万户发生了。

其实在我们周围已经有很多视觉传感器了，不说别的，就说传感器摄像头，这里面最夸张的就是伦敦这个城市，摄像头的数目已经超过了人口的数目，我们每天收集这么多数据有什么用？就是破案，但是这是非常可喜的。其实这些传感器每天都要收集很多数据，它可能比世界上任何一个人一个部门一种设备都更加了解发生了什么事，他们静悄悄的收集这些数据，这些数据被搜集起来以后静悄悄的存在某一个硬盘上，直到几个月之后被删除。你们知道吗？今天全世界每两块硬盘被制造出来，就有一块进入了视频安防监控的领域，我们全世界50%的数据就是视频监控数据，但是我们从来没有好好挖掘过这些数据，我认为这是可笑的。

我举个例子，这是我们做的一个实验室的例子，在这个空间里面我们找了很多小伙子在一起，我们把这种活动叫做人口搏浪运动，我们尝试理解每个人做什么，长什么样子，右上图的人代表上帝从上往下看这个房间发生了什么，在这个过程中我们希望理解每个人的轨迹、姿态、社交状态。如果有一天可以在任何角落，任何场景下把这件事情做好，就意味着我们的系统可以理解人，这些数据有什么意义呢？这里的想象空间是非常大的，如果我们可以把这种技术这种经验再放到汽车领域，我们了解每一辆车是怎么运动的，因为车里面车不重要，重要的是里面的人，我们可以了解这个社会上到底发生了什么事情，里面有非常非常多的安全监控、数据收集、社会秩序的管理应用。

这是一张技术的构图成，为了实现机器人和人工智能，我们必须实现视觉感知技术，为了实现视觉感知技术，我们需要把三件事做好，第一件事是三维深度视觉，第二是深度学习，第三是小型化的高性能运算，什么是三维深度视觉？这是我们相机今天看到的世界，我举个例子，这个例子显示了我们今天的相机一个重要的缺陷叫做比例混淆，离相机近的东西看着就大，离相继远的东西看着就小，这个大小并不能真实反映这个物体在真实世界中的状态，我们的尺度是混淆的。如果我们不能掌握尺度，我们就不能掌握尺寸、速度、距离所有这些东西，而我们要了解这个世界，这些信息是必不可少的，所以我们需要三维的视觉。

右下角这个视频显示的是我们可以用先进的技术理解人的行为和动作，可以看到当时请了一些人跳一些很夸张的舞蹈，有的时候要空翻或者做很奇怪的动作，在这个电视上我们时时显示出我们对这个动作的理解，我们把这个动作传递给动画模型显示出来。你可以看到如果我们可以把这种技术推广到各个领域去，我们对人的理解，就更加深入了。这个就是深度视觉的重要性。

我们再来讨论一下深度学习，什么是深度学习，我们为什么需要深度学习，很简单，有一个学科叫做机器学习，很简单，你养一个小狗，你想教会它很多技能，如果它做了正确的事情，你跟它说做得好，如果它做错了你踢它一脚，时间长了它就学会了，所以在计算机领域我们要经常一个计算，就是作对了奖励，做错了就惩罚，慢慢的这个模型就是你想要的样子，这个是机器学习。

在过去二三十年间这个学科发展得非常好，到最后我们发现无论我们多少努力，我们的算法还是不能接近我们的脑袋，还是不能比人表现得更好，所以我们有一种思维，我们为什么不把人脑打开，看看里面做了什么事情，我们模仿这些过程，事实上有人做了这个事情，把人脑打开发现没有CPU，看到了什么？看到的是这张图里面画的各种东西，人脑是由一个巨大的神经网络组成的，这里面有很多节点，就是神经原，在每个神经原里面可以做非常简单非常细微的信号处理，这个输入输出又跟其他的神经原连接起来，形成非常深入的网络。所以有一个新的潮流，就是我们可不可以建设这么一种算法，然后把数据丢给他，惩罚他，奖励他，看看最后是不是可以达到一个非常聪明的状态，在过去几年我们成功了，看起来不断的投入，就可以算出像人一样聪明的系统。

那么以此而来就引入一个问题，我们计算机够好吗？今天的计算机我们觉得非常不错了，但是跟人脑相比的话还差很远，比如人脑有一千亿个神经原，它的存储和运算量超过我们所有的计算机，如果今天用软件的方式模拟一千亿个神经原的运动过程的话是不可能的，所以现在科学家在设计一种全新的芯片，没有CPU，甚至否定了信息论最基本的东西，比如相同定论，他们设计一个计算机用硅的晶体管直接连接神经原。IBM公司在这方面走得比较靠前，同时可以模拟一百万个神经原，这个显然是不够的，因为跟一千亿相比还差五六个数量级，我们知道计算机的运行速度跟人脑的运行速度是不一样的，那么是不是可以用速度换取数量，这是一个很有意思的话题，我们可以期待。

最后我介绍一下这个格灵深瞳公司，我们召集了全中国全世界在人工智能上最有能力的科学家和工程师一起解决这样的问题，我们希望在未来可以源源不断把最好的机器视觉带到应用世界中来，让计算机看懂这个世界。