港中大DeepID-Net团队：计算机视觉怎样超越人眼？

2015年07月31日 15:44
来源：凤凰探索作者：李大鹏

若有人告诉你，现在的计算机视觉已经超过了人眼，你可能觉得难以置信，但在香港中文大学的王晓刚教授看来，这并不值得大惊小怪。

在几年前，说到LFW和ImageNet，可能不只是普通大众觉得陌生，恐怕连科技圈内的人士也不知其所以然，但随着人工智能领域的迅猛发展，“计算机视觉”、“人脸识别”、“物体识别”等词汇越来越被大众所熟知，而LFW和ImageNet正是世界范围内计算机视觉领域的顶级赛事之一。

王晓刚教授

若有人告诉你，现在的计算机视觉已经超过了人眼，你可能觉得难以置信，但在香港中文大学的王晓刚教授看来，这并不值得大惊小怪，“我们的团队在去年的LFW(Labeled Faces in the Wild)数据库上就获得了99.15%的识别率，实验表明，如果仅仅给出人脸中心区域，人用肉眼在LFW上的识别率为97.52%，”王教授解释道。

DeepID-Net团队ImageNet大赛折桂

而与LFW相比，ImageNet对科学家们提出的挑战更具难度，ImageNet数据库中一共包含了1400万经过标签分类的材料，囊括五花八门的图像。其中的“物体检测”项目是ImageNet里最具挑战性的任务，它要求计算机从四万张图像中准确地识别出200类物体的具体位置，其中的难点是一幅图像中往往包含多个不同类别的物体。由于难度较大，在2013年时，计算机的检测率只有22.6%。到2014年，谷歌以43.9%的检测率赢得比赛，而由香港中文大学的欧阳万里、王晓刚和汤晓鸥教授带领的DeepID-Net团队首次参加ImageNet大规模物体检测任务比赛便以40.7%的优异战绩位居第二名。

几个月后，DeepID-Net团队将此成绩大幅提高至50.3%，达到了全球最高的检测率。这一成果以论文形式发表在2015年国际计算机视觉与模式识别大会(CVPR)上，是目前世界上在ImageNet挑战中最高记录。

深度学习算法的逆袭

“深度学习”是目前计算机视觉乃至人工智能领域的研究热点，在该方法应用于ImageNet大赛之前，第一届参赛当时冠军的准确率(top 5精度)是71.8%，而2011年是74.3%。2012年的冠军小组采用了深度学习的方法一举将成绩提升到84.7%，震惊了机器学习领域，随后世界各大科研团体和公司纷纷投身于深度学习领域。截止到目前，这一赛事的精度已经达到95%以上，某种程度上跟人的分辨能力相当。

DeepID-Net团队实验室

据王晓刚教授介绍，在DeepID-Net团队的研究中，深度学习算法起到了至关重要的作用，比如在图像识别的时候需要提取特征，像颜色、纹理（光滑、粗糙）、形状等，之前这些特征都需要人工去设计，有了深度学习后，这些特征是可以从大数据中自动学习的，深度学习就像飞机的发动机一样，只要做得好，可以带动计算机视觉的各个领域起飞。“从09年开始，全球顶尖的小组参加到ImageNet比赛中来，到12年的时候传统的计算机视觉算法遇到瓶颈，进展缓慢。但这一年出现了深度学习的方法，对计算机视觉来说是革命性的”，王教授说道。

对于计算机视觉超越人眼的说法，王教授向记者解释道，在一些特定任务上，计算机视觉超过人眼是很正常的，人眼其实并没有我们想象中的那么高效，“人眼在识别熟人脸的时候的确非常精准，但在识别陌生人脸的时候就远没有那么准确，所以在特定的领域，计算机视觉完全可以做到超越人眼的识别准确率。”但若想全面超越人眼，还有很长的路要走，“计算机视觉目前在原理上其实是在模拟人类，像人的大脑一样通过分层的神经网络来提高识别的准确度。而人自出生以后就不断的通过眼睛接收外界的信息，接收到的数据量非常巨大，以ImageNet为例，计算机视觉虽然可以进行100万张图的大数据学习，与之前相比了长足的进步，但和人所看到过的图片相比，这仍然是一个微不足道的数字”，王教授说。不过这也意味着计算机视觉在未来有着广阔的进步空间。

计算机视觉领域巨头云集，如何做到弯道超车？

目前各大科研团体和公司都在聚焦深度学习的研究，谷歌、微软、Facebook、百度等公司在资源投入方面更是不遗余力，在这种情况下，DeepID-Net团队是如何做到“弯道超车”的呢？

该论文的第一作者欧阳万里博士解释道，谷歌这样的大公司确实拥有更多的资源，他们可能会考虑如何设计深度学习模型，而深度学习的本质其实就是多层神经网络，每一层都可以根据任务来进行调整，达到层与层之间通力合作，并最终大幅提高任务的准确度。谷歌可能更倾向于优化层与层之间的连接方式和增加层数，DeepID-Net团队则将重点放在加快模型的验证和训练，在物体识别和模型训练的流程上面做出改变，使得整个过程能做出更快更准确的识别结果，在这个基础上进行更多的创新，比如在物体识别方面，在描述物体本身时，物体可能是动态的，甚至外表也会发生变化，比如一把吉他，它可能是竖着的，也可能是横着的，甚至可以旋转，但这些运动和形变都是有规律的，而一个物体往往不是独立的，而是和周围环境相关，比如鸭子可以在水上游而不是在天上飞这就需要团队设计一个新的模型去学习这些形变。欧阳万里博士表示，DeepID-Net团队的这些创新的研究成果也可以应用于谷歌等大公司的模型。

王晓刚教授认为，大公司确实有更多的资金和资源，但是他们可能会过于依赖自身的这些优势，比如他们可能会通过增加计算资源尝试更多的网络结构和参数组合，不断提升成绩，而DeepID-Net团队没有这些优势，那么就通过创新、优化模型和流程，仍然可以达到同等的甚至更好的研究成果，不过王教授同样认为两者并不冲突，而是互补的，“我们的研究成果他们可以用，他们做的成果我们也可以用，大家在不同的方向上，但目标是一致的。”

论文第一作者欧阳万里博士

欧阳万里博士和王晓刚教授向记者强调，虽然DeepID-Net团队的实验室硬件资源无法和谷歌等公司相比，但与其他科研团体相比则绝对处于一流水准，DeepID-Net团队的研发是基于NVIDIA Tesla K40 GPU卡，性能不断升级的硬件可以让团队验证更多的方法，尝试更多的模型。而NVIDIA已经和DeepID-Net团队联合建立了研究中心，为团队提供硬件和技术支持，而硬件性能的提升则会带来另外一个问题，随着技术的不断发展，团队对硬件的需求也会随之变高，现在GPU的性能提升，而团队设计模型也更复杂，不过此消彼长之下，带来的是成绩的提升。

在谈到具体的应用领域时，两位专家一致认为，无论是人脸识别还是物体检测，都有着广阔的应用前景，比如在安防、交通等方面，它可以从一群人中迅速识别出特定的个体，找到特定的车辆；我们在网络上搜索特定图片，网购时寻找心仪的商品等等。

目前，DeepID-Net团队向记者表示，50.3%的物体检测率虽然已经称冠全球，但与人眼相比准确度仍然偏低。王晓刚教授表示团队希望能进一步提升检测率，并且提出了更高难度的任务，比如图像分割、根据图像恢复三维信息；另外，现在做的只是静态的图像识别，计算机视觉在视频领域还有大量的工作要做，但视频相比图像要更为复杂，信息量也更大，难度将提升一个数量级别，DeepID-Net团队有望在将来挑战这个领域。