比特大陆阮沈勇:软件定义的AI芯片未来一定成为基础设施
科技
科技 > 数码 > 正文

比特大陆阮沈勇:软件定义的AI芯片未来一定成为基础设施

null

3月15日,由智东西主办,AWE和极果联合主办的GTIC 2019全球AI芯片创新峰会在上海成功举办!本次峰会报名参会的观众覆盖了近4500家企业,到会观众极为专业,其中总监以上级别占比超过62%,现场实际到会人数超过1800位。

大会现场来自学术、投资、安防、芯片等多个领域的21位重磅嘉宾共聚一堂,系统的探讨了AI芯片在架构创新、生态构建、场景落地等方面的技术前景和产业趋势。

会上,比特大陆AI产品线总裁阮沈勇为我们带来了主题为《AI芯片激发数据中心澎湃算力》的演讲,分享了比特大陆的AI技术与芯片发展历史以及比特大陆的产品部署三大案例。

在他看来,基于GPU的图片处理会带来高成本以及高能耗,而基于TPU架构芯片部署一定会带来速度的大幅提升,以及能耗的数倍降低。

此外,比特大陆还宣布SC3加速卡正式对外销售。

附比特大陆AI产品线总裁阮沈勇演讲实录

阮沈勇:大家好,我叫阮沈勇,是比特大陆AI产品线的负责人。

首先我先给大家介绍一下比特大陆的AI芯片发展历程。

比特大陆是2013年成立的,2013年底发布首款区块链芯片;2014年Antpool上线;2015年区块链市场领先,AI业务启动;2016年开发第一代BM1680 AI芯片;2017年第一代AI云端芯片面世;2018年推出了第二代AI云端芯片BM1682以及第一代AI终端芯片BM1880。

null

那么大家都知道驱动人工智能的三个因素是算法、数据以及算力。

算法方面,AlphaGo的出现是一个分水岭,自从AlphaGo以后,人工智能高速发展。2015年人工智能的算法的错误率已经低于人类的认知水平。另外在互联网上,每年产生的图片流是10的15次方,在安防行业的数量10的17次方,我们可以清晰的看到数据和算法在推动人工智能的发展。

那么算力呢?互联网图片加视频流,全球34亿互联网用户,每年产生10^15的图片和视频流,每秒产生10^9的图片和视频流。我们GPU按照P4的算力5T flops来算,每个图片处理30GFlops,乘以每秒10^9的图片和视频流,对应需要的算力为30,000,000Tflops,需要的就是6,000,000张GPU,对应的就是1,800,000千瓦功耗以及3000亿人民币的成本。不难看到GPU芯片的高成本以及高能耗。

null

再放眼安防行业,当前,全球的安防行业共计有5亿多个摄像头,仅仅中国就有2亿多个摄像头。按照GPU芯片的性能来算,0.5T处理一路视频结构化,如果四千万路的视频那就需要两千万TOPS的算力。另外,这也会带来很大的功耗问题。

因此我们在思考我们到底需要什么样的AI芯片,可以提升性能,比如从CPU到GPU已经有了10倍以上的性能提升。

当前谷歌已经推出了TPU的芯片,比特大陆是全世界第二家推出基于TPU芯片架构的企业。因为我们相信TPU架构一定会带来速度10倍的提升,能耗10倍的降低。

比特大陆的AI芯片是部分可编程的架构,不是完全的ASIC。因为我们相信算法软件定义的芯片,未来TPU会打破云端AI的GPU垄断地位。魏少军教授在早上的峰会中讲到的软件定义芯片,我们也正在往这个方向追求发展。

null

这是比特大陆算丰AI路线图,2019年我们今年上半年会推出第三代芯片BM1684,其处理性能与处理路数会比1682均有几倍的提升。我们现在正在跟很多客户接触,把1684芯片推给他们。另外,我们现在还在规划2020年的产品,1686芯片。

基于1682芯片我们做出了加速卡SC3,它支持两路的4K视频,可用于视频图像解码加速和CV加速。其硬件视频解码引擎支持1080P@240fps,最高至4K@60fps的高清视频流解码;支持视频前处理、后处理等加速。我们今天也借助智东西这个平台,正式宣布SC3加速卡对外销售。

null

我们前面讲我们的产品时,并没有讲很高深的技术,其实我们想告诉大家比特大陆是做事很低调的公司,我们的产品已经有很多客户用了。应用案例中,用于视频的VCR处理,视频广告,游戏AR的增强,或者医疗影像的处理,或者证照处理,还有客户用于人脸识别的应用场景都是可以的。

举一个例子,我们有一个合作伙伴叫优必达,这是一家游戏云服务商。他们的用户可以通过互联网的方式访问优必达的服务器产品,然后在上面做各种AI处理。优必达在其当前的 GameCloud®云服务器生产环境中,有越来越多的应用各种 AI 模型,用于游戏图像的特征提取、分类;游戏画质增强;AI 游戏(自动驾驶游戏)等。快速增长的 AI 应用使得云端服务器的算力性能需求急剧增加,并对计算加速产品的适用度、兼容性、稳定性、计算效率、性价比提出了较高的综合要求。

null

此前这些部署都是基于GPU和CPU做的。那么我们双方的合作方式为基于BM1682芯片的SC3板卡,在优必达的数据中心做了批量部署,其次使用易用成熟工具链BMNETT将客户用Tensorflow训练好的模型快速部署在SC3加速卡上,另外对外提供Python接口,调用形式兼容常规的Tensorflow,最后就是让客户云端生产环境下增强了AI算力、并快速部署。

当前他们已经完成了移植的工作,已经部署在云端用起来了。

那么对方为什么要和比特大陆合作,为什么从CPU、GPU移植到SC3呢?

第一,在移植性能上,比特大陆的产品比如在游戏增强性能的主要特征提取以及强化学习模型上的推理性能表现优异,相当于标称11.5T算力的TITAN X GPU加速卡。我们的有效利用率和GPU是相似的,我们的产品物理算力虽然比GPU低了3倍,但是有效利用率相当高,这是给客户带来性价比,能够以更有益的性价比得到产品和服务。

第二是我们在模型的移植上,从开始这个项目开始合作到验证、部署只花三周的时间。我们做AI产品和别的东西不太一样,芯片本身是一方面,需要很完备的工具链,把软件做好。我们这方面表现优异,我们做移植的时候非常快,只用三周的时间完成了部署。我们对技术支持的时候也是点对点的技术支持,保证客户的问题及时响应。我们从开始做这个东西,到最后量产很快够弄完了,客户已经部署在云端上了。

null

我们的产品主要为视频、图片加速处理,我们的芯片做了很多的加速处理,刚才我们讲的是互联网的应用场景,那么安防场景呢?

安防是一个对图片和视频做加速处理一个非常合适的应用场景,比如说安防行业出去和客户交流,他们说需要做人脸识别,或者根据图片分析人的轨迹等,这是目前很常规的应用场景。另外,在视频结构化处理上,可以做比如机非人(机动车、非机动车、人),看到这个人什么样子的头发,穿着什么颜色的衣服,戴不戴帽子,衣服裤子什么颜色的?这样各种各样的结构化处理下来,追踪人的速度就会非常快,结构化以后视频空间变得非常少。

另外就是车辆分析,比如看我们开车的时候经过红绿灯是否有违章,晚上是否有渣土车出现,通过摄像头的方式抓拍过来在云端计算,然后分析出来结果。我们的产品已经和很多的客户进行的合作。

null

这是一个我们在福建省的合作案例,客户基于比特大陆的SA3服务器,用三个CPU的服务器加5个TPU的服务器在公安局内部的网上进行的合作。深瞐科技基于比特大陆服务器进行了算法的移植工作,可以更好的对车进行结构化。

顺便讲一下我们SA3服务器相对友商来说,我们的产品密度更高,比如说SA3服务器里面有18颗1682的芯片,可以提供54T算力,比如说用GPUX86服务器,密度是我们友商的2-4倍。这说明在一样的成本下,我们可以给客户带来更大的路数,更高的计算密度,帮客户间接降低了成本,提供更好的性价比。

null

第三个案例是加速政府超算数据中心,在DFCC数字福建云计算中心中应用。对方会把数据中心建好之后,提供出租服务给他们的客户,比如说初创公司在上面进行人工智能开发或者其他的应用,他们之前基于P100的服务器做的,这款服务器是基于训练做的,对科学计算比较擅长。那么比特大陆的产品特点是更加擅长对图像进行处理加速,所以当客户需要更好的图像处理加速产品的时候,他们就和我们进行了合作,我们基于SA3服务器进行部署和加速处理。跟P100的服务器比起来,我们提供了更高性价比,路数更高,而且对视频和图片处理进行了非常好的加速。

我们认为比特大陆是一个做事情的公司,做事情一直比较低调,因此一直没有对外宣布过我们的产品用在哪些客户。今天讲了三个案例,一个在互联网上的应用也就是优必达的应用,第二个用在安防方面的公安局应用,第三个在数据中心的应用。我们其实想告诉大家,我们的产品已经在市场上批量部署,有很多客户已经实际应用完成了部署。

那么最后总结来说,我们基于TPU的服务器是软件可编程,对算法是友好的,客户可以基于我们的产品对算法进行很好的加速处理。回应今天上午魏教授的讲话,我们认为软件算法定义的AI芯片未来一定成为基础设施。

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载