从DeepSeek到“赤兔”:国产AI生态如何打破英伟达依赖?
科技
科技 > 互联网 > 正文
站内

从DeepSeek到“赤兔”:国产AI生态如何打破英伟达依赖?

编者按:

北京时间4月16日,据彭博社报道,英伟达周二在监管文件中表示,美国政府已于周一通知公司,H20芯片未来在出口至中国时需要“无限期”申请许可证。

英伟达因此预警称,公司将在本财年第一季度计入大约55亿美元的费用,这些费用与H20系列芯片相关的“库存、采购承诺及相关准备金”有关。

正如英伟达所言,进一步收紧出口限制只会强化中国摆脱美国技术依赖的决心,并将削弱美国企业的竞争力。

现在,美国政府给英伟达的心脏刺入了一把尖刀,更是给国产芯片生态发展送了一个助攻。

今年3月,凤凰网科技与专注做AI智能算力基础系统软件的公司清程极智进行了一场对话,这正是一家专注于推动国产芯片发展的公司,其最近开源的赤兔,可以帮助国产芯片更好跑满血版DeepSeek。

凤凰网科技《浪潮》出品

作者 董雨晴

在五道口的清华科技园,很容易偶遇清华系的人工智能公司,但今天,这里最忙碌的身影不再专属于基座大模型六小龙,更为显眼的是位于中间层的AI infra(基础设施)公司。

清程极智就是这样一家企业,2023年底,清华大学计算机系里的一伙人创办了清程极智,清华大学计算机系长聘教授翟季冬出任首席科学家,翟教授曾经带领清华超算团队夺得过十几个世界冠军,清程极智的核心成员也多来自于清华计算机系高性能计算研究所,CEO汤雄超即是如此。

他们是国内少有的有过十万台服务器超大规模国产算力集群使用和调优经验的团队。而大规模集群的训练和推理,是算力发展过程中最复杂的一种情况。

成立仅一年,清程极智就拿到了两轮投资,其中包括北京市人工智能产业投资基金与中科创星。中科创星曾表示,国内AI Infra市场在编译器和并行训练推理系统等核心技术软件方面尤为空缺,而清程极智是国内少有的完全掌握全栈研发能力的团队。

今年初,DeepSeek的爆火,为AI infra添了一把柴。更早就预判到推理侧需求的清程极智直接迎来了业务上的爆发。

汤雄超告诉凤凰网科技,清程极智的新增需求几乎都来自于推理侧。“我们之前是有推理算力需求快速增长这样的一些判断,但是没想象到它来得这么快,这么汹涌”。

随着整个大模型算力需求的趋势从训练侧转向推理侧,相应的硬件供给矛盾也逐渐凸显。“DeepSeek也在某种程度上拉大了国产算力与英伟达的差距”。

汤雄超认为,DeepSeek通过算法的创新突破了大规模硬件的瓶颈,这可以很好的解决当前国内算力不足的窘迫,给AI企业提供一个创新的样本。

但同时,DeepSeek的技术创新主要围绕英伟达H卡的架构,DeepSeek模型采用的FP8数据格式与英伟达H系列卡深度绑定,未来可能还会支持更新的FP4等,但目前大多数国产芯片尚没法原生支持FP8, “从这个层面看,硬件层面产品的代际差距拉大了”。如何发挥Infra层的作用,通过软硬协同,将优秀的国产大模型和国产硬件更好的协同起来,以及把市场上的闲置算力更好的用起来,是清程极智始终在思考的。

抱着这样的想法,今年初,清程极智与清华共同开源了大模型推理引擎“赤兔”,通过赤兔的部署,大部分英伟达老卡旧卡及国产芯片都可支撑DeepSeek满血版,与此同时在首期开源的版本中,对比国际主流开源推理引擎,在算力减少一半的基础上,速度还能翻番。

赤兔的出现对于国产算力而言是一股强大的驱动力,特别针对国产算力在支持DeepSeek方面是重要的催化剂,于当下而言更是恰逢其时。

一些例子已在证明。去年,算力概念火热时期,就有声音认为,市场上部分国产算力是属于空置状态。但DeepSeek的火热激活了国产算力市场。据汤雄超观察,他发现DeepSeek走红之后,此前不少闲置的算力已经运转起来。

赤兔的出现,更是对国产算力的重大利好。短期来看,它实现了 DeepSeek FP8 精度模型在存量GPU 上的无损且高效部署。长期来看,赤兔的开源是国产大模型、国产算力和国产引擎闭环形成中的必要一环。

在这个特别的时期,凤凰网科技《浪潮》与清程极智CEO汤雄超进行了一场对话,聊了聊他对于DeepSeek爆火之后,国产生态变化的思考,以下是对话全文,经编辑发布:

谈推理侧需求的爆发:闲置的算力都用起来了

凤凰网科技:你们最近一两个月在忙着做什么?

汤雄超:变化主要在业务精力的调整上。我们是做AI智能算力基础系统软件的,业务精力的投入力度显然也是跟市场上算力需求的变化是相匹配的。去年其实大部分的算力需求是来自于预训练这一侧,包括非常多的像英伟达、不同厂商的国产卡,千卡集群、万卡集群、异构集群上做预训练,优化他们的训练性能,加速降本。

去年我们也有在做推理的一些工作,我们和燧原科技一起做的高吞吐推理一体机拿了不少奖项,在多模态方面,我们去年是跟生数科技联合优化,对于图片生成有接近5倍的提速。但是相对来说,去年推理侧的算力需求相对于预训练侧来说是比较小的,今年DeepSeek走红之后,我们感觉到的最大的一个变化,就是推理算力的占比有一个非常大的提升。

凤凰网科技:大概是一个什么样的比例变化?

汤雄超:现在我们新增的业务基本上都来自于推理侧。其实我们之前是有这样的一些判断,但是我们没有想象到它来得这么快,这么汹涌。去年底的时候,OpenAI的o1发布了之后,其实大家也都能感觉到推理算力的占比一定是会提升的,但是当时的话,OpenAI还是遥遥领先。开源的话其实之前一直也主要以Llama和千问这种传统的大模型为主,但是DeepSeek R1的出现确实很惊艳,我们也看到随着而来整个推理算力,包括推理方面的需求都变得非常多。

凤凰网科技:我记得你去年其实就说过,部署一体机可能还是应该专注于推理侧。

汤雄超:其实现在回过头来看,我们现在正在做的就是当初的判断,比如当初判断推理算力将有大规模爆发,随之带来的大模型私有化部署需求等也是我们正在忙碌的事。而且我们也看到,现在推理跟训练有一些趋同的地方在于大家都会逐渐形成对集群算力有需求的状态。以前推理市场更多是独自的分散需求现在也需要一个集群。但是确实从所需要的芯片能力来说,训练侧对计算能力可能要求还是更高一些

凤凰网科技:推理算力需求的爆发也随之带来了国产算力的爆发吗?

汤雄超:两个方面来说,一方面随着大模型私有化部署需求的增加,我们会看到一些以前的闲置算力确实正在被消化。

但另一方面我们也可以看到DeepSeek拉大了国产算力和英伟达的差距。有一种声音是认为DeepSeek的出现是缩小了国产算力和英伟达之间的差距,我认为这种说法也没错,因为在超大规模预训练集群的场景下,国产算力和英伟达的差距非常大,系统稳定性、可用性、芯片出货量等等都是问题;现在DeepSeek破除了对超大规模预训练集群的依赖,让更多的算力需求转向推理侧,相当于降低了使用国产算力替代方案的难度。

但是我们单纯从推理侧来说的话,其实DeepSeek的出现更加拉大了国产算力跟英伟达的差距。虽然大家也看到DeepSeek开源了非常多的东西,但他们的一些技术创新更多是跟英伟达

H卡架构的卡绑定的,很多优化无法直接复制到国产算力上。

DeepSeek满血版本身是FP8原生训练的,但目前几乎所有的国产卡都不支持FP8的计算,如果要部署DeepSeek满血版,需要把FP8转换成其它数据格式,这样有时会导致显存占用大,用起来非常卡,有时会使模型精度受损,推理的效果不尽人意,那这样的话大家用国产卡的意愿又没有那么高了,同时未来英伟达会支持FP4等新的数据类型,现在的差距在未来有可能进一步加大,从这个角度上来说,DeepSeek的出现让这个差距显得更加明显。

我们前段时间开源了赤兔,因为我们觉得DeepSeek几乎是一个我们在开源社区能拿到的最好的模型,但是它跟非常难获得的硬件是深度绑定的,大家利用现有的硬件条件把它充分利用起来还是有很高的门槛,因此我们开源了赤兔推理引擎,让市场上的英伟达的大部分老卡旧卡以及国产芯片,支持FP8计算模型的推理,同时又做了一些优化助力计算效率的提升,使得不仅用的起来,还比原来便宜,速度也更快。

谈赤兔开源:给国产芯片送助攻

凤凰网科技:赤兔的开源对行业来说价值不小,你们当时为什么直接选择了开源?

汤雄超:我们本身是一个商业公司,但是我们觉得开源赤兔推理引擎或者开源这件事本身跟我们获得商业上的收益并不是冲突的。第一我们觉得赤兔的技术方案确实非常的有价值,是可以给整个国产AI行业的生态带来正向影响的,我们也非常愿意和大家能够共享这样一个技术的进步,从另外一个方面,从商业上的角度来考虑的话,我们的价值肯定是多维的?说个最简单的例子,虽然赤兔是开源的,但是需要基于赤兔进行部署,需要运维,而我们本身是最懂赤兔的。

更长期的角度上来说,比如都是支持原生FP8的推理训练,但实际上我们也可以提供不同性能水平的算子的实现,能够通过软硬协同更广泛的提升国产AI芯片的性能。但是从更本质的角度来说,我们在创立之初就是希望能够促进国产生态的发展,我们也相信算力国产化是大趋势,所以我觉得像这种比较有意义的事情,还是比较愿意开源出来,让大家一起来分享idea。

凤凰网科技:你刚才说原来大家浪费的算力已经被用起来了,能不能举个例子?

汤雄超:我们了解到的是,有很多库存的国产算力,可能本来囤在一些算力中心里面,但在春节后陆陆续续的全都跑起来了。之前有很多的算力是不太好用起来的,甚至就处于一个关机的状态,今年确实我们想租,他们说已经租完了,没有了。

凤凰网科技:之前听说很多大厂本来都有自己开发的卡,但是自己的大模型也没有用自己的卡,为什么没用起来?

汤雄超:也不能说完全没有用起来,可能就是相对用的比例没有那么的高,因为我觉得主要还是英伟达的卡设计的水平,所能获得的全球最先进的产能,以及多年以来维持的生态上的优势,使得业务部门在有选择的情况下,还是会倾向于用比较简单易用的、性价比高的英伟达的卡。

凤凰网科技:所以这可能对国产算力的发展也是个阻碍。

汤雄超:我对国产芯片长期发展之后的性价比优势是比较有信心的。因为从长期的角度来看,从过往的经验来看,我觉得国产的东西在性价比上面卷赢国外没有什么大的问题,但肯定是需要有一个发展的过程。

凤凰网科技:今年对国产算力,会有一个比较明显的曲线变化吗?

汤雄超:我觉得受太多因素的影响,我很难去评估什么时候会发生一个变化。首先国内的芯片设计水平肯定是在持续的发展,包括我们合作了这么多家芯片公司,也感觉到大家新一代的芯片都会比老一代的有一个非常大的提升。

但我觉得可能会有很多偶然因素在里面。另外在软件生态上的话,我觉得也是看大家生态共建的水平怎么样,这本身也是我们把赤兔开源出来,希望大家一起来做的事情。

凤凰网科技:你们现在觉得哪些国产芯片的表现比较好?

汤雄超:如果我们看的话,去年也有一些国产芯片公司,已经开始走IPO的流程了,这些其实就相对来说,是比较成熟的,已经迭代了好几个版本。芯片行业的话,虽然大家在做设计的时候都会考虑到很多,但确实有很多问题是要在使用中,在社区里面才会有反馈的,就包括我们在2010 年左右的时候,清华实验室这边就在搞英伟达CUDA的这些东西,其实那个时候也感觉各种问题。因为之前大家都是在英特尔 X86 上面做,英特尔的东西已经很成熟了,一做CUDA就发现适配性不好,自己也不习惯,一度感觉也没那么好用。但是过了几年之后,等到 2015 年的时候再想在CUDA上面去找一些它的缺陷就比较困难了。到现在的话实际相对来说CUDA生态也都变成一个很成熟的生态,所以我觉得这些其实都是要有一个发展的过程。

谈AI创企的发展:大模型跑起来只是第一步,还有很多问题没解决

凤凰网科技:你们在成立之初 “助力国产化”“大规模集群训练”等标签让人印象深刻,现在公司发展了一年多,你认为这些代表你们的标签有变化吗?

汤雄超:我们之所以给别人留下了这个印象,只是说我们的技术特长和既往的项目经验,在国产化方面积累是非常深的,特别是在大规模集群的训练方面。我们当时成立公司的时候,其实主要考虑到我们自身的团队基因或者说背景,我们有非常强的并行计算方面的,以及像这种芯片架构适配方面的优势。因为我们过去做高性能计算,10年前就遇到过今天芯片行业的问题,今天AI领域发生的一切,我们都非常熟悉。但是通过一些软硬件的协同设计,做一些比较好的软件实现的话,还是能够把国产算力充分发挥起来的。本身如果从性价比的角度去看,我们会发现这种国外最先进的算力,是有高溢价的,如果真的愿意在软件上面去做一些工作的话,其实最终国产的算力方案未必就不如国外的。

AI的发展肯定对算力的需求是越来越大的,首先,模型越来越大,AI的渗透率也会越来越高,另外从长期来看的话,可能会更多的转向一个自主可控的国产算力趋势。两个明确的大方向下,我们觉得做这样的一个公司,就是非常正确的事情。

凤凰网科技:你觉得大模型的数据可能会越来越大,但现在各家可能已经不再去刻意卷参数了,甚至是不做预训练了?

汤雄超:我们现在看到的是说预训练的玩家可能会进一步的减少。就是可能有一些实力特别强的,还是会坚持去做预训练,对于更多玩家来说,他可能觉得我自己做预训练,不如等着这些寡头来推出新的开源模型,像前段时间DeepSeek又发了V3的更新版,阿里的千问,其实更新都挺快的,所以对于很多参与者来说,自己做预训练可能就不如等一下这些技术寡头再给大家发一个新的福利。

凤凰网科技:所以六小龙可能得换条路走?

汤雄超:我觉得对于更多新玩家来说,如果是做这种基于公开数据集的预训练的话,一个是贵,一个是感觉还不如等大厂发,另外一个角度上,对于一些做垂域大模型的公司来说,他可以深入到不同行业里面去,针对这些行业私有数据去做微调,做这种后训练。这块也比较有市场,因为我们确实看到通用大模型也不是全知全能的,肯定也需要获得一些行业的特有知识,才能够在垂类里面有更好的表现。

凤凰网科技:你们现在做哪些类型的需求多一些?

汤雄超:其实都会有,我们现在更偏向于做这种本地化部署的业务,因为我刚刚说推理业务,其实你可以简单分成,云上的MaaS和线下本地化部署。本地化部署的话,显然大家一说就觉得像政企肯定会有很多这种强的数据安全的合规需求。其实也有很多我们所谓的这种私企或者民营企业,其实他们也会有比较强的数据安全的要求,比如说金融行业或者法律行业。

我们觉得DeepSeek对大家有一个启蒙的作用,让大家意识到用大模型是大势所趋了。或者说之前我觉得大模型更多是c端的在玩,现在就是强调了私有化部署,大家都会自问我的企业是不是真的要把大模型用起来了,所以现在不管是咨询的还是真实迫切需要部署的,真的还挺多的。

凤凰网科技:您说到清程更偏向于做这种本地化部署的业务,现在市场上对MaaS也有一些不同的声音,您如何看待MaaS?

汤雄超:首先关于MaaS的需求是真实存在的,大家都是有共识的,就包括我自己也会调API来做一些开发,因为确实调云上API比自己部署要稍微简单。

但是大家讨论比较多的是,有人用产品,但是你做产品也要有成本,那在商业上是不是盈利的?我觉得其实因素会非常的多,比如说算力的成本,产品的调用量,包括客户付费的这种意愿等等,我觉得这些平时都比较复杂,而且这几个因素本身不是固定不变的。

我们也有MaaS,也有一些客户,他可能在私有化部署的时候,就是不想买硬件。如果我先租的话,先云上部署的话,先试试东西是不是真的有用,然后之后再说,我觉得很多东西的存在价值肯定是多维的。

所以我是觉得MaaS能不能盈利的话,其实可能会要用发展的眼光去看待,并不能一概而论。首先算力成本是不是会持续的下降?因为按照以前我们所熟知的这种摩尔定律来说,其实算力成本就是会逐年下降的。第二点是模型的能力,或者说同样尺寸的模型能提供的能力是不是能够持续的增长?我现在需要671B的模型,提供了一个表现,是不是过两年之后我只要100B的模型就可以了?另外就是客户付费的意愿,现在如果是单纯的聊天,我肯定不愿意付很多钱,但是如果他未来帮我承接了很多很有价值的业务,那可能我付费的能力就提升了,比如现在收费标准是100万token16块钱,未来如果是高价值业务的话,可以提高价格啊。

凤凰网科技:目前本地化部署这块业务,清程的研发压力会在哪些方面?

汤雄超:主要还是看我们追求一个什么样的目标,因为本身我们是想向业界提供更加灵活的算力底座,包括支持不同架构的算力芯片。除了英伟达的这种旗舰的显卡之外,也会支持一些老一点的型号,或者是一些国产GPU卡。因为有很多企业其实它也是先从低门槛的入手开始,会慢慢的扩大,所以我们会希望说算力底座是有弹性可伸缩的,你一开始不太好说直接批一个200万的预算来买东西,而是买一个比如说几万、十几万的这种小的机器,上面可能就插了一两张卡,等到有预算的时候,就补到8卡的一台机器。

其实这两点也是我们前段时间跟清华联合发布开源赤兔引擎时提到的,我们会专注于做灵活的部署方案跟多元化的算力底座的支持,但是要支持这两个特性的话,确实会给研发带来一些额外的量。

凤凰网科技:比如说哪些额外的工作量?

汤雄超:如果我只针对英伟达的H20来做,那我就只做一款芯片,但如果说我要支持更多的底层算力芯片的话,我需要考虑不同芯片的特性。从另外一个角度来说,虽然这么做短期内会难一些,但是我们还是会往这个方向去。这一方面还是刚刚提到,我们从公司成立之初,就觉得长期的国产化趋势是比较明确的。从另外一个角度来说,我们的AI行业肯定不可能一直受制于人,你现在觉得H卡好用,但是明天就传来说H20也要禁售,然后就一波涨价,当然后来也没有禁售(编者注:本次对话发生于3月中下旬)。对我们来说就相当于算力底座是不可靠的,肯定不是一个好消息。为了能够满足这种不同芯片架构的适配,其实我们也有一些这种自动化的代码生成的手段来加速这样一个研发的过程,就包括其实去年我们一直在公开场合说,我们主要是三块产品,一块是大规模的训练系统,一块是高性能推理引擎,还有一个就是智能编译器,可以去做一些自动化的高性能代码生成,这样就可以减少一些算子开发的人力,加快我们的研发过程。

不过即使加速了也还是会有一些额外的压力,但是我们觉得事情是值得做的,就包括我们前段时间开源赤兔,在英伟达平台上可能只是一件锦上添花的事情,但是对国产算力来说,它就是成本降一半的一个非常有价值的事情。所以我们研发团队做完了之后,确实也比较有成就感,大家其实也都挺开心的。

凤凰网科技:你们现在人才方面的压力会比较大吗?

汤雄超:压力挺大的,我们的技术门槛确实比较高。但我们公司还是保持严选状态,除了技术上的能力,更多看重人才对我们团队文化的认同。

凤凰网科技:你们现在更需要哪些方面的人才?

汤雄超:因为我们会持续的去做好推理引擎,AI系统层面的人才是我们一直关注的。另外因为 AI 应用落地的速度可能会加快,所以了解上层具体场景的解决方案的同学,我们最近也聊的比较多。大模型跑起来本身只是 AI 应用的第一步,一个基础的聊天窗口,它能解决一些问题,但是也有很多问题它不太好解决。最典型的,几乎所有的企业都想要一个知识库,都想要有一个智能问答机器人,那其实不是说有一个 API就结束了,我还是要去做一些事情。可能是通过微调的方式,或者通过一些别的方式,才能满足千行百业的实际需求。

图片

本文为凤凰网科技原创内容,如若转载、引用,请注明出处,侵权必究。

若您有相关线索,欢迎联络,一经采用,将支付相应报酬。

线索投稿邮箱:tech@ifeng.com

线索投稿微博:凤凰网科技

或直接在公众号后台联络。

[责任编辑:于雷 PT032]

(本文章版权归凤凰网所有,未经授权,不得转载)

推荐21

为您推荐

算法反馈
已显示全部内容

凤凰网科技官方微信

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载