智算中心里面哪些是重要痛点?宁畅总裁秦晓宁现场解答
科技
科技 > 互联网 > 正文

智算中心里面哪些是重要痛点?宁畅总裁秦晓宁现场解答

凤凰网科技讯 4月1日,近日,宁畅发布“全局智算”战略,并揭幕了包括“AI算力栈”在内的一系列战略性新品与系统解决方案,旨在有效解决大模型产业落地的全周期问题。在本次发布会上,宁畅总裁秦晓宁、宁畅副总裁兼首席技术官赵雷回答了多家媒体的提问,并分享了宁畅在AI计算领域的一些洞察与发展方向。其中,对于“在智算中心里哪些痛点是当前很重要的?”这一问题,秦晓宁表示,针对三类不同的客户,其痛点是不太一样的,我们能给他提供的方案也是不太一样的。

从互联网客户的角度来讲,他们并不需要给我们来提供测试和方案,我们只要提供好服务就可以了。而面对原来做IDC机房或是跨行业转型过来的这类客户,我们可以给他们租算力,也可以卖算力,甚至可以在液冷服务器的运行供电、运维管理部署、节点间的联调,以及通信问题等方面为他们提供帮助。同时,秦晓宁还表示,具体是以什么样的方式为这些客户解决问题,是收费还是免费,这个还没有想好。不过他说道:“只要客户有这个问题,我们帮他解决了,我相信客户最终还是选择对他有价值的、长期的合作伙伴,而不是一个简单的、硬件的、买卖的关系。”

以下为宁畅总裁秦晓宁、宁畅副总裁兼首席技术官赵雷与现场各媒体对话实录(有部分对话删减):

媒体:今天宁畅提出了“全局智算”品牌战略,如果从具体的执行落地层面来看,有哪些具体推进的逻辑?以及有哪些重点发力的方向?

秦晓宁:如果大家是每年都来参加发布会的话,其实宁畅的风格都比较清楚,我们基本每年年初都会有一个战略升级或者战略发布。去年是冷静计算,之前是定制化、服务器专家,今年是“全局智算”。大家可以看到,如果回头来看,我们每一次的战略发布绝对不是开一个会议就结束,或者像发一些宣传的稿子、做一些市场的宣传这么简单,我们在之前对整个战略的支撑等一系列东西都有一套清晰的执行策略和落地的想法,像“全局智算”最后的视频,就是一个实地的采访,这会让人觉得这个东西是真实存在的,而且已经跑起来了。所以今天的会议只是一个开始,我们已经搭建好了128台AI软件栈,不管是软件、硬件,包括应用层面都已经做了很多的测试。今天在场的有软件团队的负责人,他说今天展台上都没有硬件和传统的产品的介绍,还说自己准备了许多东西等着别人问他。我说没关系,后面有机会让你和大家讲。另外,他说自己准备了丰富的数据,包括每一个模型的参数是怎么测、怎么调、实际效果是什么样的。现在来看,我们在这个领域已经有一些可以帮客户在具体的模型微调推理过程当中推荐的方案和配置。这个是很多其他厂商没有做到的,同时也是用户非常需要的。他现在还在犹豫,还想做一些测试,目前他能拿到的测试机台就是几台的服务器,不是一个大的集群的节点,我们现在可以实际测,可以免费使用。我们自己已经测了很多数据,也可以给客户做参考。最近有一个客户说,他有70B的大模型参数的推理及训练环境,但他自己测出来的环境效果并不好,而我们测出来的还不错,我们可以帮着客户做一些参考,给他一些建议,包括我们实际怎么做的、配的,这是我们真正想做的。我们不是为了卖服务器、为了卖一些集群,给大家说我有哪些战略,而是在大模型发展的现阶段开始,我们应该去给行业、给客户带来一些怎样的整体解决方案,至于买不买是其次,这也是宁畅这么多年以来秉承的。我们首先提出引领技术,之后往前走一年、两年、三年,证明我们当时的判断是不是正确的。这是我们“全局智算”战略的情况。

媒体:从两会到现在,新质生产力这个词一直很火,所以特别想问一下秦总,从宁畅的角度来讲,您是如何理解新质生产力的,或者说这跟产业结合会带来怎样的发展?

秦晓宁:现在各行各业如果要做新质生产力,人工智能是迈不过去的,必须和人工智能结合才有未来,否则就会被淘汰。

媒体:第一个问题您说了“搭上大车是势必的”,您也正在做人工智能这个事情,那么宁畅具体有什么规划?

秦晓宁:除了说卖好硬件、做好基础架构和设施的产品、定制化的产品之外,更多的是我们要搭上AI的大车,思考未来的AI底层架构是什么样的,我们应该怎么去覆盖、满足全液冷、全配套的产业链的硬件。我们已经是在做这方面的布局了,大家也知道我们之前有好多世界第一,这些也是测出来的、调出来的,所以现在我们已经把这些团队的人员转型了,通过他们的能力去告诉客户,如果你想在有限的硬件资源算力的情况下,去支撑你的业务发展,不管是大模型也好,还是微调的需求,我们可以给你一套综合的解决方案,绝对是开放的,不是封闭的。而且可以结合客户的应用支撑,做出定制化的调整,这是未来我们在人工智能持续要做的。

媒体:“全局智算”提到全液冷,请问现在液冷技术在智算中心的渗透率有没有提高?增长态势是怎么样的?用户的需求有没有什么变化?

赵雷:从宏观来看,当前这个时间点,整个液冷在数据中心的渗透率应该是不高的,我大概预估了一下,应该是5%到8%。渗透率不高有两个原因,一是芯片的功耗还没有达到不用液冷就解决不了的程度,因为当前服务器的GPU的风冷支持的最高功耗是700瓦,往上可能是700到800,至少不能说不能解决。未来一到两年,单GPU的功耗是到1000以上,这又带来一个问题,不用液冷是彻底解决不了的,所以未来我个人预期应该是在2026年,渗透率大概能到30%,因为那个时候所有新量产的GPU的系统单机的功耗都会到20千瓦,单卡的功耗是1000瓦以上,因为技术原因无法突破,所以必须通过涨功耗,同时搭配液冷解决散热的形式,来让算力进一步提升。

第二,不管是IDC建设政策还是东数西算,是这两年才开始往下落的,国家包括各省市出1.3、1.25、1.2的PUE的标准,基本上全是针对新建数据中心,新建数据中心落地也就是从去年才刚开始。桐乡的系统也是45千瓦的机柜,且也就放4个,所以电是个问题。只有新的机房才能上,所以从这个时间点往后才是液冷整体市占率快速爬升的阶段。

媒体:现在大模型的兴起给整个算力产业带来了很大的增量,不光是已有的产业链,很多传统产业的公司或者企业也在切入进来,您怎么看目前的现状?这是不是意味着算力产业门槛在降低?

赵雷:谁有钱谁就能投资算力基础设施建设,如果你从这个角度来理解,门槛是低了。去年是算力投资,前年是存储B,大家都买硬盘。再往前是以太网,某一个客户跟我说买了2万台笔记本架好货架,电一铺每个笔记本开始挖矿,这个角度来看算力门槛挺低,有钱就可以做。不过去年10月份以后形势不一样了,光有钱算力也堆不上去了,你买那么多低效能的算力意义有限,还是得从软件和算法,包括整体优化的幅度上去解决实际的问题。如果从这个角度来看,门槛提高了,因为不是你花钱买东西就能搞定的,你要有技术实力,通过一定技术的门槛或者说是技术的投资,至少让你具备一个基础能力才能往上玩大模型,所以这样看来门槛是越来越高了。

媒体:有三个问题,分别从计算、存储和网络都提问一下。

首先是存储。有一个论调,AI时代,CXL已死,关于“主要都是从GPU推,GPU因为不用PCRE,导致用户知道更先进的是什么,但是有顾虑不再投入那么多”,这是不是限制了方案,以及怎么样排除顾虑?

网络侧的问题。算力可能要考虑兼容此前的基础设施,导致网络侧可能是以太网卡、可能是IB的网卡,但是模型会拆分,以太网卡明显弱于IB的网卡,所以怎么样兼顾以前的基础设施以做更好的整合?

计算侧的问题,随着大模型的发展,尤其现在视觉大模型更吃算力,可能会从千卡甚至到万卡,对应更大规模的大模型算力之间,我们有没有一些相应的规划和设计?

赵雷:CXL初步设计出来有三个,T1、T2、T3,目前T3应该是市场前景相对最明确也是最乐观的,但这不是给AI用的,它基本还是给双路服务器用。但是典型应用在内存全插完后还不够,只能弄一个内存扩展,这样双路服务器现在做个8T还是没问题的,这个方面走得比较快。T1和T2所谓的缓存一致性、连接的技术特性没有很好的用起来,这跟NV搞私有协议有关系,但是不同公司有不同的商业决策,其实调试好了都挺好用的。一个是封闭生态比较方便,一个是开放生态选择很好,但是可能需要技术门槛才能用好。两套系统怎么融合?如果纯从机群很难融合,而业务角度有融合的机会,不管是NVNIE还是NAIOM软件可以很好的把不同的机群整合到一起来进行调度,当然这也是分着干活最后再整合,在物理上还是两套,这是物理架构和特性决定的。

最后一个问题,也是我们做128节点千卡算力栈的初衷。我问软件架构的同事,我说给你16台机器,能不能预测拍一下合适不合适?他说拍不了,我说你水平不行,他说你觉得谁行你找谁去。最终我们决策是先上一个,一个是给客户体验,让他们能实际使用,我们自己也可以做一个能力验证。结局是越往上越难做,而且增长率曲线没有那么良好。千卡到万卡大模型的技术难度远高于百卡到千卡大模型,我们积累了很多经验,方便行业使用。

未来再往上对于技术难度极高,从万卡到十万卡几乎不可能,当然以净算力计算,整体上的算力增长没有那么理想,这个东西是跟工艺相关的,增长有限,已经不线性了。但是国内存在另一个情况,可能是要靠数量、算法、数据集,更多的靠优化、调整包括电,未来中国的电肯定不是问题。所以这是两个完全不同的思路,但是算力在宏观上肯定还是要增长的。

媒体:从创立以来,宁畅最重要的可量化的成果是什么?今年“全局智算”的发布处于什么位置,或者有哪些意义?

秦晓宁:对我们来说,从2019年底到现在4年多的发展,目前有几个数据,一个是IDC服务器,销售额目前是排在前4,AI服务器目前销售额是第二,根据去年IDC报告,液冷服务器目前是排在第一的位置。过去这5年如果是用这三个来交答案,结果应该还算是可以,因为毕竟时间短,而且成立开始第一年我们才开始研发AI服务器。我记得很清楚,2020年4月份,我们开始开发X660的服务器,当时做这个很忐忑,因为投入特别大,但是不知道卖到哪儿去,只觉得这是一个方向、这个东西要做。当时的中国市场AI服务器没有那么火,但是我们义无反顾做这个产品,2023年我们才吃到AI服务器的红利,忽然一下量就起来了。

宁畅的优势不是一下子冲到第一名或者要做全球领先的,这个口号目前我们还没有喊出来。但是可以看我介绍的几款产品,不管是液冷还是AI服务器还是高端通用服务器的销售额表现,我们一直是技术导向,可以说创新技术是我们的基因,也是我们一直持续发展的原动力。所以在这条路上,如果是今天的“全局智算”,可能我们走得更深入了一些,之前都是局限在某一个点上,但是现在我们敢把这个东西结合到一起、整合到一起,这个可能对厂商的要求更高,但是我们给客户、给最终的行业带来的改变会更大。所以我觉得“全局智算”可能在今年是最难讲的,最不好让大家去理解,甚至于说可能对我们俩的挑战也是比较大的。原来更多的精力和专业的程度是在基础硬件架构上,今年我们需要做出一个方案、一个转型,但是这个决心我们已经下了,而且是已经在做各种各样的工作了。

媒体:您认为在智算中心里面,哪些痛点是当前很重要的?宁畅能够起到什么作用?

秦晓宁:从我个人的理解,大家现在提到做智算中心、人工智能的发展,按客户维度门槛是不是低了?在以前,人就是做数据中心、做IDC的。还有大的互联网的客户,也是去年在做大模型,当中很多下手最早的,也是目前来看做的最好的。

针对这三类客户,他的痛点是不太一样的,我们能给他提供的方案也是不太一样的。互联网客户自己也有技术人员,甚至用什么都想得很清楚,他说你不需要给我测、也不需要给我方案,我就告诉你要什么,定制什么东西,或者就是需要一个整体的方案让你帮我实施,这对于我们来说反而是最简单的,他有想法,想好怎么弄,我只要提供好服务就可以了。

针对于后面两类,原来做IDC机房的,只是原来各家客户的机器放在这儿,他今天发现我也可以租算力,也可以卖算力,因为有的中小企业买不到那么好、那么多的,或者有钱去买GPU服务器。他想转型,只要买一些GPU服务器搭起来就可以提供算力支持,去做租赁了。包括第三类,原来确实是跨行业转型过来的,可能他连机房都没有,需要重新去建机房,再在里面做方案的设计,去做AI的部署。所以对于这两类客户,其实我们对他们的帮助更大一些,因为互联网的公司只是买设备,但是对于买设备的厂商是有门槛的,不是一些中小企业就可以提供的。对于后边这两类,虽然他的技术能力不强,也是买设备,但是可能给他提供设备的厂商很多,因为现在可以做服务器GPU的也有很多。这些如果在去年可能还能解决客户的问题,只要拿到货给他提供GPU就好,反正上线把卡租出去就够了。但是放在今年就满足不了客户的需求,就算你有能力拿到卡卖给他,放在机架上用了,先不说用得好不好,目前多个节点的调用、上架部署实施,甚至于现在很多新建机房从刚开始建就要支持GPU服务器,甚至于液冷服务器的运行供电,包括机房机柜,甚至运维管理部署到最后节点之间的联调,包括通信之间的问题,这都是现在这类智算客户不具备的,可能这就是我们的优势,我们可以帮他解决这些问题。当然是什么样的方式,是收费的还是免费的,这个说实话我们没有想好,只要客户有这个问题,我们帮他解决了,我相信客户最终还是选择对他有价值的、长期的合作伙伴,而不是一个简单的、硬件的、买卖的关系。

媒体:请问发布的AI计算栈是定制化的服务还是标准化的服务?未来宁畅会不会自己也建一个智算中心,还是只是在实验室里面来做尝试,把它推给新建的智算中心或者数据中心来改造?

赵雷:对于它是一个标准化还是定制化业务的问题,这是两个层面的事情,跟我的服务器一样,首先我有标准服务,比如说128节点,256节点,512节点或者64节点,这是成熟方案,可以直接复制。

另外一个,很多互联网的客户说不需要你明白,我明白就行了,所以就变成一个定制化的服务。不管是服务器、网络系统还是上层软件,对于那些客户,他们可能比我的软件能力更强,所以可以自己解决软件,我来解决硬件或者网络的问题,这种情况是定制服务。先是有标准服务,如果你觉得标准服务不能满足需求,就来定制服务。我们本来就是一个做定制起家的服务器厂商,一开始就是智能定制专家,后来是制定家,这是基础,在之后我才转到液冷和全局智算这个方向。

对于要不要自己开数据中心这个问题,从宏观来讲我们没有这个计划,开数据中心是一个高度基础设施投资且高度重资产的业务,更适合传统的数据中心厂商,包括大的行业运营商、大的互联网云厂商,可能在这方面的优势更明显。以当前宁畅公司的体量、技术、销售能力、市场定位和整个对于宏观局势的判断,我们还是以服务器和对应的基础设施产品作为公司的主营业务,其他部分会有少量的涉猎,不会在短期内发生大变化。

媒体:计算栈如果是一个解决方案,您考虑过未来会进行全冷的布局吗?宁畅给客户提供的计量单位是按节点来算的吗?

赵雷:可以按节点来算,全冷是必然会实现的事情,因为现在这代都是700、800瓦的风冷,下一代肯定是全液的,我们现在有全液的产品,当前成本是高的,如果考虑TCO肯定是合适的,未来功耗越来越高,有的客户说我要选择全液,机房空调都不装了。还有就是全液的初期投入比较高,找一个风液混合的,装少量的空调,主力的热量从液冷带走,这些能力我们都具备。我觉得至少在5年内,风液还是一个相对主流、成本比较友好的方式,但是个别尖端的或者追求机制PUE的客户会选择全液。

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载