AI服务器专家交流电话会纪要2023-03-27 

Avatarmizhdi 会议纪要 2023/03/27 07:44

Q:AI数据中心和传统的云计算数据中心相比来的话,会新增哪些硬件?

Chatgpt需要的算力形态:Open AI的模型需要消耗3640 PF-days也就相当于它是需要拥有

1万片的GPU和25.8万片的CPU

才能跑出来到它算力模型。

满足日活13,000的访问量,在24小时以5倍的峰值来计算的话,那么它一共需要602台的一个DJX A100。在整个的一个光AI服务器上面,它的需求量是非常庞大的,它每一台的服务器可能达在60~100万人民币的价值量

Gpt4参数量是100倍的一个增长,是100万亿个模型参数,日访问量则需要6万台的a100,如果使用H800或者是H100的话,它需要1万台,这是在看到计算层面。还有推理卡的需求

Q:GPU在这块现在的供应格局怎么样?微软这些国外数据中心的解决方案?国内的?GPU国内受限,怎么解决?

AIGC领域的话最优先英伟达的GPU,我们还有ASIC和fpga的,它们会有局限,比如说ASIC它的研发成本会比较高,周期性比较长,FPGA它又比较局限性,它的延时又比较高,又不适合进行批量性的交互。

单个的服务器的FPGA的模型不能够与其他服务器进行串联,

这是它的一个局限性,未来还是以英伟达的产品为主。目前在海外整个的一个客户的交付全都是以英伟达的A100交付为主,在国内来讲的话,我们的算力集群里面可能会加一些国产的芯片,比如说寒武纪的、燧原或者是百度昆仑芯,但它的比例比较小,可能只有在10~15%左右,甚至说可能更少。

在国内来讲的话,头部互联网客户的策略是战略备货,21年开始都会有20%左右的一些战略物资的储备。

也有消息称在给国家的政府方面进行一些物资的储备。美国那边其实有很多的实体名单,或者是芯片技术不得超过美国,产品产能不能达到一定的保障。

寒武纪590虽然流片ok了,但是它的性能来讲不能达到美国产品的100%.

英伟达的Dgx服务器交给哪家厂商在做?

他自己在做,他有自己的海外的代工厂,这个不太清楚。在国内来讲的话,就是像超威他应该是海外我们预估有一部分份额是超威帮他去生产。

Q:chatgpt已经火了三个月,服务器有开始加单吗?

我们现在拿到了百度、阿里、腾讯还有360的一些订单,百度这边的话是500台,然后阿里这边的话再洽谈5000~1万台,今年年中的时候部署5000台,但是因为受公司的制裁的影响,我们再去确认芯片是由英伟达直接交付,由浪潮组装,还是说由我们进行整机交付,这个模式还在进行确认。

腾讯1000台的需求量的下单的增加.然后360在谈800台A800的需求

Q:到底是用a8a800还是什么类型?

去年储备A100,今年现在是A800;H800还没交货

Q:有两种协议PCIE和NV-link,在服务器里面现在是哪一种比较多?

NV-link从训练来讲的话效果是最好的。

一个是连接形式和它的底层结构不太一样,PCIE的话它肯定会有损耗,而且它要加上底层的这些link的接口,所以会有一些不太优于NV-link的,所以大部分厂商在人工智能训练上面都会用级联的模式。

Q:对存储比如说有些新的需求量很会很大吗?

头部不影响,自己有;创业公司有,但增量不大。

GPU服务器需要网络,然后它都是有层次和比例构成的,它底层还会有一些存储,它数据不断的进行迭代运算,调取这种因为它单价比较低,所以不构成一定的影响。

Q:浪潮进了实体清单,现在最新是一个什么样的说法?

lcxx已经跟浪潮集团进行了剥离,从整个一个法律层面角度来讲,英特尔已经公开会支持浪潮信息的一个供货,也断供了两个星期之后,现在已经实现了完整的一个供货了。海外的CPU、GPU都是正常能够浪潮信息这边是可以去采购的。

浪潮这边的CPU的交付周期是在4周左右,GPU的交付周期是在2~6个月,分不同的产品型号,也找英特尔那边备货了200亿的CPU,所以能够维持一定的不可抗力。

手里的存量有多少?

我们没有存量,我们都是备货订单,英特尔200亿,英伟达那边不太清楚,因为英伟达的产品价值比较高。

浪潮AI的 GPU的一个服务器占比能在多少?

整体服务器的销售额应该在100亿左右, AI的可能会20%,也就是100多个亿??

但里面结构多,没办法细分

服务器的出货数量上大概能占到多少?

我不是非常清楚具体收入数据,但是IDC报告中国市场今年大概是100多万台的一个出货量, AI服务器的出货量才只有十几万台。

AI服务器相较传统服务器需要价值量显著提升的一些部件?

通常在AI服务器里边的话,会使用更高性能的CPU以及我闪存,比如说NVMD的硬盘,在通用服务器里边的话,这些产品可能用的不是非常多,在高性能计算里边的话,可能会你要求的所有的部件逐渐的性能就往上去提了,那么整机的成本就有所增加,可能跟通用的用的产品不太相同。

比如你要用IP交换机和IP线来减少它的网络的延迟。

Q:交换机整体它能提高大概有多少?

我不是非常了解交换机这边,因为浪潮不擅长卖交换机

阿里或者百度去年下了多少量?

22年12月份,阿里说23年100个亿,但是今年新增的这A800的需求有可能会增加100亿,不单单它的是 Gpu服务器,再加上它的一些计算和存储节点;

腾讯40亿,新增的 a800的需求预估是20个亿,头条这边去年和今年会维持在140亿的一个采购规模,但是并没有透露它新增AIGC的需求

百度30个亿,新增的需求预估10个亿左右。

快手京东和美团维持在2030亿这采购规模,就是所有的solo服务器,它包含AI,每一家的AI采购的占比不太一样,像阿里、腾讯,还有百度,他们的占比可能会在3040,像头条、快手、京东和美团,在10~20%

没有增加太多?

今年是疫情恢复的第一年,所以这些头部用户是比较保守的,甚至萎缩。像阿里、腾讯和百度其实在原来的框架里面它的规模是减少的,今年只是说有AIGC的话,它增加了一部分AI服务器的需求,带来了一定的采购规模的上涨。

Q:大家的AI占比相对来说可能也就20左右?

阿里它其实就是翻倍了,腾讯增加的里面AI占50%,百度可能就占了百分之二三十。

Q:百度新增加的500台,阿里新增加的这些交付周期大概有多久?今年内要完全交完吗?还是说它是一个长时间周期的订单?

阿里和百度的话要求是在今年的6月底之前,阿里交付5000台,百度交付八百台,但是其他的用户没有告知,应该是在分期交付,阿里这边的话是想今年年底部署m6的大模型,应该会输出它的方案,所以它投入是比较多的。

但是根据现在的整个一个a800的交付能力上面来看的话,它是要两个月左右的一个交付时间,组装的话估计交付时间会在三个月,如果一些中小型客户的话,它的交付周期将达到6个月,就是可能资源会倾向于这些头部用户。

Q:这个单价大概在什么级别?

NV-link价格会在60~100万不等,要看其他CPU硬盘的一些配置。如果你是用一些小模型,你用的1-8卡这种零散的话,它有可能会在10万到100万不等,就是卡是越多。

Q:传统的那块服务器的景气度怎么看?今年会有压力吗

传统的头部用户都已经进行了采购萎缩了,只有头条保持140个亿的一个稳定的采购,其他的都在缩水。去年看到的 Ai的需求是在无人驾驶上,去年无人驾驶还有三大运营商关于 AI的一个投入,他们都做了资源储备。

去年10月份的话,有一次英伟达就是停止对于中国的销售浪潮这边的有一部分的资源全都被这些客户都买走了,所以今年还没有看到他们的新订单下过来,比如说交通、能源还有三大运营商。

Q:传统的那块什么时候触底?

今年其实上半年没有说是头部用户又多去下了订单,其他的一些类型的客户就是维持库存,现在是有20%的战略备货,现在每个企业都在做,这20的话是驱动的是做自己的物资,他们也是担心未来有一定的风险。

在使用 Gpu芯片来讲的话,国产芯片也是一个趋势,但是现在国产化的它是不足15%的,所以如果说咱们国内要发展这种大模型或者单一小模型的话,还是以GPU芯片为主,还是要看英伟达的态度,看它的产能。

Q;如果浪潮集团下面各个子公司被列入到实体清单,那么对采购英特尔CPU加英伟达的一些a800制约,GPU卡的话会能造成有多大的影响?这块能讲讲吗?

一旦浪潮信息被加入到实体名单的话,对于我们来讲是致命的打击,就是任何都买不到了,订单完全交付不上.但是我们现在已经进行了剥离,从你可以看到的股权结构、组织架构,还有销售模式,还有整个一个团队都发生了很大的一个变化,我们现在应该会在这个月底的时候进行完全剥离,跟集团完全没有任何关系,从法律的意义上面来讲的话也没有任何关系了,但是如果美国不认的话,那也没有办法。

目前浪潮的所有储备的资源也够交付一两年的了,至少说一两年之内我们的整个交付没有任何问题。

Q:8卡的话大概单价是100万,因为我了解到的情况可能a100单一块可能就要15,000美金?

单块A100我们会在7万左右,然后卖给客户会在八九万,A800,现在要贵一点点,a100的话原来会在56万,然后卖给客户可能会在78万这样。

阿里这边希望6月底能交付5000台,相当于是阿里今年新增的需求50%,我们独供?

目前来讲只跟浪潮一家在洽谈,但是如果浪潮这边不能够去解决制裁和交付的问题的话,它的订单会流转给富士康。

正常服务器代工毛净利率应该是在什么水平?Ai服务器有更赚钱一点吗?

毛利两个点。AI服务器如果整机由浪潮交付的话,它的毛利会更高一点,可能会在10~15%的毛利。如果是要大厂的话,它由上游指定价格指定物料来讲的话,整机交付的毛利也就在2%左右,净利率会更低。

大厂都是指定的吗?

会有一部分由浪潮去交付,浪潮就会用自己去采购的物料的成本去组装进行交互,会跟它有一定的价格的谈判,但这样子可能只占在全年采购的20%左右。

AI服务器多赚钱,但是从组装难度加工代工难度来讲就没有什么变化?

是的

阿里、腾讯、百度还有字节这4家客户,今年服务器的采购额跟去年相比大概能增长多少?

采购几乎持平,我们中标占比的话都是和去年差不多的,然后他们今年的采购规模又萎缩了一点点,所以我们就看上去应该是持平了。

在2月份之前都给的很低,后来二三月份都大幅增加了是吧?

加单了。加单的只有 Gpu的服务器,然后也要看GPU服务器里边我是不是我们家中标,如果我们交付不上的话,它就会留给第二供应商。

阿里增加100亿,可以说腾讯增加20亿,百度增加10个亿,这都有130亿了对吧?百度增加了130亿,去年我们营收比如21年也就600多亿,感觉是增加了很大的一部分,占比可能都有20%多了?

订单还没有还不确定要下给谁。放出来面对全市场的订单?是它全年的采购?

浪潮在阿里这边的占比在30%左右,腾讯的话浪潮占比在55%,

刚才您讲的发卡的服务器的单价是60~100万,是不是可以理解成就是说60100万的这种就是整机交付的,然后60万的这种就是说基本只交付房卡的。

阿里新增的这100亿是没有跟比如说国产像寒武纪这些厂家合作的是吧?

没有,直接跟英伟达进行洽谈。

因为在对这些互联网龙头来说,最优策略还是能尽快的把比如说a800能存多少

目前来讲GPU算力的这些资源是很急需的,是国家可能也需要这些投入用户去多囤一点,为了看后面这个国家在发展。

以前我听说互联网厂商可能按这种之前预算的节奏执行的情况,可能比如说到二三季度甚至到三季度了,才能执行全年预算的50%,然后今年也属于是aigc的带动下,这种预算的执行也是加速了是吧?

目前给我们回复是在阿里和腾讯,他们要求在6月底之前要把他们的业务进行汇总,然后看看预算花的情况,正常来讲,它会按照每半年会花50%预算,节奏是这样。也有可能加速

现在如果要确认大模型,他们各家的算力的浓度,您这边预估大概是一个什么样的状态?可能谁差不多够,然后谁可能是要等这些新机器来采购。

阿里肯定是够的,阿里去年来讲的话都备了3万片的 A100,至于是怎么交付,是下单给谁了,我不是非常清楚,这是他们跟我们说的。

腾讯。这边的话 a100储备不是很多,它每一年的库存储备是在1000片左右;百度没有听到他们备货a100的信息,

现在会用寒武纪的一般都是哪些客户?

大家关心590,因为它对标的是a100,现在大部分市面上。流通的是370的产品,然后寒武纪这边其实应用的客户就很多了,我们上到互联网客户,再到金融或者一些企业型客户都有交付,这个产品的使用和适配上面每一家都已经适配ok了。

昆仑芯这边的话,它也是去年才发力做市场推广的,但是它从算力上面来讲的话,又没有说像达到寒武纪那么好。590来讲的话是它现在受生产产能的问题,台积电是不是能给他把这东西做出来也是个问题,然后还要去进行商务合规。

美国这边允不允许590在市场上大规模的去销售,还在等一定的消息。