大模型对算力需求影响几何?调研纪要
Q:大模型在算力端带来了哪些新的需求?
A:算力需求主要分为两部分,包括训练算力和推理算力。目前来说对训练算力需求非常高,ChatGPT的公开数据显示它的整个训练算力消耗非常大,达到了3640PF-days(即假如每秒计算一千万亿次,需要计算3640天),换算成英伟达A100芯片,它单卡算力相当于0.6P的算力,理想情况下总共需要大概6000张,在考虑互联损失的情况下,需要一万张A100作为算力基础。在A100芯片10万人民币/张的情况下,算力的硬件投资规模达到10亿人民币。而整个的数据中心还需要推理算力以及服务器等,规模应该在100亿人民币以上。
Q:大模型对计算的需求和以往有什么差别?具体包括在算力,互联等方面
A:以往大多都是数据中心,超算中心以及各大互联网公司的云计算中心会有相关的算力基础设施需求。
训练端:训练算力相关设备主要是英伟达的A100和H100,推理算力主要是英伟达T4卡。ChatGPT的发布使得算力需求增加了,以前算力的商业应用并没有特别多,主要是推理端像图像识别、语音识别等。大模型的爆发会导致训练的应用场景越来越多,对训练算力的需求会大幅增长,增长幅度能达到10倍甚至100倍。
推理端:也会有相应的增长,但幅度不会这么大。
Q:做好一个大模型的最低门槛就是1万块A100的芯片,这个说法准确吗?
A:如果对标的模型是ChatGPT,那是需要这样的硬件需求的。
但百度文心一言没有达到这个芯片规模,训练算力没有达到ChatGPT的水平,尤其是在上下文互动和逻辑上有较大缺陷。
主要问题是文心一言的训练精度不够,这是因为它算力本身的限制。国内目前大模型主要是算力层面和国外差距比较大,这也是制约国内大模型发展的客观因素,没有算力基础,后面算法等发展都无法进行。
Q:互联网大厂囤芯片以防断供的具体情况?
A:2022年美国限制英伟达和AMD向国内出售高性能计算芯片,国内互联网大厂意识到风险,去找英伟达购买。但因为从下单到拿货的周期较长,国内互联网厂商的优先级较低,国内互联网大厂买到的A100以及H100芯片数量是比较有限的。
Q:中国特供版A800和H800与A100和H100的具体差距?
A:主要差距是互联带宽的下降。A800的互联带宽从A100的600GB/S下降到400GB/S,H800的互联带宽从H100的900GB/S下降到450GB/S。本身单卡的算力不变,但是集群后,卡间互联的带宽会限制整个集群的算力规模。
Q:国内目前GPU芯片能不能支撑大模型的需求?
A:国内目前的相关产品都和A100有所差距。
一部分是已经批量生产的产品,大多都是A100的上一代,比如寒武纪的思元290、百度的昆仑芯二代、燧原科技的燧思2.0的算力水平都落后于A100一代。
还有各公司正在研发的相关产品,比如昆仑芯三代、思远590、燧思3.0等,这些产品都是对标A100,但由于“实体清单”的限制以及研发水平的原因,这些产品都还没有推到市场。华为的昇腾910芯片,也是受限于公司被制裁,没有大规模的出货以及销售,可能在政府的计算中心有所使用,但对商用客户端帮助有限。
Q:哪些芯片相关企业会受益于大模型的浪潮?
A:首先是算力芯片,包括英伟达的A100和H100,以及寒武纪、昆仑芯、燧原、华为海思、海光、沐曦以及摩尔线程。如果国内的产品能去替代英伟达的产品,会是一个非常大的机会。
经历制裁后,国内的大型互联网企业在采购相关芯片时,目前还是会购买英伟达,但应该也会有相关的国产化替代方案。从生产层面看,还需要高带宽内存颗粒,目前国内的合肥长鑫和长江存储都还做不了,主要是国外的三星、美光和海力士三家企业。产业链上,会带动先进封装相关公司,未来国内芯片厂商会在国内的封装厂做先进封装。
除了算力芯片,数据中心建设也需要CPU服务器,会带动国内提供大型服务器的厂商,比如浪潮信息、中科曙光等,以及光模块、调节芯片和散热技术,都会有相关需求。
Q:计算芯片中除了GPU芯片,FPGA芯片、专用芯片ASIC发挥什么作用?
A:高性能计算芯片不止GPU这个处理架构,比如像寒武纪的ASIC和GPU是同样的应用场景,只是技术架构不一样。比如百度的昆仑芯一代,是XPU-K(自研)的架构。因此算力芯片,不光只有GPU,也包含ASIC、FPGA芯片。
Q:在美国制裁的背景下,国内厂商怎么去替代英伟达的A100,通过什么途径?
A:目前尤其是在制程工艺的限制,美国2022年10月份的政策限制是互联带宽超过600G,算力超过600T的产品不能使用台积电的先进代工工艺。国内的产品不能超过A100的规格,否则不能使用7nm或者5nm的生产工艺。
目前国内有7nm产品的只有中芯国际,从成熟度和产品产能上都和台积电有差距。但即使有差距,国内的公司也会陆续通过中芯国际的生产工艺去生产相关的芯片。虽然目前工艺限制在7nm,但我们可以通过chiplet等先进的封装工艺将多个7nm芯片高速互联,实现算力的提升。
Q:国内来看,您认为哪些领域大模型会率先爆发应用场景?对算力产业链有什么影响?
A:目前很多公司宣布接入文心一言,ChatGPT在国内国外的应用场景也都陆续在落地。
1)工具链层面:大模型可以做很多事情,比如ChatGPT和Office产品的结合,以前很多东西需要人去写公式、计算,但是现在ChatGPT接入后Office会变得非常灵活,通过office做交互、实现的话,工作效率会有一个非常大幅的提高。
2)语音交互层面:智能交互,如智能音箱、智能座舱,未来肯定会有一个大的提升,现在汽车里用的小度等,其实语言理解能力是很差的,想要交互是很难的,而且体验也非常差;大模型接入后,语音交互层面会做得很好,比如我们在汽车智能座舱里发一个指令,他的理解、执行他就会非常精确。包括我们用的智能音箱、智能家居等,理解、执行也会比较到位。
Q:目前国内AI芯片厂商的格局?
A:个人看法,以大算力或者高性能计算芯片为代表看的话:
第一梯队:有成熟产品、批量出货的企业,主要包括寒武纪、华为海思、百度昆仑芯、燧原科技,这四家有2-3代更多的产品,技术能力、软件能力都有一定积累。
第二梯队:包括壁仞科技,它去年发布的产品规格很高,但主要还是停留在纸面数据,实测数据、实际性能方面业界和第三方评测机构评价没有那么高,它本身的性能是不及A100的,而且软件层面也还有很多工作要做,目前它只是做了一个软件的雏形,从使用角度来讲离成熟的生态软件、规模化的出货、客户端的个适配还有很长的路要走,现在它也面临着制裁问题、实体清单问题,对于这样的初创企业是生存层面的问题。像天数智心、摩尔线程、沐曦也都陆续有产品推出,但技术能力不及壁仞,只是停留在推理层面,不像第一梯队的企业有更成熟的产品经验,但这几集也都至少是以做AI芯片起家的,专注于该领域。
第三梯队:包括海光、景嘉微,他们以前不是做GPU的,现在过来做GPU。景嘉微也是做GPU芯片的,但在商用端没有多少使用,实际产品性能不是特别清楚。海光是做X86CPU起家的,GPU的技术能力还有待市场的认可和检验。
Q:训练芯片是1万张A100的话,推理芯片需要多少?如果它跟日活访问次数等有相关性的话,中长期来看推理芯片的情况?
A:虽然说大模型训练的算力需求量非常大,但是产能模型训练好了之后,实际投入到使用中或是在跟终端的互动中,其实也是需要消耗很多的推理算力,尤其是在访问量大的时候。所以其实不管是微软的智能计算中心,还是百度的智能计算中心,我认为都有相当规模的推理算力。
通常数据中心或者超算中心里都会配备推理算力,一般算力的规模或者说数量的规模没有特别少的,尤其是数量。比如我买1万张A100的卡,可能还要配几千张的T4推理卡,当然英伟达现在最新出的L4推理卡也会配在数据中心里,但是目前来看它的规模应该没有训练的算力规模大,但随着访问量或交互量上升,我认为推理算力需求量是不小的。当然推理层面CPU本身也是可以分担一些,尤其是数据中心里用的这种大型企业级CPU,本身是可以做一些推理的事情,但是毕竟不是专业做运算的,所以我认为肯定还是需要大量的推理卡支持。我认为可能规模比较大或后期访问量特别大的数据中心,推理卡的数量可能会非常接近训练卡的数量。当然因为推理卡本身的价值、算力没有训练卡大,所以从市值规模看,应该还是没有训练卡的市场规模大。
Q:如果美国后续不给ARM的架构授权的话,我们有什么解决方案?
A:目前不管是国内芯片公司,还是英伟达的AI的云端、推理端架构芯片,内部都用了ARM的CPU去做控制,因为AI芯片的内部,除了ASIC或GPU芯片的内核以外,一般都会配一个ARM的CPU去做AI芯片、处理器层面或是内部的交互,或者做一些控制层面的事情。所以CPU其实对AI芯片来说也是一个非常重要的东西。
如果我们后面国内AI芯片企业拿不到ARM的授权,一是已经授权的东西还是可以继续用,比如华为、百度、寒武纪已经拿到了A78的授权,但是没有了后续的支持,无法用最新的ARM的架构;二是目前国内同ARM竞争的RISC-V发展的也挺好,它是一个开源生态,如果后续真的国内芯片企业用不了ARM的话,对它是一个好机会,在性能层面它其实没有比ARM差多少,主要问题在于生态没有像ARM那么完善,如果有更多的开发者去起来的话,可能生态会慢慢完善起来。
Q:如何看待ARM打算改变授权费模式,从原本的按照芯片价格1-3%收取费用改为按照整机价格收取费用?
A:按整机价格收取的话可以多要点钱,我们做芯片设计的跟这些IP公司打交道比较多,他们对我们,尤其是国内芯片企业,不光收费贵,而且审计等非常严格。很多时候一次性授权要收取,后面卖出的单颗芯片还要在收取一定比例的费用,所以其实是非常贵的。
用这种商用IP,尤其是ARM,用这些国外的大型IP厂商其实代价都是非常大,对芯片公司尤其初创企业来说,花费的成本非常高。但我们还没有自研能力去做出来比较好的IP,很多比较简单的接口IP如走字眼的高速接口,华为、寒武纪等都可以自己做,但ARM目前确实是比较难做。如果ARM还要再后面再涨价的话,会有更多的芯片设计公司转向RISC-V,其生态会慢慢发展壮大,挑战ARM生态。
其实ARM一家独大已经这么多年了,我觉得应该有一个像RISC-V这样的竞争对手,不然在国内乃至全球大家都不得不用ARM。这种有点像垄断,像高通之前因收取整个手机的专利授权费用被中国政府罚款后就把收费政策改了,如果ARM这么弄的话,可能我们也会有一些扶持或者制裁措施。
所以ARM授权模式的改变不一定能成功,而且如果推行的话有可能刺激RISC-V生态壮大。对于芯片公司的研发者或设计者,转去RISC-V生态也是一个好的解决方案,只是要花一些学习成本。
Q:RISC-V架构的在国内的使用情况?
A:目前国内RISC-V占有率较低,但增长很快,因此未来会有许多企业去做RISC-V产品。比如,阿里提供基于RISC-V架构的平台及生态服务。寒武纪、华为已经开始使用RISC-V架构。
边缘侧AI芯片大多采用ARM架构,因此在专利授权的模式改变和垄断的情况的发生下,会有更多企业去尝试使用RISC-V处理器架构,从而促进整个生态的增长。叠加国内很多企业上了美国“实体清单”,ARM停止服务,促进了RISC-V等开源架构的应用增长。
Q:海光Z100和英伟达A100的差距?和应用领域?
A:海光训练产品的算力规模不足以支持做数据中心。海光DCU Z100训练算力较小,不到100TFLOPS,只适合一些推理场景,不足以支持大模型的训练,因此没有能力去替代寒武纪、华为和英伟达的产品。
目前来看海光缺少大算力技术基础。第一,海光的X86授权CPU技术积累,对做GPU没有帮助。第二,海光的AMD授权软件生态也不足以在大算力的超算领域和英伟达的扩大生态竞争。因此,要做大算力产品还有很长的路要走。从产品层面来讲,海光离传统做AI芯片的企业还是有较大的技术差距。
Q:文心一言算力使用的产品?
A:训练端:主要使用英伟达产品V100和A100。
推理端:除英伟达,还使用部分国产芯片,比如百度、寒武纪等。
Q:INT8和FP16算力是什么意思?
A:目前AI芯片或AI加速卡在计算算力的时候,一般采用两个数据格式:INT8(二进制的8位的整型数据)和FP16(16位浮点数)。训练的产品主要处理是浮点数,推理算力主要处理整型数据。
推理端:一般标记INT8的算力。分类检索识别、语音识别、文本识别等推理场景主要处理的数据格式是8位整型数据。1TOPS的算力指1秒钟做1万亿次INT8整型数据运算。
训练端:业界主流标记为FP16。因为训练对模型的要求越高,对数据运算的要求也更高更精准。FP16指1秒钟做多少次16位浮点数的运算,1TFLOPS表示1秒钟做一万亿次浮点数的操作运算。
算力的换算关系:(1)整型INT8的算力是128T,则换算成INT16时,算力会减半到64T。(2)浮点数的关系不是减半,浮点数位数更大,算力下降的更快。例如,英伟达A100的16位的浮点数算力是624T,32位浮点数的算力只有40T。