寒武纪路演纪要20230322

公司调研 2023-03-22 20:31

产品情况:

最新产品训练芯片590,对标A100,达到1.2倍左右。给商业客户送测,测试反馈不错,供应解决前只能送测,解决后可以发货。590 Die size 800mm2,和A100一样。价格也对标A100。内存带宽2.7T,A100是1.8T,是A100的1.5倍。HBM2用的海力士,6个通道的CoWos。350W-550W,FP32算力到80T,峰值在A100的2.5倍。整机产品,外挂1颗CPU,一台服务器8张卡,单体货值比较贵。

被制裁前本来要tape out 5nm产品,对标H100,1.5-2倍。推理芯片580也没有发布。

370 chiplet是同构的die,die size降低,提升die和成品良率。单价约1万元。通富可以做。

汽车芯片,12nm,做L2+,给车厂和Tier 1送测,对标地平线J3和TI TDA4。

芯片分类:

寒武纪、TPU都算是AI芯片,有指令集,所以有通用性,算是GPU的一个子集。寒武纪不提供双精度浮点运算,AI计算用不到FP64双精度。公司也可以加双精度,但是乘法器面积太大,不划算。ASIC没有指令集。

英伟达GPU有AI计算单元Tensor core、有双精度科学计算,有图形渲染。但有一些历史包袱,需要兼顾的面比较多。

AMD主要是科学计算强,但AI计算单元不多,技术规划不如英伟达激进,AI计算支持慢半拍。所以海光也是类似,主要在超算和科学计算。

华为昇腾对标V100,和590还是有明显差距。

流片:

两条路同时在走。1)可以选择中芯流片,切换工艺会需要时间,但公司工艺流程掌握比较全,所以切换会比较快,可能会在24年。15000片14nm以下的产能,主要看国家政策保障,公司一个12寸的wafer切十几颗。12-14nm做手机效率太低。中芯N+2良率太低,寒武纪先用12nm,也是做590,但是性能没有590那么高。

2)其他外面渠道也在同步看,会比中芯的速度快。台积电、三星等都会做穿透,但是穿透不到海光、海思,主要还是靠白手套。但三星的晶圆损耗比较大。

2.5D的封装CoWos是台积电做的,国内目前有4家在摸索(通富、长电等)。

目前看供应链,新货源会在库存耗尽前解决。

收入结构:

库存货值能支持1年半收入,超过10亿。如果只卖智能计算集群,毛利高70%,可以做到十几亿收入。商业客户毛利低,20-30%,所以主要做送测,还不能发货。22年7亿多收入中,主要是370和290,占比5-6亿,370出货在几千颗。

23年主要是库存调配,优先出货政府客户,基本不会给商业用户出货,但也会给明年留余力。毛利率可能会更高。

软件生态:

AI计算写代码主要用TensorFlow、Pytorch、Caffe等,寒武纪都可以适配。公司Bang语言平台和cuda是并行竞争平台,开发者直接用cuda开发,公司不能支持。其他框架都可以支持。cuda不开源,公司即使做cuda兼容其实性能不划算。尝试做cuda兼容的芯片设计小型公司其实很难拿到份额。

公司和谷歌tpu、华为昇腾的区别,他们做框架+芯片,公司不做框架。所以对于算法开发人员来说,不是很友好,反馈切换有难度。

公司在100+大学开课,毕业学生已经有2.3万人,用的是公司和中科院一起编的教材,实验可以调用政府开放的计算平台。主要是培养开发者生态。

GPT的计算主要是矩阵计算量大,但是比较规整,所以就需要更大的带宽、片间互联、HBM。而对于cuda这种偏通用性的平台,反而优势没有那么大了。所以对公司来说是机会。

商业客户支持:

海康从19年底开始第一次适配公司芯片,最多时候公司派了20-30人,海康有50人做适配开发。公司开放了一些中间层。海康主要采购220,屯了近百万片,但需要时间消化,大华约20万片。

商汤买了最多的290,三年前开始适配,CV应用基本都能用在290上。穿透下来可能有1-2亿收入贡献。

科大讯飞也有类似规模团队做支持,语音识别推理据了解月70%都切到了370。

百度语音合成,比如地图导航声音,都是通过思元100的支持,做了很多年。几千张卡就能支持并发处理和响应。百度在推理用的芯片比较杂,寒武纪、昆仑、英伟达A10、CPU都在用。

战略:

制裁前,对标英伟达,通过不计成本高投入,做5nm、3nm,逐渐缩小代际差。

制裁后,聚焦云端品类,保障供应为主,做软件平台打磨。目标2025年收入规模预期20+亿,实现盈亏平衡。云端以外的业务未来可能都会做IP授权。

制裁:

12个主体,只有2个没进,一个投资公司,一个临港的持股公司。

员工数:

上市时100多人,现在1500多人。1200人研发,其中800做软件

中国市场需求:

对A100的训练需求,从7万张增长到10-15万张。