芯片专家访谈-调研纪要

Q:ChatGPT对芯片设计端有什么变化?

A:ChatGPT对算力要求很大,现在是GPT3.5,训练NLP大模型,训练一次算力3640p,如果用英伟达A100的显卡,需要上万块才能完成。

受益最大的是提供算力的AI芯片厂,Q如英伟达,A100,H100,需求有大规模增长。会促使整个产业链都去做高性能芯片。从设计公司看,谁能抢到这个市场,都是一个机遇。国内做高端芯片的企业不多,寒武纪,昆仑芯。

目前看支持ChatGPT训练的肯定要往大算力方向走。从设计端看到两个思路。一是依靠先进工艺迭代,从16纳米到7纳米,晶体管集成度提高一倍。再从7纳米提高到5纳米,3纳米。英伟达最新的H100已经达到5纳米。这是一个思路,但靠工艺迭代已经有了瓶颈,到2,3纳米以下,以后技术难度要增加很多,而且也接近硅材料的物理极限,再小也做不了。

另外一种思路是先进封装,有比较成熟的解决方案,像2.5D封装,内存上有用3D封装。目前AI上用的最成熟的是2.5D封装。把高宽带的内存颗粒和芯片封在一个封装上,提高带宽内存访问速度,也提高AI整体性能。算力再强,访问速度慢,计算性能也差。2.5D封装目前就是要解决大算力性能跟宽带的思路。

再以后要提高算力,就走Chiplet路线,把晶粒放一起,通过高速互联接口,把它连起来,算力翻倍。苹果把两个CPU拼在一起,同理也可以通过Chiplet把两个AI处理器拼一起。寒武纪已经实现这种技术。

先进制程和先进封装能延续摩尔定律的思路。现在受限于大算力芯片功率问题,用的2.5D封装,没有直接用3D叠上去做。以后散热问题解决,算力还能提升。

Q:散热有哪家公司在做吗?

A:整个行业还没有突破这个技术。AI芯片功耗大,尤其大算力芯片,需要散热。做2.5D的还是放在平面,散热好一点。如果叠放,热量出不去。以后可能通过把距离拉宽,或者打孔来实现。目前还没有完全突破。

英特尔在3D封装有积累,台积电,日月光也在布局。如果散热问题解决,芯片集成度还会提升。先进制程解决不了的,通过封装技术来延续。

Q:Chiplet发展到什么阶段?

A:在这个技术比较早,最开始是AMD在用。但当初封装技术不是特别成熟,也没给AMD带来大的收益。产业链也不是非常认可这个技术。21,22年火了起来。当时中国被限制,所以在积极推动先进封装的技术。

Chiplet概念很简单,叫小芯片,和SOC是对立的概念。原来的手机处理器SOC,叫系统级芯片,把所有东西都装在一个芯片上。CPU,GPU,图形处理器,解码器,都集合在一起。通过台积电的先进工艺一次性做出来。Chiplet是个相反概念。把复杂的SOC分开设计,按不同功能拆解,假设一个手机CPU,把SOC拆成GPU等,在按最适合的生产和工业区生产,每个都按新项目。一片Wafer上有一个CPU,有一个内存,做好之后按不同的工艺做成晶圆。

做芯片,把东西全切下来,封在封装里面。零件搭好,切出不同的模块。不用全流程都是5纳米,7纳米,相对便宜些。通过高速互联接口,性能也没差。这就是替代的概念。

Q:只用在手机的SOC芯片吗?

A:都可以用,在AI芯片里也能做。AI芯片里有AI处理器,内存,CPU,还有高速内存接口。可以拆解,按不同模块去做,到时候通过芯片封装封在一起。从设计端就要这么建立。有一个优势,有的模块可以采购。比如说,寒武纪把AI处理器模块授权给海思麒麟处理器,相当于把芯片代码给他们,把代码通过SOC集成进去,最后一起流出来。现在是Chiplet,只做一个模块,直接卖晶圆给海思,直接卖实物。

现在的问题是没有统一的标准,各家有自己的接口。去年底成立了UCIE联盟,希望以后按统一的标准来做。

Q:国产的EDA设计软件,有Chiplet设计吗?

A:原来的EDA软件不用考虑工艺制程。现在Chiplet对设计和验证工具提出了不同的要求。需要堆叠和互联接口,不同的架构不同的接口,原来放在一起做,现在拆开做。前三大EDA厂商,去年年底已经推出第一款,现在正在迭代。

国产的EDA厂商,华大,概伦在模拟芯片这比较成熟。高端制程上还是空白。对于国产厂商来说,EDA是个机遇。开发Chiplet的EDA软件比直接开发SOC的难度要小。以前所有东西都要在一个软件设计,现在可以设计部分的软件。美国的限制也提供了国产软件的机会,需求端爆发,国内有些厂家已经在布局。

Q:寒武纪的AI芯片,和英伟达芯片以及地平线的AI芯片有什么区别?

A:AI芯片分不同的类别。英伟达出货量最大的是云端产品,应用在数据中心,云服务器这些场景。Chatgpt也是云端产品,属于训练芯片。

下游应用还有边缘端市场,最成熟的是网络摄像头,安防领域,海康,大华。国内有2,30家做边缘端产品。跟云端的差别是算力要求没那么大。10T+就够了。

还有一个应用场景是手机或者智能音箱,算力要求更小。1T可能就够了。

另外一个大的应用是汽车芯片,用在辅助驾驶,比较成熟的是L2辅助驾驶,自动泊车技术等。地平线就是做汽车用的芯片,以后做算力更大的L4级别芯片。L4要求200t以上的算力。

英伟达是云端芯片的巨头,地平线是汽车芯片巨头,边缘芯片是华为海思占比最大。寒武纪是做云端起家,也布局边缘端和汽车芯片。英伟达的Orin是汽车市场最成熟的产品。寒武纪有云端推理和训练的产品。

Q:寒武纪和英伟达的产品区别在哪?

A:寒武纪的思元290和英伟达A100的上一代V100是同一个级别的训练产品。A100是目前主流的产品,寒武纪的思元590,去年4季度发布的对应A100性能。因为供应问题,还没上市。但已经给客户送样。国内其他家目前还是对应V100的水平。

主要是因为美国制裁导致的没办法大规模出货。但也要想办法生产,通过其他公司代理去下单生产。

Q:如果之前代码在英伟达生态,现在用寒武纪芯片来训练,代码需改动吗?

A:代码需要改很多,不同的生态。有一定工作量和移植成本。训练寒武纪的芯片有寒武纪自己的基础软件。

英伟达的云端AI训练生态已经10几年了,客户已经习惯。国内芯片企业去推,遇到的最大瓶颈就是在这。英伟达的生态不支持国内软件,是封闭的生态。寒武纪已经发展5,6年,其他的国产软件在支持上面更是薄弱。这也是英伟达的护城河,软件支持力度很大,占据了90%以上的云端市场。

Q:芯原的IP服务介绍

A:IP是授权,全球最大的IP授权是ARM.不管苹果还是高通,都用ARM的CPU架构。Arm授权使用CPU,再去开发芯片。芯原也做了很多IP,相当于模块。比如寒武纪做一款GPU,AI处理器是自己设计,高速接口,去找芯原买。CPU找Arm买。IP就是走授权的方式。比如Arm现在最新的CPU发展到A78核,寒武纪就在做SOC集成的时候,把Arm的代码放进去。

合作的模式可谈。有一次性买断。也有分期付,第一批付款,之后提成。

有些小的IP公司,一次性买断可谈。对于设计很重要的概念。IP不需要生产,纯前端服务,Arm就是没有自己的产品。

芯原的核心IP有小算力GPU,也有接口IP.芯原属于寒武纪上游供应商。

更多调研纪要

来源:xueqiu日期:2023-03-09