百度文心一言专家深度解读纪要

文心一言调用超大规模算力主要想用思元 590 替代 A100,从适配性来讲,需要提前完成 V3、Net50 等模型验证。除了对话式的生成内容,百度还做了延伸,后面会有相应的产品规划发布,有视频、语音类的一些处理,横跨了计算机视觉、自然语言处理一系列的技术领域。以思元 590、玄思 100 服务器为主要拳头合作方的兼容测试下,目前表现初步达到预期,后面会在 CV、NLP 等一些网络训练、精度收敛方面进行更多的兼容性及稳定性的测试,来保证最终的模型符合百度文心一言对外发布的状态。文心一言只是 AIGC 下的产品之一,百度去年已经发布了文心一格,做 AI 绘画的。文心系列的大模型有很多,其实现在炒得比较热,把 ChatGPT 炒起来了。从百度的视角来看,文心一言只是起点,而不是终点,它后面对超大规模算力的调用是无止境的。

问答环节

Q:寒武纪思元 590 和英伟达 A100 后续的需求量和评价,怎么考虑?

A:从我们视角来看,这都属于供应商,不能被某一个供应商来卡脖子。希望同时进行一些备货,除了英伟达 A100 和寒武纪 590,其他性能差一点的替代品也考虑。

Q:目前百度在自研下一代的昆仑芯,和寒武纪 590 还有其他的一些竞品相比,你们觉得指标可以吗?

A:我们对云端推理芯片厂商、云端训练芯片的厂商,我们拉通做了个对比。

1)云端推理芯片:

我们看了英伟达,阿里,百度、寒武纪、燧原、依图这几家。例如英伟达当时是 T4, 阿里寒光 800、百度昆仑二代、寒武纪思元 270,遂愿是 aries、依图是求索。从工艺层面都是相对 11- 16nm 之间,最小的是遂愿 11 纳米,寒武纪 270 是 16nm。在已经量产的情况下,我们会考虑到它们自身业务体量和软件编程生态。对于英伟达,阿里、百度,我们 认为它自身的业务体量做不大。同时它也会对外输出 GPU 的云服务。对于寒武纪、燧原、依图,我认为自 身业务除了芯片之外,其他的一些闭环的场景业务就很少或者忽略不计。从生态来说,这几家大厂都是有自研的一套云端生态。从最终的结论来看,在互联网巨头、AI 独角兽和芯片创业公司各有一个代表性的人选。互联网巨头我们选的是自家百度,百度自有的业务体量、资源投入能力都是综合比较强的。AI 独角兽我们选的是依图,自有体量一般,资源投入能力中等偏上。芯片创业公司我选的是寒武纪,它没有具有的业务应用场景,它依靠外部融资和合作伙伴场景迭代。

从性能表现,我们有分了三个梯队。我们是以 INT8 算力功耗密度为比较的参数。第一梯队是阿里,但是阿里的芯片,在市场上反馈牺牲了通用性,导致使用场景相对较窄。第二梯队是百度、寒武纪、遂愿,我们认为达到了英伟达 T4 的性能水平。第三梯队是依图。从量产的成熟度考虑,已经量产并且已经对外独立商业输出的就是阿里、百度、寒武纪。

2)运算训练芯片:

主要对比了英伟达 A100、华为海思昇腾 910、燧原的燧思、天数智芯的 b1-v1。当时 A100 和昇腾 910 已经量产了,燧思和 b1-v1 进度微慢点。在编程软件生态环境下,因为英伟达是支持的 CUDA 生态。海思昇腾 910 不兼容 CUDA,它自研的是华为那套 mindSpore 开发框架,兼容国际上主流的其他开发框架。燧思也不兼容 CUDA,它只是和国际组合的一些 AI 框架进行了一些兼容测试。B1-v1 是兼容 CUDA 的。从性能表现来说,以 FP16 算力功耗密度为比较参数,我们认为第一梯队是华为昇腾 910,第二梯队是燧原和天数智芯。从量产成熟度评价来说,已经量产并且对外输出的是华为和燧原,天数智芯的还没量产。在国内云端训练芯片整个市场的参与者之中,我们从大类来分,我们认为 ICT 巨头就是华为自身的业务闭环的场景足够大,资源投入也足够强,这样它不管是场景的内测、技术产品化,产品商业化的能力比较强。在芯片创业公司,遂愿、天数之芯都没有自有的业务用场景,依靠外部的融资和合作伙伴在场景迭代,我们在研究以后,有一句话的核心结论。国内的云端 AI 芯片市场玩家包括互联网巨头、AI 独角兽和芯片创业公司,阿里、华为分别在推理和序列领域处于市场的第一梯队。

Q:百度在推理市场适配寒武纪 370 时,寒武纪的软件适配性、通用性是什么情况?

A:百度自有的一些基于飞浆上面的一些接口也好,或者你主体引擎也好。

我们也用了寒武纪的基础软件平台,他这套软件平台虽然如他介绍所说针对云边端智能处理器打造软件开发平台,我们从百度视角来说,我觉得他们他训练软件平台对一些国际主流的框架可能做了一些出厂前的适配,但是对飞浆兼容性要弱一些。我们认为从这软基础软件平台的友好度有待于提升。

Q:可以用起来,但是需要优化?

A:它支持一些图形图像、语音、推荐、以及 NLP 的训练任务,和飞浆可以有分场景的结合。

Q:现在思元 590 和 850 这一代软件的表现,如果放在之前的评价体系里面,它会是一个什么样的情况?比如和华为的 910 去比,和之前现在市面上的一些训练卡对比,能和 A100 打的。

A:当时还没有出思元 590 的时候,我们认为昇腾 910 是国内唯一可以接近 A100 的卡。刚才也提到了, 590 在目前内部导入测试的一些模型的任务的完成进度来看,优于昇腾 910。思元 590 和 A100 不好直接去点对点的对比,我只能说在整体性能上,至少在 AIGC 这种业务对于算力的需求上,是可以一定程度上 代替 A100。

Q:除了硬件指标、工艺等方面的提升以外,思元 590 的软件部分有进步吗?例如:1)软件的成熟度, 会不会出现任何的 bug,软件崩溃、使用/调试不完善。2)以百度文心的覆盖程度来说,是不是会比上一 代覆盖的领域要多一点,适配的方案更多。有一个定量或者定性的判断吗?

A:定性的角度来看,590 的软件和之前思元系列的软件相比,还是有一定程度上提升的。但是百度作为使用方,还是给他提出了很多的 BUG 或者反馈意见,但是相对来说就没有特别傻瓜的、业内一看就比较白痴的那种错误。

Q:国内在这一块的软件开发人才是比较少的。寒武纪的软件,如果对比其他的类似厂商,不算百度昆仑芯,类比遂愿、天数、登灵汉博这一类的你们合作过的厂商,他们的软件能力如何去评价比较?

A:我认为寒武纪、遂愿相对来说属于在创业的企业里边进步比较大的,它底子相对弱,起始点低一点, 但它进步相对大一点。从我们的感受来说,它们第二代和第一代相应的软件的使用度、适配度、稳定性各方面的提升是比较大的。我从这里边得出的结论是寒武纪基础软件平台的研发实力和相应的解决方案能力,是有大幅度提升的。在推理的加速引擎方面,因为百度自己有基于飞浆的轻量级 title 推理引擎,从百度的视角来看,寒武纪所谓的 magic 这套东西,可能觉得还是班门弄斧了,和百度相对比较健全的软件架构,以及稳定性还有差距。

Q:主要寒武纪的卡刚出来了,之前没在这个场景里面长期跑过?而且寒武纪自己没有业务,对于业务的适配还要后面再跟上?

A:是的,寒武纪它产品业务必须通过客户来搞。百度是自成体系的,从产品生命的周期来看,它就伴随着微循环、微反馈、迭代的合理性和迭代速度方面要比寒武纪好很多。

Q:目前寒武纪和你们的适配过程中,软件多久更新一版?

A:小迭代可能需要三五天到一周,他有一小团队,可以在百度某一个地方常驻。

Q:也就是说寒武纪客户支持能力和研发能力还可以?因为三五天一小迭代,速度还是比较快的。

A:不光百度,还有不少服务器厂商也是寒武纪的测试方或者合作方客户。从寒武纪的视角来看,他肯定有一个大客户名单,百度、浪潮显然在其中。对于大客,寒武纪肯定在每一个产品的分测过程配备了相应的测试团队或软件响应团队,来保证即使反馈大客。但我觉得仅限于类似于百度、浪潮这样的大客户,不可能面面面俱到。

Q:百度今年训练卡的采购量,包括思元 590、英伟达 A800 的采购量有了解吗?

A:2023 年计划思元大概占 10%-20%。

Q:今年寒武纪能否保证你们的供应量,我知道它现在手里面有八九千片,不知道给你们供应多少?

A:它是否能保证为百度供货,我们内部并没有统一的口径。直白来讲,我们对寒武纪在目前 ZZ 环境下能否及时供货,大批量供货或者是按合同供货,我们是持有怀疑态度。

Q:思元除了 590,370 和 270 这两张卡后续有采购的计划吗?我了解到商汤和阿里开始商用了。

A:百度现在正好也在搞超大中心,也在做这方面的布局,所以还是有些需求的。对于这两款产品,我们内部叫分阶段的商用的计划,从小批量到中批量逐渐做一些商业合同的合作。

Q:小批量会从什么时候开始?2023H1?

A:2023 上半年够呛,可能 2023 年内会有一些合作。

Q:你们超算中心的国产化率有要求吗?

A:50%以上。

Q:国产化率 50%以上,但是目前我们国内可以商用的卡不多,你们怎么去考虑这个事?

A:这是一个大概三年的目标,从去年开始,到明年基本达到 50%的国产化率。这也是响应国家的政策号召,想在超算中心也建立一个能让国内的 AI 芯片创业企业不断进行测试,不断进行友好入场的合作方式。其实这个东西有时候是一些不便于直说的 ZZ 原因,在里边达成了一些口号。

Q:从这个角度来讲,如果能用国产,你们肯定会采用,达不到 50%也没有办法对吧?

A:我们只能说尽力,这是 ZZ 任务。

Q:目前来说,您这边的超算中心是我了解到第二个,第一个是商汤。是不是以后所有 AIGC 的超算中心, 国产化率都有 50%的要求?

A:现在中美关系的背景下,所有超算中心长期都要往提升国产化率的方向去靠拢。至于 50%的数字,完全是出于 ZZ 角度。我理解 50%是一个可以浮动的范围,之后商汤、百度都是按照一定的范围,去完成相应的 ZZ 任务。

Q:最近国内的 GPGPU 的服务器供应商主要是浪潮,百度是如何考虑后续合作的?

A:从百度的视角来说,浪潮一直是一个长期稳定的合作伙伴,互补型的一些服务器会继续进行一定程度上的合作。跟 AI 芯片一样,所有的互联网公司,都要下场自研 AI 芯片,但是留给寒武纪、燧原这样专业做 AI 芯片的市场空间还是足够大的,因为互联公司都是有自己的场景应用的考量。同样的,对于服务器来说,我是按照同样的逻辑。我们认为浪潮是一个通用型的 AI 服务器提供 商,我们会在扣除百度特有的场景之外的通用型 AI 服务器领域,更多的选择和浪潮进行合作。

Q:浪潮信息可能受实体清单影响,你们现在和浪潮沟通下来的情况是怎样的?

A:肯定会有对浪潮的供应链,包括产品的备货速度有影响,但是目前来看影响可控。因为很简单,浪潮前期的叫存料、备货积累,包括和百度长期的合作已克服了历史上一些曲折转折。我们认为合作关系短期看没有太大影响,长期看中美角力之后会有什么新的转机。百度从来不会把鸡蛋放在一个篮子里。

Q:您认为 590 下半年会有小批量采购吗,按您刚才说的节奏,我理解明年的量是不是会释放的更大?

A:590 目前还在各个大客户处导入测试,量产我估计应该是今年底或明年上半年。从百度的整体的量级来看,10%-20%会逐渐向思元更新一代的产品去转换。

Q:字节今年 10 万,百度肯定不比他少,按 10%-20%来算,百度应该有 1-2 万片的需求吧?

A:目前看是这个趋势。坦白说,有一些是政府出面,有一些其他的力量在中间权衡,希望国产 AI 芯片和国产的服务器,包括国产的文心一言之类,能有更紧密的合作。国家现在有些相关的部门已经出面了,通过一些其他的形式,希望把 AI 产业链从算力到算法到数据这一层基本在国家的可控范围内。

Q:如果百度给寒武纪规划的比例 10%-20%,别的国产 GPU 企业、AI 芯片企业,我们给他们的份额大概能到多少?

A:我们认为寒武纪和岁元在国内相对来说更靠谱一些,所以会给寒武纪的量大一点,给其他的 AI 芯片创业公司的量会少一点。

Q:训练芯片的软件适配成本较高,590 软件的适配已经完全做好了吗?

A:590 的适配工作大概从去年底开始,软件适配的工作量非常繁重,还在进行中。按照以往的经验,我估计大概需要半年时间,到年中左右完成。

Q:在适配环节,百度和寒武纪双方派出的对接团队规模是怎样的?

A:百度 10-20 个人。寒武纪有常驻的 5-8 人,还有每周来开例会的一些人,开例会的人会和常驻的人轮换。反正会议能碰到一起,我们一个 team 最多十来个人,他们 team 最多十来个人的。

Q:听您的评价,从去年底拿到片子,到现在 3 个月时间的进展还算顺利?

A:文心一言要在 3 月中旬要对外正式发布,文心一言在百度内部是压倒一切的最重要的产品,所有的研发资源都向他倾斜。我觉得这个事还加速了 590 的测试,正常这节奏应该没这么快。

Q:寒武纪第一批给我们送了多少样片?

A:寒武纪是分期供应,第一期我估计是个位数。

Q:后面还考虑做大算力的昆仑芯训练芯片吗?

A:规划还有,时间待定。百度昆仑芯已经作为独立法人公司,和百度集团独立了。独立之后,按照自己的公司的运作,他们的团队目前来看和我们的信息并不通畅,但我大概也了解一些。他们现在有一些业务方向,有一些优先级调整。刚才您关心的一点,它现在相对来说是搁置了一段时间,后面我认为还会再启动,启动的时机等待外部情况的变化。

Q:微软调度了 1 万张卡给 OpenAI 做训练,商汤的反馈是我们国内最多也就调动 2000 张卡,这个技术有难度吗?

A:我目前了解到这一块国内目前没有哪个达到 1 万张量级的,不可能的,现在没有水平。现在的确从百度视角来看,现在几千张卡在测试就不错了。从技术积累来说,涉及到集群做调度还是有一些协同性的难度。我认为包括商汤、百度,离微软的差距还是短时间内是无法追上。

分类: 会议纪要作者: mizhdi发布于: 2023/03/18 12:23