盘古大模型专家交流会议纪要0327
盘古大模型的概况介绍:
盘古大模型主要由五个模型组成,最领先的是 CV(机器视觉),然后是 NLP(自然语言处理),然后还有多模态、科学计算、语音,这 5 个方向的发展成熟是完全不一样的。当前大家热议的 ChatGPT 是在NLP 领域,百度的文心一言和它比较相似,但和盘古大模型是不太一样的。
盘古大模型的初衷主要是服务 B 段的客户,聚焦比较成熟的 CV 领域。在 NLP 领域还比较薄弱,生成性的最多能做一些个封闭场景下的客服,语义理解相关的可以做一些舆情的管控、法律司法文书的理解、审计文书的理解,但是输出性的、内容生成性的,盘古大模型之前没有将其作为一个发展的重点。
公司能够找到的高价值数字化赋能的场景主要是以视觉为主,所以这就是盘古大模型更多的研发项目主要是围绕着这一块来展开的原因。NLP 反正力度不大,最主要的一个逻辑还是商业驱动力不足。公司一开始做 AI 就没把 2C 作为一个重点。
大模型的成本:
大模型的训练成本确实很高,GPT-3 训练一次的成本可能在 1200 万人民币,GPT-3 出现之后也给了业界一个很大的启示,是否还要继续这样“暴力美学”地走下去。现在学界有一些观点,大模型在现在的参数基础上再指数级增加对模型的性能边际效应已经减弱了,那么这就需要一些降本的方法:
Open AI 的团队做的比较好的一件事情就是做精准高质量的标注(RLHF)。
专家所在的公司有一个非常重要的发展方向是做小样本训练,通过自监督的方法通多更少的标注数据来做训练。
盘古大模型的三层架构也能在结构上实现降本。L0 层是通识性的大模型,具备鲁棒性和泛化性。
L1 是行业大模型(例如煤矿、电网)、L2 是针对具体场景的自动化工作流的部署模型。成本方面,大模型训练好了之后不用再重复训练,只需在 L1 和 L2 上做适应性训练,成本关系是上一层的5-10%。
大模型适用的领域:
HW 认为应用场景比较成熟和丰富的领域是值得为其去开发 L1,例如电力行业无人机输电线巡检)、制造业的质检(机器替代人眼质检)、铁路故障隐患的监测等等。机器视觉是一个相对封闭的场景,也是纯参数驱动的,标注数据的成本也不是很高。目前盘古大模型的工业质检主要应用在消费电子领域,最早应用在了公司的南方工厂。未来如果能有更大幅度的降本,对行业将产生更大的颠覆。
HW AI 的研发状态如何,会与哪些厂商合作?
HW 目前 AI 的研发,主要包括全栈全场景两个方面的制作,一个是 HIAI,一个是 EI,HW 公司自己的能力是能够做到端到端的,从硬件到软件,从场景到营销,基本上都可以使用自己的产品,特别大的合作商没有。
HW 在半导体供应链上,战投了好几家公司,帮助公司补足半导体先进支撑的一些能力。公司在算力支撑等方面需要一些合作,HW 有一些地方政府支持的项目。
HW 的软件产品在行业化溢出的时候,有几种类型的公司是比较重要的。一个是软件开发的外包公司,HW 开发力度、开发工作量比较大的环节都是用了大量的外包。另外一个是行业数字化的 EI,HW 之前释放了 MetaERP,像外包交付的汉德、赛意等公司的能力是 HW 不具备的,HW 一定会通过这些公司的生态来完成业务。这里边有一个核心的商业逻辑,是 HW 要尽少减少自己去做交付,主要是因为现在的人效不达标,而且人力成本达到了一年 10 万人 70 多万人民币,所以很多毛细血管级别的交付,HW 需要依靠生态链来完成,第三在半导体的生态上也是需要与这些生态中的供应商侧的公司供货给 HW。
ChatGPT 落地后,HW 在这个方向是否会马上追赶?
首先 HW 公司历史上基本上新的趋势很少是很快就追上来,公司发展 30 多年,基本上没有做到过先发。在任何领域,HW 公司基本上都是做到的后发制人。包括手机、云和汽车。所以这个领域HW 肯定不会很快。
ChatGPT 面向更多的是 ToC 端的属性。目前 HW 正在研究这个项目,但是这是一个集团级的项目,通常做出决定会比较缓慢,一两年内不太会出来。HW 在 AI 商业化研究是一直持续存在的,公司以前一直非常不看好。公司尽力地完成 AI 工程化、AI 产品化,公司认为这是商业化不得不走的路线,如果采用高度项目制,一切项目制用 AI 去做,成本很高,不容易挣钱,因为人力成本非常高,然后项目制不可复制,因此 HW 才选择了面向行业的 CV 大模型。
ChatGPT 发布后,它对商业化带来了很多的思考,因为它天生的商业化属性非常高。ToB 直接卖API,ToC 因为生产内容是直接嵌套的,而且是中国人擅长的商业化路径,可以编辑广告、电商。
但 HW 不会立马进入到这个 ChatGPT 类的 AIGC 细分赛道,也没有任何的项目,战略研究都才刚刚开始。
HW做了很多技术方向侧的研讨,公司现在也有一些判断,即中国很难在短期内出一个达到ChatGPT同等效果的产品。中国的发展方向,无论是这些大厂还是创业的公司,专家认为他们真正要做到
商业化闭环或者商业成功有个核心,需要做支持相对封闭的一个单场景,这样成功率会比较高。以及训练和维护的成本还是需要进一步的压低,不然的话这个业务基本还是聚焦在这些特别大的公司手中。
ChatGPT 前期的生态圈如果建立完毕后,后面的新进入难度会不会越来越大?
专家认为现在的难度已经非常大了。
ChatGPT 发布后立马就是 GPT4.0,首先它的数据源头的很广,
第二它的数据前期的标注的质量也非常的好,再加上它现在已经是完全多模态多语种了,其实现在的优势还是挺大的。
国内现在赶出来的产品还是不太行的。而 OpenAI 的产品一直是边用边学,接受越来越多全球使用者的反馈,通过人类反馈帮助他提升和进步。
但专家认为 ChatGPT 的局限性是在于完整的做到某些场景的商业化闭环。ChatGPT 的信息生产模式是 generated content,它的信息不准确,它的事实基础不可信、不可靠,所以 ChatGPT 很难在一些需要事实基础比较准确的商业产品上完成闭环。第二个 ChatGPT 有一个很领先的属性,它的前后文是有连续性的,根据前后文来聊天,每一个问题不是独立存在的,而是有关联的。但它有个 bug 是前后文的逻辑关系并没有能够做到很好的连接。在逻辑问题上可能会出一些错误。
公司现在判断 ChatGPT 未来立马会改变的场景其实是企服软件,对企服软件的嵌套只是非常初级的方式,未来 ChatGPT 也许会重新定义生产力以及办公工作相关的企服场景,公司现在在分析未来是不是所有的企服软件都会基于 ChatGPT 来开发,以及 ChatGPT 能不能重构企服软件的交付模式。
国内 AI 企业如何赶上?
公司认为中国要追存在几个必要条件,首先场景必须是多模态,第二是数据量不能再爆发式增长,GPT 已经达到 1700 多亿了,如果再存在量级上的增长,也许不能带来这个性能本质上的提升。
成本的控制需要通过一些技术手段来限制语言的样本量。这个完整的商业模式可能需要 ChatGPT在全球范围内的带领来探索。专家有一个预判,中国的这些创业公司做出来的产品都可能是局限于某个或者某一些场景的,这些产品反而能够获得商业上的成功。HW 为什么要做产业级、行业级的 CV 应用,这个也是 HW 根据公司的能力限制和公司的商业模式做出来的一个选择。