国内AI大模型深度解读及发展机遇展望会议纪要20230324
国内互联网大厂及AI厂商大模型进展和落地现状:
目前我们可以看到在这一轮ChatGPT所带来的语言大模型热潮,不但 在全球领域,包括像OpenAI的ChatGPT、GPT1-4、Google的 LaMDA、PaLM以及Meta AI等。目前在海外的发展已经是非常火热。
国内发展情况:1)迎头赶上的趋势,大厂都在做积极投入,强势的应 用也在积极酝酿中。包括昨天百度文心一言的发布。目前BAT、字节、华为等的国内大模型有很多令人期待的地方,比如21年年初发布的阿 里通义M6大模型,是过千亿的中文参数语义大模型;去年10月发布 的腾讯混元,也是破干亿的语言大模型,近日腾讯宣布要发布腾讯版的 chatgpt,叫做腾讯混元助手。后续可能会在微信社交对话,广告广点 通或者腾讯新闻内部的二方业务中有令人期待的落地。2)百度文心一 言是国内首个语义大模型的终端应用,NLP技术上在国内处于第一梯 队。昨天文心一言发布了关于数据层的信息、下游生态的展望与商业前 景。相对处于先发优势地位。3 )除了大型科技公司,包括二线厂商和 start-up ,比如玄机、360、京东(ChatJD )、AI四小龙(商汤、旷 视)、国内高校或科研院所(复旦的MOSS、智源研究院悟道)都有比 较好或者前沿的技术层投入。4)国内没有能直接对标chatgpt的应 用,文心一言随着对公有云PaaS的调用,做付费的商用接口,下半年 应用层的竞争格局会逐渐明朗。包括像创新搜索的业务场景,以及目前 在海外很火热的应用产品,比如Jasper、微软基于GPT-4的office系 列、Google的workspace。后续再国内应用层,比;如办公、创作者工 具、智能硬件、客服等领域会迎来强有力的竞争。
Q&A :
Q1 :百度模型的状况是什么,性能上能对标GPT大概多少?
百度的ERNIE模型,最新是ERNIE 3.0,是在中文语义方面的大模型, 参数量2600亿,性能表现上:1 )文心一言主要是中文语义方面的应 用,比如长语句、复杂语句、模糊指令等上
游任务的理解能力还是非常不错2 )数学、逻辑推理方面有非常不错的 表现3 )多模态能力,包括text-to-text/text-to-imag巳这是相对GPT 来说比较突出的f 点。GPT-4主要还是以text为主。整体的输入、中 文理解领域,文心主要对标GPT-3.5。
Q2 : D那些方面能达到3.5,哪些弱一些那些优秀一些?
从不同benchmark上对标:1)语言语种。ERNIE是local产品,文心 所支持的语言语种理解以中文为主加小部分英文。面向的还是中文用户 全体,chatgpt是global的大产品,主要支持英文,除了英文也支持中 文,还支持德语、法语、西语、葡语、阿拉伯语,不仅支持语言学的知 识,以及这些语言学下的各种区域性知识和事实性知识。就像昨天文心 一言在秀遣词造句和古文的生成能力,是拥有中文语言的能力, chatgpt在多地区多语言下也有类似这种区域性知识。最大的 benchmark差距点还是在支持的用户群体上,两者有很大的差别。2 )中文语言下的功能,下游的知识生成和理解方面,从各渠道内部测评 上,中文语义生成知识的内容准确性和丰富性,两者是在不同的 feature上各有优劣,整体处在一个水平线上,ERNIE在遣词造句、引 经据典、文本的丰富性和多样性上比chatgpt好。多轮对话、连续对话 的稳定、准确性,文心一言不如chatgpt ,数理、逻辑推理、代码生 成、补全查漏补缺,文心和chatgpt有差距。差距是因为chatgpt模型 上线,用户数据持续不断回流,模型多轮迭代,模型表现变好。虽然文 心发布较晚,但随着中文互联网环境上被用户不断使用是会持续迭代和 变好的。
Q3 :未来商业化变现途径?
1)基于B端公有云服务,向下游商业生态进行技术赋能。主要的商业 逻辑或者思路包括两大类,1)像Openai将GPT模型家族的base模 型部署到Microsoft Azure云上做公有云的PaaS级产品,以未调用的 API的方式在下游按生成量、按token进行付费输出。后续文心一言在 百度智能云或者是百度大脑上也有类似这种商业接口付费调用模式的计 划。2)行业或产业解决方案。国内央国企、大B、大K客户,对数据 安全有布局要求,以项目制自由化交付,线下的客户case by case收 费。
2 )C端业务场景。办公场景,比如Microsoft offices Google workspace ,后续国内商业办公、商业文档等类似企业服务产品,或者 对于new bing、news browser创新的搜索引擎,还有比如GPT Pro 会员付费模式、知识内容平台、内容营销服务平台、百度音箱、或者小 米小爱这种结合了内嵌gpt版本产生的增强对话理解智能硬件产品,这 种智能硬件产品也会有新的产品型号,或者是以硬件的采购或者消费类 电子购买为主的商业形式。应用层的应用会非常多样。
Q4 :定价大概在什么范围?比如GPT是0.02、0.03美金一干个 token ,转换到国内的定价范围大概是什么?包括b端c端整体的定价 节奏?
Openai的GPT模型大概分成两种计价逻辑在Azure云上售卖:1 ) GPT 的 base 模型,包括 ada、babbage、curie、davinci 这些的收费 是按token ,从0. 002美金到0. 02美金,根据能力的不同进行标准的 base模型收费。2 )很多企业或行业,拥有自有专业数据或者知识库, 有二次微调、二次精调的诉求,OpenAI也支持企业基于自己的数据或 者知识进行二次三tuning之后,部署到Azure云上进行后续付费调 用,这个会贵640倍左右。
2 )国内类chatgpt或者大模型产品,我个人认为,成本上应该比 openai再高一些,整体定价不会偏离openai在大模型行业的基准,不 会比Openai GPT调用模型的使用成本有量级上的差别,可能会对标同 期同类型的产品定价。尤其是今年上半年全
球大模型产业化浪潮中,背后的商业逻辑会是前期以抢占份额为主,打 价格战。比如国内大模型会根据0.02美金一干个token去抢占国内开 发企业或者开发者用户的市场。
Q5 :百度最核心的几块业务落地可能会在里?
1)C端。首先昨天文心语言已经开放邀请式注册,得到邀请码的小伙伴 可以通过一言点百度.com的官网上,以页面程序的方式去和文心互动 之夕卜,后续在C端J )第一个是百度的搜索,包括搜百科APP,作为 DAU有接近2. 5亿的国民级APP ,和大模型的结合场景还是非常丰 富,还有像百度文库、学术都可以和大模型或者文心一言有很好的互 动。可能会有增强版百度百科。以及在专业封闭的领域去做专业知识辅 助写作与生成。在营销生成的场景,文心一言的文生图能力也能提高电 商或广告营销的生产效率。2 )智能硬件,百度有一个SLG-小度事业 部,像小度智能音箱、小度运动健身镜或互动屏等一系列智能硬件,内 嵌gpt的这种产品其实大幅度提高了终端用户对于现代AI 2.0时代大模 型本身的对话理解能力,后续比如音箱或机器人会迎来更多智能消费终 端的升级。引领大家购买一些这种能力或者理解能力更强的对话类的新 智能硬件类产品。
2)B端。像昨天Robin和王海峰王老师,更多强调百度的文心一言在 产业级应用中非常有优势,甚至相比GPT也有很多优势。文心更多主打 产业级的趋势增强大模型,因为文心之前有很多基于百度智能云服务的 各种B端客户,像昨天发布会讲解的能源电力、金融银行、融媒体等各 种产业级的数据和大模型应用能力。后期首先会结合文心已宣布的四五 百家生态伙伴去赋能干行百业的对于知识、搜索后对话有诉求的专业场 景,另外也会对现有B端产品做能力提升,比如智能客服、理财助手、知识图谱、新闻智能采编、媒体审核、商用文档、商用PDF ,后续有很 多新的产业级赛道出现。
Q6 :国内厂商投入的意愿和力度? 1)无论是海外的Openai的GPT、Google以Bert为基础的PaLM、LaMDA ,虽然openai没有把GPT-4在整体训练过程中涉及的专利、参数体量、数据情况披露出来,但以GPT-3为例,一个base模型为成 本投入举例来看,目前GPT-3投入的10000张Nvidia V100高端算力 芯片卡,V100 2020年市价8-10万人民币左右,像目前的高端算力芯 片卡A800应该也是差不多价格,折合十亿人民币左右。它代表行业内 想training出来好的、比较通用的,效果比较完整且丰富的通用技术模 型的算力投入。对国内而言中位数水平可能需要10-20亿的算力投入。
2 )另外大模型在生产层的三个要素:算力、算法、数据,算法科学 家,背后比拼的是LP的脑力密集程度,就是LP的算法工程师和算法科 学家像openai作为初创公司,nip算法人员有100多人,国内start- up作出这种产品至少需要100名左右senior!程师。3-5、5-8年的 工程师年薪在100万人民帀左右,人员开支1-2亿。4 )数据上的cost 包括百度的文心一言背后的raw data源数据可能更多的还是from像 搜索、百度的feed这些自有的业务数据,这些是十几年累积下来的,本身一次性投入的数据cost不会那么多。但是对于初创团队,如果自 己没有base数据,采购成本是比较高的。如果仅仅依赖包括像OPEN AI或者Google已经开源源码或者数据集,模型效果肯定不细别令人 惊艳,或者是在市场级的业务有缺失。所以在数据侧投入上,数据成本 可能很低也有可能很高,比如做一些生命科学的大模型成本可能非常 高。以此类比,去做相对来说比较好的beta版本大模型,可能一次性 投入至少20- 30亿左右。国内目前而言,主要还是若干个大厂的游 戏,包括刚才已经举例的若干个大厂的模型,都是逐年的结果。
Q7 :各家大厂有犹豫的吗?
目前第一梯队的大厂还都是战略级定位,在持续投入。
Q8 :追上微软嵌入所有应用的能力需要多久?
包括昨天发布的Office 365 ,还有pilot这些产品,一方面是有潜力的 大模型,基于GPT3、4。其次它有非常丰富的业务场景,office用户 几十亿,用户本身就是偏量级的。如果境内想要做出来比较完美的商业 闭环,首先上游需要有一个潜力还不错的基础模型,像百度的文心,或 者是像阿里的通义、腾讯的混元。基础模型不能太差,即使是会有缺失 或者都可以是以用代研方式逐步累积迭代出很好的模型。关键是下游业 务场景有没有像类似office或者像Google workspace这种有偏量的 用户,能够持续不断为模型迭代去打磨比较好的技术土壤,产品要有足 够好的使用地方。这对国内很多产品来说是业务的天堑,尤其对于二线 厂商或者start-up来说更是天堑。后续也只有像若干个大厂,基于自己 本身存量的业务,快速迭代出性价比非常高的、普适性的AI大模型产 品,类似搜索和音箱之于百度,电商和钉钉之于阿里,或者社交和文娱 游戏之于腾讯一样。类似像文档、邮件、CRM或者SCRM这种大的服 务对于国内的商业场景来说,是分散在一些其他垂直赛道的头部玩家的 情况,后续会不会有垂直赛道的头部玩家和AI技术大厂去结合的这种 情况也是非常令人期待的。
Q9 :在今年或者明年会表现出不错的表现吗?
快的话会在今年下半年或者明年上半年。因为chatgpt、new bing上 线时都是不完美的,所谓global的大模型,这一轮大模型产品都是以用 代研,首先抢先发布,随着用户体量的增多、业务数据回流去逐步迭代 大模型表现,因为大模型AI类应用产品的特色或者特性就是如此,它 和上一代的中模型或者小模型以及更早的IP的应用程序不同的是,它的 产品体验和表现存在着巨大的不确定性。这些巨大不确定性是需要将产 品进行上线以用户的规模或者用户持续不断使用和体验去逐步打磨。现 在是大幕拉开的情况,后续文心随着智能云和百度大脑开放商用接口, 肯定是有源源不断的商用产品或者应用产品出现,上线之后会抢占市 场、业务空间,不断迭代让它有更好的体验,而不是十年磨一个大招再 上线完美的产品,这个是不符合现在的大模型产品的商用逻辑。
Q10 :为什么昨天两位领导不是特别自信?
我认为大家对于整体的文心的期望值,无形中有了一个很高的 benchmark , benchmark就是前天的GPT-4 ,它所表现的一些理解能 力上,国内的大模型产品和GPT-4比起来还是有很大能力差异。GPT-4 目前在整个prompting支持长达2. 5万个token的输入。对于像包括 文心或其他一些产品目前支持理解的最大的长度是在几干字,对标 GPT-3的水平。Robin是百度第一代工程师,百度第一代搜索引擎就是robin写的,包括王老师也是业内知名专 家,大家可能还是保持谦逊的态度,没有去吹嘘或者夸耀产品。但是对 于外行来说,可能觉得产品都很烂,但是随后我们在昨天晚上对文心一 言内测的直播过程中,其实文心在很多方面的表现还是非常不错的,甚 至一些包括像图文场景其实比ChatGPT表现还要好,也超出很多人的 预期。所以包括今天股市上其实也反映出来了。
Q11 :百度文心的透明度和gpt-4还是有区别?文心一言有没有RLHF 功能?
文心主要还是对标GPT-3.5 , base模型是GPT-3 ,昨天王海峰老师也 介绍,它加入了一部分人类反馈的强化学习机制。昨天更多还是录制原 因,因为整体的prompt输入和打字过程还是比较长,也是为了控场所 以提前录制,现场的演讲效果相对来说不太理想,大家可能基于这点觉 得文心一言的能力非常弱。在昨天晚上的各个媒体的大v和大量网友真 实互动中,网友对文心提的问题也很刁钻,包括代码的生成和查漏和补 全等,其实文心的表现还是比较不错的,所以并不是代表它比GPT-3.5 弱多少,和4还是没有办法比,无论是对于一些超长输入的理解、专业 的学术领域论文的理解、通过玩梗图去深层表现它对于图像的理解能力 都是非常强的。可能目前文心还没有办法和GPT-4直接对标。
Q12 :文心也是像GPT-4—样它分三个步骤,f 是预训练模型,第二 个是奖励模型,再用强化学习?主要的差异是因为我们用的标注的人, OPEN AI据说是用了 1000个博士去做?
三个步骤一模一样。没那么多,是40到50人左右,博士级别的标注团 队去做奖励模型。一个大模型从数据的训练分为两部分,1)第一部分 是在预训练阶段,需要各种各样大量数据标注工作,包括像清洗、分 词、转译等等。Open AI之前也爆出在非洲、东南亚用大量廉价劳动力 去做这部分质量比较低’但是劳力密集程度比较高的预训练数据标注的 工作,这个是发生在GPT-3这种base model上。在21年和22年的 Instruct GPT做了一个人类强化RLHF方法,具体做奖励模型,主要是 open AI自己的产研上去排prompt、写答案、排序和评分,建立奖励 机制。
Q13 :是不是只要百度的标注时间足够长,模型也会逐渐优化?
对。它其实是技术工程的概念。因为我们知道仅仅就搜索而言,其实搜 索的这些用户的query的范围是非常广的,需要不断优化它拓宽覆盖的 domain ,它就会越来越好。
Q14 :微软发布的新产品如果在中文版office使用,可能因为中文语料 的问题导致跟国外有差异?
应该是会有一些差异,1)国内因为监管政策的原因,其实GPT产品是 没有进来的。微软如果想要进入到中国市场,面临的第一道关就是网信 办的内容监管的红线问题。因为GPT-3. GPT-4的raw data训练数据 叫WebText ,里面有大量所谓的加引号的封闭raw data ,比如像 Wikipedia的政治还有公众人物评价或者其他,在国内是绝对不过审 的。如果微软想要迎合中国市场,可能需要做一个中国特供版的base model,至于base model ,它要不要做,花多少决心和成本去做是第 一个问题。2)微软还需要在国内有代运营或者代理的公司,处理一系 列国内的应用层或者法务层的各种工作。我觉得如果要做,也是以GPT 为base model ,再去升一个中文版的分支,肯定从产品效果和表现 上,还是和global版会有很大的差异。
Q15 :比如电脑上已有的工作文档,微软是不是相当于是把已有的工作 文档作为对prompt的修改结合到模型里面去?
从目前披露的一些公开信息上来看,是这样的。
Q16 :国内厂商用GPT是不是会同样遇到中文语料有限制的问题? 对,应该不能直接去用,尤其是比较大的商业公司。如果是小公司,翻 着墙偷摸去用应该也还好,但是比较严肃的商业公司应该不会。
Q17 :文心一言昨天展示的直接生成视频能力看起来还是比较超出产业 平均水平,当时它是基于现场演示的影视资料就能自动生成吗,能不能 展开介绍?
目前对于视频创作的一些领域或者业务场景相对来说还是比较受限。因 为它不是脱离基础的媒资库或者媒资资源进行凭空闪样或者空中阁楼的 构造,更多还是依赖后端的媒资库资源池以及特定业务场景。目前可能 所支持的包括创作、营销的场景,相对来说是比较受限的。支持的广泛 性上,比如支持的风格、业务场景,大家还需要再等一等。它不是文生 图那种直接用diffusion model从0开始做,还是依赖一些媒资资源。
Q18 :国内大厂现在的技术路径是和Openai 一样还是会用其他家的? 业内早几年主要对标的Bert,因为早几年Bert在LP领域影响力是非常 大的,或者说是独树一帜的。应该是从21 年开始,基于GPT的prompt learning技术范式才逐步展开。
Q19 :除了百度,其他几家能看到C端类似的产品吗?
目前还未矢口 ,从战略高度上,比如如果是张勇站台或者是Pony出来站 台做大模型产品,目前我们看不出其他家有这么高的战略定位。
Q20 :国内各家大模型第一梯队?第二、三梯队?
第一梯队是百度、阿里、腾讯、字节、华为,第二是京东、讯飞、商 汤、360和其他