专家会纪要 | 阿里大模型专家会
核心要点
1.大模型我们现在都叫通义大模型,通义大模型现在还是有三个模态,第一个模态就是M6 ,它其实也是一个文生图、图生文的模型,以及会把语音合成、语义识别这些技术融在里面。另外一个是跟自然语言相关的,专门处理文本生成、文本理解、文本分割、文本的摘要生产等等。还有一块是视觉,专门做视频的提取、分割、编辑、生成这一块。
2.阿里层级大概还相当于GPT 2. 5 这个Level,还没有到96。它主要有几个强项,第一就是它可以吞吐长文本这种序列数据,第二就是这种层级可以用来训练不同的数据任务算法,相当于把一个很长的知识打散,打成九十几层,让不同的层级训练不同数据任务和算法,这样它的训练效率会比较高。
3.在未来的一年到一年半,我们国内都不要提GPT 4了,只有先把chat gpt给追上。其他的文本、图像、视频我们以单模态的方式发布,没有把它合并成多模态。大家今年的重点都是想把文本先商用,百度已经走出第一步了,虽然还不够好,紧随其后的阿里、华为、百度在今年年中或者下半年都会发布。
全文
Q:我之前不太了解你们的大模型是怎么开发出来的,想从底层上面去了解一下,然后你们中间的语料灌的是怎么样的语料?我们现在的这个模型是处于 GPT 3 还是 3. 5 的一个水平?追上有没有难度?
A:好的,底层架构是这样,我们之前有两套技术,两种架构的 AI 的产品线。之前我们在行业线,比如在我们阿里的阿里云还有淘宝,用的其实是上一代的技术,就是那些神经卷积的一些 RNN、CNN的老一代技术,包括Tensorflow、Pytorch这种底座构建的一些产品和技术。这个产品技术从 2019 年开始,阿里云有一个团队专门做机器学习平台的,这个平台它构建一个产品叫派pai,这个产品的底座就是Tensorflow、Pytorch这样的架构,在这个底座上面它有很多中小模型,包括文本的、图像的、视频的、人脸识别、科学训练等等,大概有 140 多种中小模型以及算法。它提供这个平台主要是做一种深度学习的应用平台,来给很多开发者和中小企业自己在这个新的平台上做数据的标注、模型的构建、训练、调优部署的前套服务。这个产品过去两年已经形成比较成熟的销售模式,而且一直都在卖,每年能够做十个亿。达摩院自己做的这个技术线最早是2017 年,他们当时抽了大概三十多人来追踪海外的transformer这个技术线路,从最早的谷歌开源,到2018 GPT 1、2019 GPT 2,我们都有人在追踪他们整个技术线路和这些开源的训练集、算法、模型架构。从 2020年6月GPT 3 发布以后,它没有开源,这一段主要就是从他们的论文去找线索,关于模型调优、一些先进的训练算法,我们来做一些参照。所以简单说技术底座来自transformer,从GPT 2 之后开始去做真正的建设和底座的夯实,中间这两年还是基于我们自己的训练集、数据集去做一些训练。我们的训练集主要是三大块,一块就是网上扒的数据,但是数据质量不够高,需要做大量的清洗,剩下大概30%多的数据可以用来做标注,然后再去训练。第二块数据是我们会去购买很多高质量的语料、高质量文本,包括小说、论文、专利、行业分析报告,还有一些专业网站上的一些作家、写手写的一些高质量文章,像知乎、国内的自研,还有海外的维基百科,加上我们自家投资的这些企业手上的一些数据,包括微博,但微博质量不是特别高,因为大部分写手写的都是 140 个字,然后就是中文在线,因为它有几千个签约作家,有几十万个这种选手帮他写东西,质量还可以。第三块是我们自己在过去做互联网业务沉淀的一些数据,包括物流的数据、电商的数据,还有金融的数据,以及优酷等等,就是我们自家生态层面的数据。大模型我们现在都叫通义大模型,通义大模型现在还是有三个模态,第一个模态就是M6 ,它其实也是一个文生图、图生文的模型,以及会把语音合成、语义识别这些技术融在里面。另外一个是跟自然语言相关的,专门处理文本生成、文本理解、文本分割、文本的摘要生产等等。还有一块是视觉,专门做视频的提取、分割、编辑、生成这一块。今年主要是把文本这个产品先做商用,文本我们现在对标chat gpt还不够好,大概 60 多分,主要是体现在六个方面。
第一个方面是文本理解能力,这种能力我们基本上会用一些测试笔记去测试,包括我们会用一些训练样本,像文言文,目前这一块还是偏弱。第二块是多轮对话,chat gpt对几百轮都不会跑题,我们大概会对100 多轮,百度大概也是四五十轮。第三个方面就是角色扮演,这是我们整体国内缺失的能力,它是让AI模拟一个作家的语气生成文字。第四块就是复杂问题推理,我们经常把一些逻辑题拿去问AI,这块整体偏弱,我们跟百度也就是五十来分,比如我们把 MBA 考试的逻辑题或者是gmat上面的逻辑题拿给 AI 去做,我们自己大概能做对一半,chat gpt大概能做对90多。还有一块是代码生成,我们国内整个代码生成的能力,大概只能做简单的小程序,比如俄罗斯方块这种小游戏,200 行左右的,比较复杂的程序就生成不了,chat gpt可以生成上千行的程序,C + +、HTML、Java、Python它都能生成,因为他们把Github上10亿行的代码都学习了,然后在codex代码生成这一块非常强。还有一块叫文本摘要生成,就是把一个长文本扔进去让它帮你总结,这块我们比较弱,主要弱在文本不够长, GPT 4现在已经可以支持 2500个字了,我们长度没那么长,可能只有几百个字,更长文本灌不进去。所以我们在这六大方面跟chat gpt的差距还比较大,大概会有30 多分的差距。
Q:我们怎么样才能从 3. 5 的水平到4?
A:这里面有几个瓶颈,首先看3. 5 的时候它数据量是45个PB,到了4它就已经到 PB 级别了,1 PB 就是1000 个TB,1000 倍除以45,基本上数据量扩大 20 多倍。那这 20 多倍主要就是图片这一块的数据量,文本基本上在3. 5都训练完了,文本他只做增量训练,他这段训练更多的还是多模态图像、图片这两个语料的增加。它从 3. 5 开始模型层级已经到了 96 层了,GPT 4我们猜参数应该是 6500 亿到15000亿之间,然后它的整个模型的层级我们猜已经到了 128 层,国内的层级大概是在一半,64 层左右,这种层级的差距会导致对长文本的吞吐能力不够。这种模型层级的差距主要还是在模型的设计、模型结构的难点知识的突破,还有就是创新水平,所以如果你的模型跨不了这个层级,你对于知识的吞吐和处理是不够的。这个是比较核心的一点,其他的一些算法其实我们也有,只是可能人家是 90 分、100 分,我们有这个能力,但没那么强。整体来看最核心的原因有两点,第一就是我们对海量数据的吞吐能力还不够,这个能力不够是因为我们的模型架构的层级没到这么高。另外就是数据集本身也是有差距的,我们国内主要还是简体中文加上少量英文为主,我们国内的单词量其实在 100 亿level,然后人家已经到 5700 亿level,所以本来训练集上就是 1:57 的一个差距。然后第二个方面就是算力,我们国内还是拿老的V100还有少量的A100训练,海外已经用最先进的 H100 训练,V100跟 H100 比大概 1:80,再加上你的层级是两个梯度,这样算下来你的训练效率就是它的1:160。第三个就是工程方面的一些差距,GPT 4在去年 8 月份就出来,然后同步他又发布了一个叫EVA的模型评测工具,这个工具可以让很多调优的玩家或生态的伙伴,可以依托于这个 EVA 的工具来自己对调优的结果进行评测。比如说他去年的模型大概是 80%的精确度,然后他同步提供这个能力来给人家进行调优,调优的结果又会让open ai来获取,它可以通过这种生态帮助他去评测模型的质量,然后他很快把这些反馈用来训练自己的模型,这就是他这七八个月干的事,把80%多的精度一直调到能够发布,一般是到90%以上的精度才可以发布。
Q:这个层级的意思是说我们的大模型不够general,还是说有部分神经元的算法做不好,就没有放在里面,所以现在是小模型的状态?
A:现在也叫大模型,只是我们跟人家比还不够大。GPT 1、2、3一路走过来,12、24、48、96,然后120几,我们现在处于中间的状态,也就是我们的层级大概还相当于GPT 2. 5 这个Level,还没有到96。它主要有几个强项,第一就是它可以吞吐长文本这种序列数据,所谓序列数据就是文本、语音、视频、图像,他们都是一段一段的,你的层级越高,你对序列数据处理长度就越长,这种长度就会决定你对数据吞吐的能力会比较强,这是一个核心原因。第二就是这种层级可以用来训练不同的数据任务算法,也就是在进入模型训练阶段的时候,我们给模型的每一层可以灌不同的数据,来分层进行训练,让每一层并行运算,并行去跑不同任务,然后通过同样时长得到不同的结果他们会把这些结果关联起来,上下文连接起来。相当于把一个很长的知识打散,打成九十几层,让不同的层级训练不同数据任务和算法,这样它的训练效率会比较高。
Q:如果是分层,是不是它的逻辑跟搜索一样?
A:搜索就是把知识打碎,放在某个地方让你检索,现在这个还不能跟搜索类比。可以举个例子,AI训练的过程其实是把知识打碎,把这些知识放在神经元,等用户推理的时候,我就从神经元掉出来、推理出来,所以其实神经元越多,他挂的知识点就会越多。这种神经元需要把知识按照文本的语料放到不同层去训练,先去广泛的吸收进来,放到我自己神经元上,然后在你推理过程中,他会用这种逻辑上的东西把它给拿出来。跟过去那种数据库检索不是一个逻辑,现在是你每次去问他的时候,他都实时推理出来给你,每次不一定完全一样,现在AI和过去AI很不一样的一点就是这样,过去是检索,现在是完全推理出来的。
Q:同样都是transformer的模型,谷歌和 GPT 它做出来的效果就不一样,谷歌我感觉还是类似于搜索,GPT这个明显更加智能,所以我们想知道它的差异点是在哪里。
A:首先谷歌的 T5 也是 transformer 架构,transformer 默认的这种架构有编码和解码两种使用场景,像GPT 它只用了decode,Bert 用了encode,而 T5 谷歌这两方面都用了。你说看起来它像搜索一样,其实不是,搜索是上一代技术了,在2016 年之前行业都在用这个技术来做中小模型。它的缺点是文本和语言的长度不够长,过去的训练语料基本上能够吞吐几千万级别、上亿级别就已经很大了,过 10 亿级别根本做不了,所以才有了后面的LSTM,稍微再长一点,LSTM 也是到了数亿级别就到了瓶颈。到transformer以后一上来就是15 亿的神经元参数,所以对知识的吞吐量就很不一样,整个逻辑跟过去数据库检索、关键词提取发生了质的变化了。
Q:为什么感觉谷歌的模型还是智商不行呢?跟 GPT 4 比起来还是有很大差距,是来自于训练量不够,还是来自于模型的设计?
A:谷歌之前没有all in这个架构,谷歌上面有很多技术、非常多的模型,但是他每次发的模型都是 60 分,没有到达一个惊艳的状态,他就发出来给开发者用。但是本身模型都是脱胎于transformer,所以它架构上不会有问题,只是说它在工程层面比open ai弱一点,没有把这个产品雕琢的够好、够细、够先进。但是谷歌毕竟有3 万多的AI工程师,只要他 all in,把这个focus 再做聚焦一点,很快就会追赶上来,这一点我觉得未来几个季度就可以追赶上,人家已经注意到这个差距了。我们跟chat gpt的差距就完全不是这个level,首先人家的技术线路是一样的,只是在选 encode、decode稍微有一点不同,那这种方法论不是造成双方差异这么大的核心原因。我觉得还是他之前没有这么聚焦,另外就是他自己在发布的时候不会像 open ai 这样追求比较高的精度,所以在海外这两家会互相追赶,虽然open ai暂时领先一点,我觉得半年或者不到半年,谷歌会迅速追赶上来。
Q:如果说大家的语料库都差不多,又是同一种方法训练,算力也充足,会不会造成最后两个模型很相似?
A:有可能,随着时间的推移,最后就会出现几个类似模型同时存在,国内国外都是这样的,国外可能会比较明显,因为国外算力都是一个 level,模型架构相近,数据又差不多,完全有可能是open ai 90 分,Google 可能 80 分这样,这个差距会越来越小。这个情况到时候就像之前的操作系统一样,iOS、安卓都会存在,大家互相竞争。另外就是第三股势力,就是要开源的,open ai现在不开源了,然后open ai出来的那一家,还有runway,他们的东西未来都会被开源,有可能像之前的安卓开源一样,会存在这样的公司拿着一些开源的产品来继续去迭代,继续去做预训练,开源的东西可能只有六七十分,再往前做了90 分拿来商用都是有可能的。
Q:国内现在都停留在 3- 3.5 之间,你觉得最后这几家 BAT再加上华为字节也都能做到 4 吗?还是说有本质差距?
A:首先在未来的一年到一年半,我们国内都不要提GPT 4了,只有先把chat gpt给追上。其他的文本、图像、视频我们以单模态的方式发布,没有把它合并成多模态。大家今年的重点都是想把文本先商用,百度已经走出第一步了,虽然还不够好,紧随其后的我们、华为、百度在今年年中或者下半年都会发布。因为很多 ToB 的客户都是围绕着各自生态在做的,阿里有自己的数百万级的中小企业客户,华为也有,腾讯也有,百度也有,这些客户都在呼唤这些大厂,因为他们本身的云计算用的都是大厂的,他们总是问你们东西什么时候出来,所以厂商的压力也会让他们在东西还不够好的时候就仓促发布,百度已经这么干了,我觉得接下来几家也是这样。市场着急的程度超过你们的想象,很多厂商说你们再不出来我就要跳到对方去了,这个市场今年比较有趣的一点就是市场在倒逼我们赶紧发,好不好先出来再说。所以第一梯队今年都会有动作,腾讯百度阿里都有动作,字节今年不做什么动作,我们知道他们的节奏,因为他们这一块开始比较晚一点,他们真正的大模型就去年第四季度,杨红霞过去开始组建的,他们今年也在组建团队。字节的节奏是今年要把自己的大模型基础打好,然后他手上有很多高质量的图片或视频,把基础大模型做好去构建多模态,把自己的图像、video 生成这一块补上,所以他明年会出来,出来估计是多模态,而且会比大家都强,因为他手上有这么多高质量标注过的数据,我们觉得他下一个阶段会胜出。第二梯队的讯飞也想玩,它技术上是可以的,它的语音语义已经在行业里排第一梯队了,LP技术也还可以。讯飞必须解决它的算力问题,我们前几家能玩大模型,主要的原因还是我们算力基础建设还可以,像阿里有 200 多万服务器,还有 1. 8% 带GPU,也就是大概小4万台服务器,然后给我们训练的是小一万张A100,新玩家可能在算力上会是一个坎。我们现在还不敢说对标 GPT 4,对标chat gpt都还有30-40 分的差距,我们自己觉得要到一年、一年半才有可能赶上3.5 。
Q:我们赶上 GPT 3. 5 的难度是在调参还是在算力?最重要的核心瓶颈是什么?
A:核心瓶颈有三个,第一就是数据量,你首先要把数据量攒的足够多,这个大家可能都没有办法突破,因为我们买到了别人也能买到,唯一差距就是在私有数据,所以从纯数据量来说,权重大概占30%。第二个权重占 40%- 50% 的就是模型结构的创新性,因为国内还做不成这么高层级的架构,没有在层级上突破,就没有办法做海量数据训练。其次就是工程落地这一段,我们都知道什么叫预训练、调优训练、推理训练,但是到具体的工程阶段没有任何可以参照的方法论,数据的处理,模型的训练,模型优化,模型的部署和运用,每个阶段都有一些方法论在里面,需要自己去摸索。包括你怎么样去获取高质量的数据,拿到这些数据以后怎么样通过工程化的手法把数据标注好,标注好以后怎么样去评测。如果数据质量不够高,你再喂养给模型,基本上是浪费时间,因为跑一轮下来花了几百万,但是你的精度可能只能调零点几,这样投产很不值得,所以在整个模型里面有 1/ 3 的时间是用来处理数据的,只有数据质量够好,才可以去后面做模型训练。做模型训练,中间你要去设定它的评估指标,而且你要在调试的过程中可视化的监控它,所以整个模型调优过程需要一套工程化的工具手段,要可量化,而且中间你要会干预,否则你几十层训练完几个月过去了,所以这种颗粒度的控制和可视化都有一些关键的方法论在里面,这种方法论也是海外跟我们拉开差距,以及我们自己相互拉开差距的比较重要一点,基本上要占百分之30。所以前面 30% 是数据,有 40% 是模型结构的创新性,另外 30% 就是你的工程化能力,这样的前提是我们的算力都不是问题。
Q:我们有海量的电商数据,应用方面会怎么样跟电商去结合?还是说直接把电商行业给颠覆掉?
A:首先我们看一下云计算,云计算过去它主要是卖算力,然后加上自己的一些数据库,这样去拉动底层算力的购买,这是过去卖算力的一种商业模式。那到接下来的大模型时代,首先这个市场接下来分为两类厂家,有一类有能力在自己的算力基础上去构建自己的大模型基础设施,同时在上面去开源,把能力开放出来,然后去长出一些生态应用,有些是自己做的,有些是生态伙伴做的,那从底层算力到上面的模型框架,到模型的开源,到模型的记忆,到模型的应用有 4 层,这才是新的云计算的架构。他第一个价值就是通过自己在云上最大的APP,比如可以把这个大模型植入到钉钉,推送到很多企业钉的用户群里面,也叫B toB toC,把这些能力带给最终的 c 端客户。比如说一个 10 个人的公司,他要用钉钉来做办公软件,每个月大概是 998 的套餐,当这些能力植入进去以后,每个月可能要花 1998 了,你需要掏更多的钱才能用得起这些能力。这些能力我们会植入到钉钉的3个入口,第一个入口叫云小蜜,过去是让员工询问很多企业内部的相关信息,比如说产品的、培训类的、知识类的、流程活动等方方面面的东西,现在相当于企业内部多了个chat gpt的入口,广泛的知识类的东西都可以问到。还有一个入口就是钉钉会议,它可以每次开完会提炼会议纪要。另外企业内部很多需要文本编辑的场景,比如说你写PPT、写会议纪要、写工作总结、写行业分析报告,它都会多一个文本智能入口,会帮助你把语法错误改错,把你的概要扩展成比较详实的文字等等,这些都是我们在钉钉里面已经植入的能力,它其实会拉动底层算力的消费。这是做云的人做大模型的初心,它的三个模式就是这样,除了把能力带到钉钉以外,它还会把大模型能力拆分成若干个API,让你去用,我们可以收取这个费用,同时我们也可以让你把你自己的专属数据喂养我的大模型,继续生成你自己的专有模型给你的行业用,那你就可以租用我的算力来跑你的专属模型。一方面是云计算的商业模式发生变化,一方面中小企业在选择营销厂商的时候,逻辑会发生变化,他不再是买单纯算力,而是要去看你上面有没有比较强的基础模型,能把我的业务构建在上面。
第二个场景是我们自己的电商场景,到现在我们电商大部分的技术还是上一代的,新的这些技术都还没迁移到电商场景里面,电商场景里面比较重要的一个是推荐算法,一个是营销图案的生成、营销文本的生成,未来这些大模型的技术会把营销图案、产品介绍、产品描述等工作都做了。去年我们已经让一些商家在用这个技术了,我们挑了上百个商家,他们估计要花上百万让广告公司去做营销图案,那这些工作都交给 AI 去做,可以cover 40%的工作量。电商里面的智能客服技术也会全面被大模型技术植入,真正实现 7* 24小时无人值守。电商里面还有虚拟直播,用虚拟人去卖东西,这些场景都会被这些技术给植入。电商有非常多的场景来执行这个技术,但它不会这么快,它会一步一步找场景渗透,慢慢把之前老一代的技术给替代,这肯定是一个大的趋势。我们的物流包括仓储预测、物流信息的挖掘等等,都有一些很成熟的技术在用了,那未来怎么把新的技术来赋能这些商业场景,就需要做这个业务的产品经理或专家一起来分析。所以阿里做这个事情有三个逻辑,第一,达摩院本身要做技术领先性,然后用技术去赋能社会,赋能中小企业,因此他一定要做。第二是我怎么样用技术赋能我自己的业务,因为阿里有一句话叫技术驱动商业,每个业态背后都是一个整套技术架构来支撑,所以一样它也需要新的技术来支撑这些商业模式,包括像1加6,它背后都需要这些技术来支撑它的业态。第三个就是,要让更多中小企业把这些技术用起来,让很多的生态企业愿意用我们的产品,留在我们的云上面,长久的为我们贡献产值。
Q:其实电商的应用是没有办法增收的是吧?只是让大家开店的成本降低,效率大幅提高,但本质上不是一个营销策划或者是能够应对短视频的方式,是吧?
A:对,帮助他去做内容是一个比较重要的场景,帮他去增收就是另外一个了,比如说怎么样让AI的技术、让它的产品陈列方式能够提升GMV,提升它的转化率。我们现在很多商品都是2D的,未来随着算力提升,很多商品都可以采用 3D 的方式去呈现了,那时AI大模型的价值会慢慢凸显出来,很多商品的陈列方式都会发生变化,包括我们跟商品交互的方式发生变化,这背后都是需要大模型的技术来支撑的。这个你就不能简单说增加收入还是怎么样,整个的交互体验和GMV 提升以后,收入才有可能去提升。
Q:我看红杉发的预测,如果真到能够替代从业者前10%能力的劳动力,差不多要7年后,那么考虑到我们国家目前大模型的发展情况,是不是短期来看大模型的大规模商用,以及它对整体商业模式效率的提升,速度没有那么快?
A:对,但是我觉得红杉预测过于保守了,他说7年我觉得太长了。我们自己去测试,文本这个场景,作为提升生产力、文字写手的强大助手,这个事情在未来一年就会发生。随着国内国外的很多文本相关的工具广泛植入这个能力,不管它是集成chat gpt还是集成国内的大模型,这个工具在未来下半年会陆续的出现,海外的 office 已经出现,我们国内类似WPS的软件也很快会出现,有很多的创业者也会依托这种场景去做新的产品出来。所以我觉得文本在未来一年,不说替代,作为我们现有的文字工作者的助手,会很快到来。图像video再长一点,图像到2025年应该会达到文字商用的级别,视频我们觉得是 2026 年或者 2025 年,3D 我们认为是 2027 年,整体最长的长度就是 5 年,不会到 7 年这么长,因为技术发展比我们想象的要快得多。GPT 4当时我们预测应该是今年年底才发,没想到3月份就发了,所以很多技术会超过我们的发展预期。
Q:有人说我们虽然很快达到了美国的多少水平,但都是在开源的基础上做的,别人说你在抄别人的基础上还只能做到这么多,那再往4去做可能更难,我不知道这个说法对不对?咱们怎么来理解这个问题?
A:也不能说抄吧,因为本来是开源,开源就是给钱直接用,我们只是其中一个用户而已,一个开发者而已。就我们自己而言,我们做东西出来也是要开源的,但是可能会开次新版的,比如我们最新的还没开出去,我们开的是可能是去年的版本,因为开源本身的好处就是可以让生态用起来,让人家有反馈,如果你的东西只是提供在实验室没人用,你永远都迭代不了。
Q:我的意思是你后面再去跑4,因为没有开源的东西,你自己还得改代码,这个工程会不会非常难?
A:是的,你说的这个是比较尴尬的事情,我们更多是擅长做应用创新,做底层创新对我们来说是比较难的,这也是为什么我们到GPT 2 开源之后,模型结构和层级的跃迁没有发展这么快的原因,还停在64 层的level就是因为我们模型结构上没有找到太多创新的方法论,一直没有论文告诉我们该怎么去做这个,大家都还处于摸索。这也是整个模型开发过程中最难的,最需要去创新和突破的一点,只有在模型结构的理论创新突破以后,你才有可能往前走,所以现在大家对标chat gpt或者GPT 4,如果你的模型结构创新没有突破,都是白搭。
Q:这个模型的创新突破主要是在神经网络的层数是吧?是跟层数挂钩还是有什么意思?
A:有几个方面,层级是一个核心原因,我们能挂几十个TB、几百个TB,背后的原因就是层级增加了。那即便层级增加,你怎么把这种多层的模型结构用好,训练出比较好的效果?再就是工程这一段怎么把新的模型玩起来,调比较好的参数出来?要两方面,一,理论上要有突破,要有创新,第二,突破以后怎么样在工程上把它落地,能够真正做出来,两方面都要去努力。
Q:现在最难的是不是在加层这方面?
A:模型差距的占比,我觉得它占40%,工程占30%,另外30%是创新的一些训练算法,人家只是在论文里描述了大致的方法,怎么去 coding 实现要靠自己,这一段就是要靠创新的,你一方面要把过去人家说的那些算法用好,另外一方面看有没有新的突破。所以这三方面加起来,第一就是模型结构,第二是训练办法,第三就是工程落地能力,这三大块加在一起才能让我们走得更远。
Q:现在我们的模型大概能做到多少参数?
A:我们模型参数也就是数千亿级别。
Q:是开源模型就支持这么多吗?还是说我们在努力下已经能够做到千亿级别了?
A:当时开源的时候只是几百亿level,我们这块还是突破了一些的。
Q:原来是几百亿,现在到千亿,那是不是说明我们增加了一层?
A:GPT 2的时候是48层,然后我们后面往上涨了一些,到六十几,但64再往上就停在这里,没有继续上涨。
Q:这个差一层大概是什么意思?能代表多大的差距,还是影响到最终的结果怎么量化?再说。
A:简单理解就是层级越多,它对长文本长序列数据的处理能力越强。比如说GPT 3 的时候,单个数据输入的长度只有 4096 个token,大概就是几百个字,现在GPT 4的 token 长度已经到了32000个,可以制作 2500 个中文或英文,意味着你扔一个 2500字的论文给他生成概要,他就能做到,以前可能要把这个论文拆成三块,他才能抽出来。对于图像来说,图像本身 token就会比文本长,也就是说它可以处理更复杂的这种序列数据,这些数据包括图像、音频、视频,随着它的吞吐长度变长,它可以让不同的层级来训练这些不同的数据去并行计算。
Q:随便举个例子,比如 64 和128,这两个长度是1/ 2吗?这个差距有多大?
A:差距一个是文本长度,一个是它的训练时长,比如你一个 64 层跟一个 128 层来比,假设训练数据都是1 TB,那训练时间就是2:1,它可以并行计算1 TB的数据,你把1 TB除以 128 层,跟你1 TB除以 64 层,64层的时间要大于128 层。
Q:那我们差距这么大,相对需要一层一层解决,是吧?
A:基本上是4的倍数。
Q:第一梯度这几家最后出来的模型效果是不是应该差不多?大家的语料和清洗都差不太多,代码也差不太多。
A:就文本的表现来说,第一梯队没有字节,主要是腾讯、百度、阿里和华为,因为他们一个是过去都是做云计算的,一个是本身在这个行业有10 年以上的积攒,第三就是他们产品发布之前的状态跟我们自己对比,起点都是一样的。经过一年,百度已经先发了一点,我们也测试过它的东西,对比来看我们当前的模型比百度弱一点,我们第一梯队整体的表现对标chat gpt,6 个方面的能力会比他们弱,大概就是我们60 来分,百度可能将近70。
Q:text to image和text to video你们也发了模型了,现在这两项技术中国厂商不成熟的点是在哪里?怎么攻克?
A:首先这些模态都是单模态,然后你看他发布的训练集参数,也就是几十、百亿级别level,还不能称为大模型,还是中模型。整个训练参数如果是1 个亿以下,我们叫小的,如果是几十亿 level,100 亿以下,就叫中的,如果是百亿到千亿级别,我们才真正叫大的。这些技术它能实现,但是没有办法做高质量的产出,原因第一就是训练集相对比文本难获取,基本上都是购买的,因为很多有图片的网站不允许扒,所以它数据量天生比文本少很多。第二就是这一代技术背后对算力的消耗其实比文本大非常多,你要训练出一个text to image的大模型出来,是你训练出文本大模型消耗算力的几十倍,我们现在还没有这么多的算力去训练不同大模型,我们现在只能聚焦,把文本先做出来。但是我们会先以这种多模型的方式去发布,先让它有这个能力,未来再把这些能力融合到多模态里,所以未来你看到的就是我的输入是多模态,输出也是多模态,我输入的可以是文本,但是我得到的可能是图文并茂的东西。但当下我们整体的节奏还是先把文本做好,你只有把文本做好了,才有可能去做其他模态,所以大家在资源的分配和投入上都会有所倾斜,这就是为什么图像没有文本发展快的原因。