高策 09:54
OK,我们现在开始。欢迎来到 ML OPS,我是主持人高策。 ML OPS 系列 podcast 是希望跟人工智能领域的一些工程师、投资人一起去有深度地探讨有关 machine learning operation 这个方向。还有 LLM 大模型等等一系列令人兴奋的 AI 相关的话题。
高策 10:23
今天我们的话题跟大模型有关系,相信大家都已经听说过 chat GPT 了。 chat GPT 通过提供了人工智能驱挂驱动的这种对话体验,让不少人第一次感受到了人工智能,它不再是智障的感觉。威那些还没有体验过它的朋友们介绍一下。 chat GPT 是一个由人工智能驱动的聊天机器人,但是跟之前的聊天机器人相比,它最大的一个特点就是高度的智能化。对于一些简单的推理类型的任务,它甚至也能给出一个正确的答案和初步的推理过程。很多人都认为它可以取代 Google 成为新一代的搜索引擎。而与此同时, LLM OPS 作为一个新的概念,最近也变得非常的火热。跟 machine learning OPS 相比, machine learning OPS 它其实是为了帮助机器学习更好地在工业界进行落地。而 l m ops,顾名思义,它是 large language model OPS,其实它是为了帮助大模型更好地在工业界落地。
高策 11:28
为了更好地了解大模型目前的情况,我们今天邀请到了两位嘉宾来一起讨论一下关于大模型的一些行业进展。我先做一下简单的自我介绍。我是主持人高策,现在是在 Tensorcore 的这样一家 AI Infra 创业公司做CEO。我们公司的项目 in d Envd 是一个帮助大家帮助算法公司去构建和管理开发环境的这样一个项目。今天邀请到的另外一位嘉宾嘉瑞,请他帮忙自我介绍一下嘉瑞。
方佳瑞 12:09
好的,谢谢高策的引荐,能有机会来到这样一个非常有意义的播客。我叫方佳瑞,我现在在路晨科技。我们公司是一个做大模型训练、推理、部署解决方案的这样一个公司。对我之前,当然我之前跟高策也算是同事了。对我在腾讯的微信 AI 也是做跟NLP、 MLCS 相关的一些研究工作。对我之前,博士毕业于清华大学。好高策。
高策 12:45
另外。好,没问题。我们还邀请到了天祥,他在复旦大学也是在做 NLP 相关的研究工作,天祥也帮忙介绍一下自己。
孙天祥 13:02
好的。大家好,我是孙天祥,非常感谢这次。组织和邀请我目前是在复旦大学自然语言处理实验室,是一名博士生。我的主要研究方向是自然语言处理,特别是预训练语言模型相关的研究主要是预训练模型的高效优化和高效推理的方法。过去我们提出了一个概念语言模型器服务,跟我们这次的 topic 也是非常相关的。我们也做了一些落地的算法层面的一些工作,比如横向优化、 live boss tuning。
高策 13:47
好,感谢两位嘉宾的自我介绍,可不可以跟我们简单分享一下你们比如最近半年或者最近 3 个月正在进行的一些工作,佳瑞可以先开始吗?
方佳瑞 14:02
好。行,没有问题,对像高策之前介绍的,我们也是一个专注于做大模型时代基础设施的创业公司。我也比较早期我们现在在做的事情就是做一款开源软件,它是面向大模型时代 AI 训练和部署的这样一个框架。你可以理解为它是在 Pytorch 之上包了一层。这一层会专注于并行策略、异构内存管理。用户可以低成本地运行现在的这些大模型,对吧?比如 GPT three,或者现在这些 track GPT。对。当然,未来我们也在规划,希望能把这套软件提供成一种云服务了,让更多的人可以受益于现在大模型这些能力。对,这大概是我目前在做的一些工作。
高策 14:55
天祥可以介绍一下最近在做的工作吗?
孙天祥 14:59
好的。我。如果把现有的 NLP 里面的工作分成三个层面,最底层可以认为是预训练模型,或者叫基础模型,比如 GBT three。最顶层就是各个具体的下游任务,比如情感分析,还有图像分类等等。
方佳瑞 15:20
问题。
孙天祥 15:21
这个时候就存在一个中间层,研究怎么尽可能高效地把基础模型去适配和迁移到各类任务。我目前的工作以及过去一段时间的工作主要是集中在中间层,还有少部分底层的工作,也就是研究怎么做基础模型,以及怎么用它们。比如我们最近做得比较多的 black boss tuning,它其实就是。我做中间层,我迁移一个大模型的时候,它的反向传播的成本可能占的是一大头。我们能不能不用反向传播,找一个更好的优化算法,只需要 forward pass 就能把任务给适配好。对,主要是做的这样的一个工作。
高策 16:08
明白。OK,我想佳瑞你说。
方佳瑞 16:14
行,对,我接着孙墨是这介绍。我问几个,正好我有几个关心问题。你知道 Lo Laura。对,他是不是算是你说的这种有一种迁移能力的学习?
孙天祥 16:31
对,我们做的其实跟它有点类似之处,这主要是基于一个实验观测。现在大模型人们发现它随着维度越来越大,参数越来越多,它的本征维度反而是减小的。针对一个具体任务,它需要调节的参数量反而是减小的,是低,是一个低质的低维的。所以我们就能用一个,比如随机投影都可以。我们发现随机投影把它投影到几百维。对大模型来说,可能 100 位就够了,我就调这 100 个参数,它就能够表现很好。
方佳瑞 17:03
明白对非明白了,非常有意义的。
高策 17:09
对,有一个问题想请教一下佳瑞,你之前工作是在Wechat,在微信对吧?做很多大模型的研究和落地工作。一直以来也都在这个领域从业。其实很多人都认为微信,其实它也很有做大模型的潜力,因为它。大家天然觉得微信有非常多的语料都是别人拿不到的,我想请教一下,在作为这一领域的一个资深的工程师,你是怎么样看待像 chat GPT、 stable diffusion 这些大模型这些国外的大模型的进展的?
方佳瑞 17:32
对。
高策 17:48
在去年,在前年的时候,你有预料到大模型会这么快地取得这些突破性的进展吗?
方佳瑞 17:55
好的,高策对这个问题非常好。对,首先我可以帮我之前的组 PR 一下。其实微信也有一个大模型叫VLM, VLAM 也是。有 100 亿参数,效果也非常好。对微信现在已经在做这件事情了。对回到我个人的情况,我是 19 年加入微信的,当时是 21 年,我 22 年初我走的。对,其实我正好没有赶上微信作答模型的时候。对其实在大模型这件事整个风潮来说,我觉得算是从 21 年开始有的。从 GPT three 出来之后,有一些开源的方案。对从我的视角来说,我也是在 21 年初开始思考模型变大的事情。当时我们也觉得确实有很多系统上的事情需要解决了。原来可能你作为一个 Bert 时代, Bert 其实已经很有颠覆性了对吧?但是它对于系统调系统上来系就是这种 ML OPS 的设计,其实没有什么新的东西,你还是可以通过数据并行对吧?加大 Bash 开始就搞你,你可以搞什么? 1 小时内训练Bert,这也是很多人已经搞得很,已经非常成熟了。对在系统训练层次。当然 Bert 还没有到这样一个时间点,但是 21 年初整个情况是有一个变化的。
方佳瑞 19:22
模型,大家发现模型变大的收益对吧?出了一些什么? 17B 的模型,就有量级模型出来了。当时从数从模型并行,数据并行开始,变成变到模型并行了。对,当然还有一些新的并行技术方案,比如 Microsoft 的zero,还有流水线并行,包括后来 EGO 训练,就有一些很多新的技术出现了。我当时也是在 21 年初开始做这个事,我做那事你也知道,派大星也是一款现在大模型的基础设施,然后也有一些创新点。
高策 19:52
对,是。
方佳瑞 19:57
但是从我的角度观察,在 21 年整个一年来说,整个腾讯内部至少对大模型还是很麻木的。对吧,只有少数人知道这个事情,有这个事情,这事情比较感兴趣。大多数其实是很被动的。我觉得至少在那个时间点,你也能感受到对整个公司的氛围。
高策 20:18
是。
方佳瑞 20:20
但是现在形式整个就变了,我觉得就有点类似于 16 年 Deepmind 搞 fflode 出来之后,这件事情有点破圈了。 chat GBT。这样现在整个公司我了解到是非常重视大模型这事,包括我走之后在微信也训练了一个特别大模型。当然你提到的是对吧,微信有很多数据对,但是当时模型训练的也是用很多优质数据,但是并不是大家隐私数据,是用微信读书的,公开的一些数据会训练出一个非常好的效果的模型,这已经验证了。对,我相信在今年,整个至少腾讯或者微信会有一些更大的模型出来,也会。可能会有一些能匹敌 chat GPT 这种能力的基础释放出来。对,这是从我的视角观察到的一些现象。对。
高策 21:16
诶,天祥怎么看这个问题?在 2021 年 check GPT3 刚出来的时候,你有预料到它会像现在这样获得大家这么多的关注吗?
孙天祥 21:30
其实。说实话,是没有预料到像现在这样的。取了这么大进展。但是某种角度来看,它可能也是意料之中的对。从当时有一篇很有前瞻性的综述,就是 PERC 梁李飞飞他们写的一个基础模型的survey,它里面其实提到了一个观点,就是。从算法的角度来看,其实很多人会觉得近几年的很多算法都固定下来了,没有什么发展。比如我们的模型、架构优化算法都没有太大变化,会觉得发展停滞了。但实际上这是不对的,因为机器学习本身的发展历程,它不断把成功的算法固定下来。 30 年前的时候,反向传播刚成为主流优化方法,但是其实还是有很多其他的方法在发展的,比如无梯度优化,后来反向传播学习算法,它就固定下来了,就成为主流了,大家都在用。
方佳瑞 22:21
对。
孙天祥 22:33
后来人们就开始把固定下来,开始研究不同的网络架构。那个时候可能在 NLP 里,CNN、 RN 都提出了很多变种。再到后来 transformer 出现之后,网络架构大家的热情慢慢就没有了,这个架构就固定下来了。这个时候大家就研究什么?开始固定transformer,去研究不同的预训练模型。我可以换不同的transformer,具体的一些小的架构,小的变种,以及它的训练目标。
孙天祥 23:03
到现在这个阶段就二三年初,其实这个阶段已经到尾声了,后面可能我们连基础模型都固定下来了,大家可能都是基于这几个已经做得好的基础模型,比如 GT three 去做研究。时候,但是每一个阶段我们的算法都是有发展的,有成熟的算法固定下来,从过去的优化算法、网络架构,再到现在的基础模型,也有新的算法去值得研究。比如现在 channel sort 和 encounter learning。这个肯定是后期会有很多发展的。从系统角度来,其实就是成功的。这种算法固定下来,它也推动了系统的发展,反向传播。它固定下来之后有很大的需求,我们就可以做 tender flow、 Python 这种自动微分的框架去适应。
方佳瑞 23:40
对。
孙天祥 23:46
创造方法。成为主流之后,就有很多针对它的优化。后面或许按照趋势可能会有针对某个具体模型,具体基础模型的一些优化。总之,大概算法层面把一个成功的算法筛选出来,系统层面可能会针对这些相对成熟的算法去做一个优化,让他们变得更容易被使用。对比如现在我们要训一个可能百亿、千亿的模型,要比两年前的我们要轻松得多。
方佳瑞 24:15
哈哈,对。
孙天祥 24:17
对,所以从大的发展逻辑上来看,可能还是是意料之中的。但是我们常常还是很容易低估短期的,低估长期的努力。
方佳瑞 24:24
过程。
高策 24:34
感觉天翔说得很有道理,其实现在也能够看到很明显的趋势了,大家现在有很多新的,无论是 AI 的 start up 还是 AI info 的startup,大家都在基于 GPT 这样的。也等于是 LLM 领域的半个事实标准,再进行一些新的、更上层的创新。其实这样的趋势还是蛮明显的。
高策 25:04
接下来这个问题可能刚刚大家也已经简单提到了我们现在看到的这些从 GPT 3 到 GPT 这种 GBT3. 5 的应用,这样的一个发展,它更多的是受益于哪些因素?是大家对于神经网络,对于 transformer 这种结构有了新的了解和认识,还是 Nvidia 他们的硬件更成熟了,导致他在 2022 年获得了如此多的关注?大家有什么想法吗?佳瑞可以分享一下吗?
方佳瑞 25:39
对,其实刚才孙果是讲得其实特别好,我也非常认同。我去,针对这个问题,我觉得也,其实我认为没有什么新的知识出来。其实穿梭的 17 年论文都发了对吧。 avisor 的架构其实也是按照商业逻辑,根据摩尔定律在正常增长对吧。这两年并没有什么爆发性的东西出来。对,我觉得还是大模型这件事出现。我觉得当然我其实也在也有这问题,想跟孙博士聊一聊。对,为什么大模型事情出现在了 NLP 里,对吧?因为从我不是算法专家,我是从系统的角度来看这个行业。但是比如从算法上,我觉得 CV 要比 NLP 成熟的要早一些。对,最开始的那些什么 Alex net 对,都是 CV 的模型就NLP。首先。
孙天祥 26:31
对过去的进展,大部分是由 CV 首先带来的。
方佳瑞 26:31
没事对吧?对。也这其实是一个特别好的问题,为什么大模型是诞生在 NLP 领域对吧?你包括那些?我再补充一句,包括你在 v AIGC diffusion 它,可能它模型并不是很大。首先对吧,它大模型那部分也是跟 LP 有关的, clip 会大一些对吧? CV 那部分它还是 unit 或者什么?我觉得 CV 是被锁定了,但是 NLP 是一个上限变得越来越高了对吧?我不知道思路是对您有什么一些看法吗?
孙天祥 27:09
我觉得有两,我现在能想到的有两个角度,一个确实像你说的过去,可能 CV 对领域的推动是很大的,它本身的受益于Imagenet,它本身的数据量就比 NLP 里的很多要多。但是 NLP 里有一个小社区,它其实是跟 CV 很类似的小社区,就是机器翻译。我们机器翻译有大量的语料,所以只有机器翻译 NLP 的任务才能诞生出 transformer 这样的架构,它很巧合的也适用于各个其他的数据结构。所以我觉得这方面有一点巧合的因素,就是从机器翻译很好的环境里诞生出来了这样一个模型。
孙天祥 27:56
另外一个就是我觉得关键还是 scale up 的问题,就是最多的数据肯定还是自见度的,无监督的LP,它天生的就是一个自见度的语料,特别是最开始可能 19 年, 20 年会是 Bert 的天下。 MAS Glare model。但是实际上现在其实大家又变成了,又变回了单向的 auto regressive 的,就是像 bar 的这种方式,它对语料的利用率肯定还是不如自回归的高的。所以哪种范式最能最大限度地 scale up,哪种范式最后就会流行下来。所以 NLP 里有这样一个优势,在 CV 里虽然也有这种 contracted learning,但是相比自回归这种方式,还是我觉得还是要差一些。
方佳瑞 28:46
明白。字幕式的观点第一个是 machine learning 对吧?算 machine translation 机器翻译算是一个监督学习,我理解。
孙天祥 28:58
对。
方佳瑞 28:59
监督学习其实机械翻译当然有很多,我们之前组也做机械翻译,微信翻译是我们做的。对,我理解是在大模型时代之前就特别驱动 NLP 发展的一个应用,对吧。您的意思是后?
孙天祥 29:14
对,其实最早的预训练模型就是扣 5 他 18 年他先在计算上去训的。
方佳瑞 29:20
对,是的,它是驱动了整个技术往前发展,对,发展到一定程度了,反而去看到一些无监督任务,可以受益于传统的结构,对吧?
孙天祥 29:26
对。
方佳瑞 29:32
这个事情就像滚雪球一样,一下子就爆发了。行,我是这么理解您刚才意思的。
孙天祥 29:40
对方博总结得很好。
方佳瑞 29:44
我觉得我其实跟你看法很相似,我觉得可能 NLP 任务天生就比 CV 任务更复杂一些。对吧?我当然我的算法可能没您聊得那么深刻,但我就想你说,CV,你一个鸟或者一条狗,它也能去看世界对吧?
孙天祥 29:53
对。
方佳瑞 30:02
也能去做一些物体识别知识中什么的。但是鸟和狗就不能说话对吧?不能写字我理解。肯定 NLP 任务还是有一些,跟 CV 任务比,我觉得可能还是更高级的一些任务。我是很片面的理解,对。
孙天祥 30:16
对,是会更。是的。我赞成。就是。确实会更困难一些。所以如果在 CV 的一些任务上做,可能数据量同样很大,但是它可能不会出现transformer。可能在上面做出来一个transformer,它的效果是不如 CNN 的。
方佳瑞 30:29
有道理。
孙天祥 30:32
transformer 只有在机器翻译这种很复杂的任务上才能胜出。
方佳瑞 30:38
我也觉得是这样的,可能 NLP 任务它非常复杂对吧,它你说对话只是一方面,对甚至那些实体识别。对吧,它有可能反映了我们整个世界的一种组织关系,或者人类文明的组织关系。
孙天祥 30:48
对。
方佳瑞 30:53
其实都可以用 LP 来表示,就按用文字来记载对吧?我对,所以我觉得这 NLP 这件事情的上限是非常高的,所以也为什么会诞生大模型这样的暴力大隶属体系的事情,对吧。如果但 CV 可能它的上限相对比较低,它就不能出现这种大力出奇迹的事。这可能是我觉得我们两个对这个问题的一些共识。
孙天祥 31:22
这个问题我还想请教一下方博士一个问题。 auto regressive 的 transformer 已经被证明是一个很适合 figure up 的架构了。像最近的绘画领域的 part party,它其实对它也有从 diffusion 改回到了 auto regressive,而且它能做得更大,我印象里应该是 20 笔。
方佳瑞 31:41
是, de diffusion party。
孙天祥 31:48
它比 diffusion 要大得多。 diffusion 它 scale up 的能力有 autoaggressive model 这么好吗。
方佳瑞 31:59
首先我你说自回归的模型类似于翻译的那种是吧?有一个 decoder 要不断地去。过decoder,这叫 auto regressive 的model。
孙天祥 32:13
对,它就是 Google 最新的party,它这样做的,它抛弃了diffusion。
方佳瑞 32:23
说实话我就不太了解了,这是具体的你选择什么类型的任务对吧?还是你关心的是网络结构吗?还是你的学习的任务类型?
孙天祥 32:33
对,我是在想,如果 auto aggressive,它的 scale up 的前景要比 diffusion 的架构要好。或许 diffusion 也是一种昙花一现。
方佳瑞 32:47
你是在看关心这问题是吧?
孙天祥 32:50
对对。
方佳瑞 32:50
debug 任务它其实是在 unit 的结构里加入了一些 clip 的信息。它本身没有像你说的自回归的那样。我理解有自回归这个事,本质还是 language model 的一个具体的。它是跟 MA language model 问题相关的对吧?因为你要一个字串行地去输出你的文字。我理解自回归是因为这个问题的特点才设计的这种架构。解码的时候要一个字一个字出。对,就在图像里。因为他图像天然没有自回归属性对吧。他一下子一看就是全局的信息诶。
孙天祥 33:25
可能没那么自然。
方佳瑞 33:27
对,我觉得没准像研究怎么把自绘归用在图像里。对像做一些视频。他可能也有这种序列化的一些特性,比如会是有一些非常效好的效果。对,当然我肯定不是领域的专家了。
高策 33:45
好,OK,刚刚大家讨论了很多跟技术相关的内容,我们先接下来再来看一下跟大模型的未来的一些发展的趋势相关的一些问题,因为可能我们的很多听众。没有那么硬核对,所以大家可能有一些跟技术不是相关的问题,也很好奇。
方佳瑞 34:04
对,我。
高策 34:11
大家对大模型也很好奇,想请问一下二位。我们都知道,其实从 GBT 2 到GBT3,再到今年上半年马上要发布的 4 open AI,可以是受到了非常非常多的关注。无论是从资本的角度来看,还是从影响力的角度,它都成为了一家可以是一马当先的这样的 AI 的研究公司。我想请问一下二位,未来在大模型,尤其是 language model 大模型的领域,未来是不是有可能会有 opening i 这样的寡头 AI 的公司来垄断这种 foundation model,其他人其实都算是他的用户了?还是可能 foundation model 其实是一个百花齐放的这样一个态势?其实各个公司都会有自己的一个很大的模型,自己去部署,自己去使用自己的模型。梁伟怎么看?现佳瑞可以介绍一下吗?
方佳瑞 35:14
好的,这个问题确实问得非常好。对,而且其实我的回答会是比较悲观的,我认为未来肯定是垄断的。因为训练大模型就需要很多钱对吧?你比如训练一个基地three,我们算了一下,可能要 100 万美元训练一次。也就这个钱,首先肯定是一个非常高的门槛,且不是你还要弄一堆机器对吧?更别说你要找一些专门能训练大模型的人,我觉得成本肯定是很高的,对吧?因为有这么高的成本,肯定不是人人可以参与了。对。
方佳瑞 35:54
当然另一方面就是大模型属性,因为它训练一份可以给所有下游任务用,对吧?不管你说你是翻译,你是对话,对,你是什么什么什么?摘要对,以前我们可能给每个细分领域都训练一个自己的模型,用自己的数据,对吧?现在你可以用海量数据训练一份模型,像思路是他现在研究领域可以把这大模型能力迁移到具体的任务,对吧?我觉得可能未来还是一个集中式的这样一个商业模式。
方佳瑞 36:24
少数机构比如Openai,谷歌,或者我们国家可能有一些 national lab,对,有一些国家实验室,有一些对,配合一些高校。可能你不管是资本还是国家出钱,先把大模型训练出来,我们大部分人可能百分之九十九十九的人是做下游的这些针对自己任务的能力迁移的这样一个工作。对,其实这是我的一个看法。
高策 36:54
天祥怎么看孙博士?
孙天祥 36:58
我是非常认同。方博的观念的对,刚刚方博讲的可能主要是大模型的门槛很高,所以肯定的能入场的玩家是不太多的,而且。肯定要有一定的盈利的目的,但是你从未来它的应用的模式上来看,肯定也太多不了。你如果太多了,把市场一切分他,可能用户量都不足以支撑他的成本,这个东西规模化就失效了。所以我是觉得确实会很会,可能会只剩下几家垄断的模型。其实 Openai 的 CEO 他也是看法,未来可能会很少,但是这个时候。可能跟后面的有一个开源的问题。1、要不等到问题再聊还是怎么着?
高策 37:55
OK,我们现在就可以再引出新的问题。在其实现在我们能看到无论是 chat GPT 基于的 GPT 系列的模型,还是很多像 Google 的大模型,其实它们都其实都现在已经算是闭源的了。未来的 AI 研究会不会不再像我们现在这样,所有的工作,所有的新的 paper 都是会把自己的模型开源出来?未来的工作是不是有可能?尤其是跟大模型相关的工作,是不是有可能他都是闭源的工作了?请孙博士可以先帮忙分享一下吗?
孙天祥 38:33
你这个我觉得是个很好的问题。我觉得。这个场面有点类似于。可以类比操作系统个人看法,比如 Openai 它闭源的 GPT 系列可以就。类似成windows,比较巧的,它们都是微软系的。
高策 38:54
哈,对。
孙天祥 38:55
开源的 OPT blue,它可能就类似Linux。你就从这两个操作系统来看,你像对于这种 ToC 场景,目前来看当然是闭源的 GBD 系列,它要做得更好。但是对于 ToB 场景来说,对很多大公司,它不可能去用一个如此封闭的模型,它们很可能还是基于 OPT 还有 Bloom 来做进一步的开发,进一步的优化。所以我觉得跟现在的 windows 和 Linux 的应用场景是有点类似的。所以可能未来就是开源的。有少数几个 foundation model,闭源的可能有那么几个很好的 foundation model。可能是这样一个局面。
高策 39:44
方博佳瑞,你怎么看?
方佳瑞 39:47
我其实在看这个问题的时候,当然孙博士刚才从传统的软件行业来解释,我觉得这角度非常好。对,我觉得现在其实我在想这个事情,跟现在我们传统的那些比如开源项目还一样,或者这大模型这些项目还开源项目,因为这玩意把东西都晾给你,我觉得 open app 把这些东西都晾给你对吧? deep ID 这些东西都晾给你,你也是玩不转的对吧?我说 GBT three 的模型结构,其实所有人都知道对吧? GBT to 把那些参数改一改。对,第一是你数据能不能拿到对吧?另外就是训练资源能不能拿到。
方佳瑞 40:26
我觉得未来三要素,可能传统软件编辑部署的成本非常低,所以它产生了一种新的商业模式对吧?就是开源软件或者什么模式?对,但是大模型我觉得可能还不太适用于用开源软件模式来套它对吧?因为你再去,即使你把这些东西开源了,你再去复制它的成本也是很高的。对,他并不是一个对,所以我也是理解。像刚才孙博说他现在做一些m,ML,就是 MLS service 这些工作对吧?我觉得未来更可能是这些预训练权重,他是不是这些权重可能以 license 的形式对吧?或者以服务的形式,他在卖这些东西?对,但是怎么训这些权重的技术,我觉得可能还会继续开源对吧?但是可能有一些秘方不会告诉大家的,因为我也听说 Google 说要把大模型的一些研究全都封闭起来,直到搞出来一个超过 OPAI 的再放出来。可能是这样的一个方式。
高策 41:36
会不会在这样的背景下,像一些大模型的训练方面的优化技术,它会成为一种某种意义上的屠龙记?只有很小一部分的研究机构和公司才会有这样的条件去做,其他的机构其实都没法参与了。对。
方佳瑞 41:57
对,我要不我先回答这问题,因为可能跟我相做的东西关系比较大一些。
高策 42:03
对。
方佳瑞 42:03
对,我觉得这肯定是不成立的。对,因为是大模型,即使训练出来了,但是还有一个非常重要的环节,微调的环节和部署的环节,对吧?微调和部署的环节还是要大部分人能参与的,不可能设太高的门槛对吧?而现在的这些软件,我觉得最重要的是怎么把这个环节给解决好,比如 Senten 就一些具体的技术,我比如太技术我就不说了,反正有一些方法是能解决。比如你用1万张卡对训出一些大模型出来,我用 10 张卡能把你翻寸起来,对吧?这个能力就非常重要了。这个就是能让大模型走进千家万户的这样一个一个桥梁,对吧?所以做的。如果你在产业链的这一环节是很有价值,这是一方面对,另一方面就是怎么部署模型对吧?因为部署模型的场景更是五花八门了。本来传统的 MLS 里面部署这个环节就是一个非常定制化的对吧?一个环节对。
高策 43:09
是的。
方佳瑞 43:10
所以怎么把大模型部署又是很多人要做的。尤其是像不懂你的公司,可能就是侧重这方面了对吧。或者有很多人这方面的市场也是很无穷的。
高策 43:18
对,是。
方佳瑞 43:21
或者我觉得 Deepmind 把模型这些东西训练出来了,然后他可能是会养活更多下游的这些公司去生存,对我觉得是一件好事。应该是。
高策 43:35
明白。OK,有一个相对比较尖锐的问题想请教一下孙博大。模型其实很多。很多人会很天真的,也不是天真,会很自然地认为大模型会让很多 NLP 的算法工程师和数据科学家会失业。因为大家可能都觉得,既然有了大模型,我干嘛还要找特别多的 NLP 工程师来帮我去做 NLP 的任务?我其实直接就买 Openai 的大模型就可以了。不知道孙博你怎么看这样的一个观点,你觉得未来会不会大家对于 NLP 算法工程师的需求会变得少一些?
孙天祥 44:24
我觉得可能影响不会太大。可能网上的主流观点是觉得会对 LP 算法工程师有巨大的冲击。但就像我刚刚说的,对大公司来讲,他还不太可能直接用别人的大模型。这个时候就分两种,一种我自己做一个自己闭源的大模型,这肯定是需要一个专业的团队的,里边就有很多 LP 算法工程师。另外一层面讲就是他可能用开源的OPT,这种他要去做一些这种定制化的一些 further pre train 之类的。比如现在很多人去基于 Linux 去做一些定制,这种 NLP 算法工程师肯定也会存在。我觉得对于一部分位置的 NLP 的 SaaS 工程师来讲,可能是有危险的。很多小公司,它本身就处于要养一个算法团队,还是不养。现在它可能不需要养了, open AI 给它的成本就低于它养一个团队的成本了,这个时候可能就会被取代。
高策 45:31
明白,相当于是对于一些小团队来说, open AI 帮你做了研发的成本的转移,相当于你可以直接就买它的服务,不需要自己去维护一个算法团队,也能做到跟之前维护一个算法团队差不多的效果,对吧?
孙天祥 45:51
对,而且他需要的标注成本也少了,人力成本也少了。
方佳瑞 45:57
诶,接着这个问题其实我想再问,再请教孙博士一下,你会不会认为比如将来的算法工程师会出现分化,就有一部分人,他是训练大模型的,他是在产业链的上游做事。
高策 45:57
对。
方佳瑞 46:10
还有一堆工程师是做大模,他做一个训练好的大模型的,下游的定制化的一些事情。这两个我觉得可能技术栈会出现差异,会不会属于会不会有这种情况。
孙天祥 46:23
对,我觉得会的,因为确实现在似乎已经开始出现这个东西了。对很多搞 LP 的人,他做大模型的合作很多,其他的他俩聊不到一块去了。
方佳瑞 46:38
明白,对。盈利。
高策 46:45
再请教一下二位,我们未来有没有可能或者有没有必要会出现我们国家国产的大模型?还是其实包括 GBT 或者 check GBT 这样的模型,其实我们都看到它其实无论是训练的语料,还是它的使用上的体验,其实它都可以不区分语言,完全能够做到你用中文跟他聊,跟用英文跟他聊,他都能给你一个很好的回复和回答,而且都是一个很有逻辑的回答。
高策 47:14
未来我们在这样的前提下,我们未来是不是还会有必要出现一个从技术的角度,是不是还有国产大模型,它相比于 change BT 对无论是对于中文的支持会有一些更好的效果?这样的这样的事情在技术上是一个现实的事情吗?还是其实大模型其实它完全可以不区分任何语言。可以先请教一下孙博士吗?
孙天祥 47:42
诶好的。我觉得不管是技术上还是什么方面。一定是有必要做国产大模型的。虽然 chat GP 它会大概十几种语言,但是实际上它它的分布,它的数据分布,就决定了它对非英语的语言的理解能力还是要相对英语要差很多的,这本身是一种不公平。如果你去问 chat DBT 怎样做夫妻废片,他不知道夫妻废片是什么,就有很多我们中文语境化会出现的这种。这种概念或者实体,它的表现是很差的。这种在它的数据分布里是一个很低频,很长尾的存在。所以针对这些肯定要做我们国产的大模型的。而且不只是像纯语言的 check GBT,需要做很多跨模态的。像这种 clip stable difusion,它对于中国国内的一些特色的一些语境化的东西,它其实也是不太理解的,所以我觉得都是有必要的。
高策 48:52
明白。另外一个问题我们想探讨一下,很多人都会对这个问题很感兴趣,我们继续沿着现在的这种 transformer 模型不停给它加数据的方式,有没有可能在未来实现?通过利大专飞的方式来实现?强人工智能,也就是人工智能。它不仅可以在 NLP 领域发挥作用,它甚至有了非常强的逻辑性,就像人类一样,可以去逻辑推理,可以去思考。
方佳瑞 49:19
好。
高策 49:24
我们有没有可能会通过现在的这种继续的现有技术的演进,来达到这个程度。方博有想法吗?
方佳瑞 49:34
对这个问题挺有意思的。对,当然我从我的角度来想这个事我觉得很难。因为像我之前说问题一样,为啥大模型出现在 NLP 里,我觉得他现在这些模型还是对你的。 1 就是对世界的或者物理世界的一个拟合。你首先得有 NLP 这个东西,对你首先得人说话写字对得有一些概念。他才能去理解概念的关系,他本质是拟合这些关系对吧。我觉得首先他不能做的是他发明一些新的概念,我觉得肯定 chat GDT,不搞搞不定目前。当然这一会思默是可以补充对吧。当然另一方面,就像您说的,也有一些什么跨越 NLP 跟CV,甚至跟一些什么结合多模态也是一个热点。但我觉得现在多模态我理解现在现状还是靠 NLP 是主力,它因为 NLP 任务足够复杂对吧?
高策 50:29
对。
方佳瑞 50:36
你剩下的 CV 也是配合 NLP 做这样一个多模态。但我在想,比如像未来,像脑滴接口或者这种技术出现,我们以后都不用文字交流了,是不是你现在这种大模型的套路没用了,对吧?你像将来,比如我们现在,其实我们这个世界运转还是靠我们把人的思想编码成文字来。这个。沟通对吧?你脑子接口了,直接原始信号了对吧?是不是整个 AI 都要重新搞一遍了对吧?所以我觉得可能通过强人工智能这样一件事情,目前的技术路线肯定还要有很长的路要走,而且不一定对,当然现在在路线。
高策 51:25
孙博士,你怎么看?
孙天祥 51:29
我觉得这个问题是个很大的问题,我可能。不太有资格回答这个问题。简单说一下,瞎扯一个观点我就觉得。立大专飞实现 AGI 可能是必要的路径,但是不一定是现在这条路了,不一定是 Lark language model 这条路了。确实像刚才方博讲的。 NLP 里一直很强调的一个缺陷,每年都喊grounding。 Lin language 到底对应了世真实世界中的什么东西?什么概念?没有 grounding 人们做了很多 4 项实验。没有grounding,你是不可能真正地理解语言的。当然,你可以做出很巧妙的组合。它有一种令人 surprising 的。这种组合的能力像 chat GPT,但是终究还它是没有办法真正地理解的。所以最近有一些沿着这条现有的技术路线去做这种 ebody 的AI,或者是 grounded NLP,它可能是一个很好的方向,但是。目前还是看不到任何 AGI 的迹象,即使现在的 chat DPT。去知乎上的某位自称是 open AI chat DPT 开发者的,他们说已经聊了好几个月的 AGI 了。
孙天祥 52:51
在我看来, chat DBT 没有离 AGI 近,哪怕一步。对我们说这个桌子的时候,你要能对应到它实体中是个它在真实世界中是这样的实体,而不只是一个。
方佳瑞 52:57
诶 grounding 是什么意思?他现在还对应不上是吧。
孙天祥 53:12
对,现在有。当然有一些像 CLIP 这种的,还有多模态预训练,有一些强行的对应,但是只是在表示空间里把它们弄到一个很近的位置。但是具体有什么用,它具体能怎么用还是很不知道。
方佳瑞 53:23
OK。诶对。
孙天祥 53:28
对,还是很迷茫。
方佳瑞 53:29
是。明白。
高策 53:34
好,刚刚我们其实谈论了很多 NLP 领域大模型能够做得很好的方向,比如像大模型最开始出现的 machine translation 这样的方向,机器翻译这样的方向。在现在我们能不能看到有哪些 NLP 的领域其实是现在的大模型还不能做好的方向?有没有什么领域是现在大模型还没有涉足的?在 LP 大的领域,下面孙博是有想法吗?
孙天祥 54:08
我知道的好像。据我所知是不太多了。
高策 54:18
基本上。
孙天祥 54:18
应该说大概有两种,一种是那种。特别长尾的问题,他之也是有工作研究的。大模型它对于它,其实对于长尾分布的处理还是不是太好。它对于一些很罕见的实体,可能你的 WIKP 店里只出现过一次的那种实体。它的表现可能甚至还不如给它稍小一点的模型。也不如就是一个小一点的模型加retrieval。
孙天祥 54:52
所以从这个角度来谈,肯定是对于一些比如很低频的那种垂直领域,他的表现可能是很难做好的。对,但是如果你去特意地给领域去增强一下它的语料,提高它的频率,再做大模型,它肯定也是有能力做好的。对,只是现在的通用大模型可能在这方面有欠缺,但是技术上来说是什么没有什么障碍的。
方佳瑞 55:23
诶对,其实对这个问题,我也有一些问题可以继续请教。孙模式。比如一个大模型训练出来了,比如他就像 chat GBT,他说他只知识,只知道 2021 年之前的事,比如我们怎么把 2022 年发生的事告诉他,对吧?或者我们比如今天训练一个大模型,我怎么保证他五年后还适用这个事情?有没有一些?大家有没有一些共识。
孙天祥 55:53
目前应该没有共识,包括 Openai 它是怎么做的。我觉得对于。对于非内部的人员来讲,可能都没有一致的看法,认为他一定是怎么做的现在。基本上研究这个问题都是一些 toy task continue learning,他们会做很小的任务上一个训,但在 scale up 上去之后是没什么意义的。还有就是那种告诉你比如天安门他不在北京,在上海,你可以交给他,他可以修改这一个知识,但是修改效率是很低的。目前没有很一致的。我个人猜测可能 OPI 还是以那种混合语料继续训练去做的。
方佳瑞 56:41
这个问题当然也正好启发了我,也突然想到,比如咱们训练一个大模型。怎么去更新它对吧?维护它这个事情可能大家考虑的还不是很多,大家现在只是考虑怎么把这东西训出来。
孙天祥 56:56
对,这是个很确实很重要的问题。
高策 57:05
我们关于大模型的一些未来的发展趋势的讨论基本就先到这里,后面我们可能有更多相对比较偏技术细节的问题想跟二位交流。其实因为听到这的时候,可能还能听下去的大多数都是应该对技术有点了解的了,我们想请教一下。大模型的训练其实我们每个人都知道成本巨大,刚刚方博也提到 GB3 的训练一次 100 万美元。之前大模型的训练刚刚大家各位也有提到,它一定是以分布式的方式去进行的。可不可以简单地跟大家分享一下我们现在常说的大模型的训练,跟之前的像数据并行的这种传统的分布式的训练相比,它最显它有没有一些显著的差异在训练的方式上。
方佳瑞 58:03
好的,我先于森博回答一下,这可能跟我的专业比较相关。对,我觉得现在大模型确实发展到了一个节点。比如最早可能那时候你从 CPU 迁移到GPU, 14 年的时候对吧,算是一次整个系统的飞跃。那时候有个 config 这种框架对吧?之前你可能还用 bytelab 或者什么去搞模式 learning 去了。后来又从单个 GPU 到多个GPU,这个时候就有Howard,不知道你们知不知道还有 Python 的DDP,最后收敛到它或者 Tensorflow 也应该有类似 DDP 的东西。
高策 58:40
是的。
方佳瑞 58:41
现在那个时候还是计算,还是一直在 scale 计算能力,我觉得现在是面对 scale 的是存储能力了。现在这玩意单个 GPU 训不了可能。当然一方面是计算量确实很大了。对,但另一方面,单个 GPU 的存储已经无法满足大模型的需求了。这个时候大家更关注的是怎么去把存储分布到多个GPU,甚至 GPU 或者磁盘的异构空间里。我觉得这是一个显著差异。现在的最紧急的瓶颈是内存强了,而不是计算强。对,说到一些具体的技术,之前 DDP 对吧,大家都可以打天下, CV 等。
方佳瑞 59:23
现在就有各种方式,我觉得也有不同人有不同的门派。就有一部分人是用 zero 加 ofload 的方式。我听说一些大厂是这么搞,它的优势在于它对模型改动非常小,可是你 scale 的非常简单易用。对。另一个门派就是做流水线并行加模型并行。这一派模型改动非常大,但是它可以用的规模特别大,把整体的指标范抓得非常好。对,我觉得整体分布现在还没有收敛。对,但是这也是为什么我们创业公司,我们作为一个创业公司能有搞头的地方了。对,但我觉得可能再过一两年,这个事情会收敛到某一两种。有限的几种方案,可能跑 GBS three,大家就用那几种方案就行了。对。
高策 01:00:21
诶,其实之前 any scale 发过一个 PR 说对吧, Openai 其实是在用他们做训练。