AGI是一场生产力的变革。如果说大语言模型是蒸汽机,则AGI就是一场工业革命。在这一新质生产力革命进程中,技术是驱动引擎,深入理解技术,才能更好的切到业务的蛋糕;就像赛车手,他知道发动机引擎的操控逻辑,才能在弯道超车。
我们先聊技术范式,再来谈商业模式。
一、scaling law的真正原因
从小到大,经历无数次考试,我们常识里就知道,判断对错题拿分简单,瞎选也有一半分;单选题 4选一就难了,需要各个答案鉴别;如果是十选一那就更难。这个逻辑是成立的。对机器学习来说也一样。从图像分类来看:如果分十个类别,相当于是十选一的单选题;imagenet的数据集是1000个类别,就是1000中选一个了。而大语言模型是多少呢?他是从十万多的词汇表中选一个最可能的token,分类数增加一个,他的难度都是指数级增长。从数学概率论的视角来看,就是softmax 回归的shape越大,需要指数级增加的数据集样本才能训练充分;因为条件概率分布P(Ai|(A1A2……A十万,输入text)中,A的个数增加,则输入的text 和 A的组合数就指数增加的。需要用大数据量来一一计算概率,才能排除掉其他可能,得到真主Ai。
为了得到这样规模的完全分布,里面的数理逻辑的表达是比较复杂的,因此需要大模型参数,参数越大,他能表达的数学逻辑就越多;同时需要大数据量来提供完全分布,才可以训练充分。为了寻找达到这一目的的路径,openai 这帮人就发现,只要是transformer,宽度和深度不需要设计排列组合,参数量差不多的话,model能表达的数学逻辑是基本一样的。因此就省心去找更合适的模型架构了。直接暴力增加深度,增大数据集,就完成了这一巨大任务:从十万个选项中选一个真主答案的选择题任务。
二、Sora离真正的text2video的GPT4时刻究竟差多远
我们来基本预估下text2video需要多大规模的训练集。之前分析过
Sora技术6:深入谷歌videopoet理解全模态视频生成
经典图像分类工程中,imagenet数据集,共1000个类别,你可以认为是token的Codebook是1000 的size,然后总数据集是128万,合每个类别1300张图片的样子。这个类比的意思是,一个token的全分布概率计算,需要1300个样例来统计。
GPT1的词典大小是40,478 个,GPT-2的词典大小为50257个,因此词典差别不是很大,那么我们姑且假定GPT4的词典大小为6万,他的数据集呢,是13万亿个 token,也就是每个token有2亿个样例来计算全分布概率才能达到GPT4的效果。
Videopoet的Codebook大小是27万,词典过大,会造成embedding matrix巨大,会带来存储和时间的复杂度。因此,短期内视频生成任务不能达到GPT4的水平的,因为Codebook过大了。一个类比计算就是:
Codebook size 1000的时候,需要1300个样例来算全分布。
Codebook size 60000的时候,需要2亿个样例来算全分布。是1300的15万倍。而Codebook size 只是变大了60倍。也就是膨胀比是2300倍。
Codebook size 27万的时候,那么他是6万的4.3倍,需要多少token?那就是4.3*2300*2亿。这么庞大的数据量是没法计算的。
因此,可以毫不夸张的说,sora放出来的demo,只是一个局部分布训练到了一个小局部最优解(鞍点)上的某个角落而已,他还不能达到全分布的局部最优解。也就是说sora只是在几个案例上能合成优秀视频,如果真的洪泛攻击散开了让大众随意测试,基本不可能达到chatGPT的能力的。
解决这一难题,一方面需要scalaing law,这是最土的方法;另一方面核心的是降低codebook的size。这是迈向AGI的关键一步。
三、落地究竟有多难?通用和垂类:两片水域
只要是通用大模型,不管他刷了多少数据集评测榜单,他终究还是一个实验室产品,因为他训练的是公开数据集,公开数据集本身就存在语义混乱的情况,他就没办法进入严肃的职场环境解决现实问题。Imagenet上的训练的分类模型,也不能直接拿来做工业视觉上的缺陷检测:这个斑点属于CPU正常的噪点,这个坑点是CPU制程的缺陷。这就需要重新构建真实数据集来真实训练一个分类模型才可以。
通用大模型也是这样的,他离落地的最后一公里是有gap的。随便举个例子,如果让通用大模型来回答医疗问题,我估计业内人士都是不放心的。而真实的业务场景就是这样的。他不是一个闲聊的助手。他需要严格保证质量。
因此,垂类模型当前紧要解决的问题是回答收敛问题。其次,还有主动发问的情况。就是一个真实的医生,他是需要主动望闻问切的,主动去挖掘患者的病情,而当下的大模型是做不到的。因此垂类大模型就是需要紧密结合业务另寻出路。
四、为什么需要自主训练垂类大模型
基座是所有codebook的全量数据分布,由于公开数据集里存在许多糟粕,例如科大讯飞那次学习机事件,本质是他的底座训练集中出现了很多敌对意识形态的数据;他基座训练过程中吃进去的数据,得到的就是一个codebook的全量分布;这个全量分布底座歪了,在他基础上长出来的应用,或多或少,时不时会冒出一些古怪输出。
因此,我们需要训练一个垂域的底座大模型。这个大模型怎么训练呢?
第一是降低codebook大小。如果我们是做医学问诊的,那么,我们肯定不需要代码codebook的,这些代码的token就可以摘掉;第二是建一个大小适中,垂域数据充分的数据集。我们只有垂域数据集,就有可能不能覆盖整个数据的全分布;只有公开数据集,就对垂类了解不充分。因此需要综合考虑。第三个就是适中的模型大小。做一个垂类大模型,我们就是训练一个南翔技校的挖掘机工人,他开挖掘机干活干的又快又好;而不是训练一个北大的通才,他居庙堂之高则忧其民,胸怀世界。
五、LLM装进1080显卡:迎接百花齐放的垂类大模型
成本决定了落地的关键。首先要成本小,模型不能太大;其次把高并发打起来。这个也是降低落地成本的。
最关键的是,每个行业每个角落都需要有一个专门干这一个活的垂类大模型。真正落地的大模型不是操作系统,他不需要大而全;他要的是小而精,在这个领域上,他的知识面非常精准,能闭环解决问题,
比如说在智能汽车座舱领域,他可以很精准的回答汽车的操控指南;例如,他可以回答儿童锁在哪里操作,这个每个车都不一样的,通用大模型是回答不了的。
然后是降低功耗。功耗太大,推理需要4090是不合适的。4090近500w功耗,太烧电。还需要更低成本部署。哪天1080这样的老显卡也能跑了,行业就是春天了。
总结
真正的商业模式,得深耕一个垂域,在这个垂域训练自己的大模型,算法效果上能做到闭环。然后降低部署成本,才能真正是挣钱的新质生产力。
目前来看,text2video还不足以达到商业化产品的标准。离真正落地还有困难的。然后这个方向的科研任务还很重,短期一年内看不到类似GPT4的产品出现。
一家之言。
看完觉得写得好的,不防打赏一元,以支持蓝海情报网揭秘更多好的项目。