由于人工智能的快速发展,许多人终于开始理解和接受这个事实:AI 离我们并不遥远,它正在改变我们的世界。作者在看LLM(大型语言模型)的机会时,深度思考了3个问题:LLM下一个发展未来是什么、哪些落地方向更有前景、我们要做些什么准备。希望能够给各位带来启发。
最近我自己在看LLM的机会,也和创业者、投资人、从业者进行非常多的交流。大家普遍的感觉是“我知道他很好,但我应该怎么做?”。在被OpenAI拖着狂奔的过程中,涌现出了很多机会,大家都处于一种兴奋而迷茫的状态。
特别在OpenAI联手微软依次打翻文本应用(Jasper/Grammarly),办公软件(微软 Copilot),开发框架(OpenAI插件之于langchain),低代码(今天刚出的新闻)后,这种迷茫更进一步叠加了对中心化LLM巨头鲸鱼翻身的恐惧。
在深度思考后,我总结出这三个问题,并从底层本质进行了回答。他将会是我接下来看LLM机会的核心框架,希望对你有所帮助。欢迎点赞,转发,再看。
我在2月26日、3月2日分别做过LLM的未来预判,正确率几近100%,其中一篇是:重磅:盘点7大方向,谁将诞生ChatGPT领域的尤里卡时刻(七个方向仅有一个未被兑奖)
但有一位朋友问了我一个印象很深刻的问题,“你是怎么做出这些预判的呢?”。这就是知其然和知其所以然的区别了,当时我回答不上来,现在我有了思考后的初步框架,与各位分享:
由此,我将LLM的未来分为两类:现状修复,开拓增量。同时施加技术和商业的双重判断进行校准。
现状修复
No.1 居高不下的推理成本
目前表现最优的OpenAI GPT-3 Davanci 价格是0.02美元/1Ktoken(大约3800汉字/元),特化微调后的GPT-3.5 turbo价格是0.002美元/1Ktoken(38000汉字/元)。同期国内的百度文心一言据说API价格是0.12元/1Ktoken,比Davanci版本略微便宜一点。
列举这么多数据,是为了直观告诉大家现在的推理成本到底有多贵,只有少数业务能够满足到这个价格/成本的剪刀差。
基于这个问题,可以延伸出若干个子方向:
开源平替小模型,例如Meta开源的LLama及延伸出Alpaca-lora,ColossalChat等等,通过针对性微调,在更小参数量级(10B或100B)级别上对齐千亿参数的效果。
上下文压缩,通过文件分块后语义检索,或者长文分段摘要在合并等方式缩减上下文长度。例如ChatPDF,乃至bing(虽然他没公开,但我猜是)。
LLM本身的优化,例如英伟达在芯片层的工作,以及算法、模型结构、任务调度方面的优化。
可谓是八仙过海,各显神通,大语言核心厂家在做优化的同时,小玩家也通过各种手段拼命压缩成本。要让LLM进一步踏入千家万户,迎来像AI绘画侧SD算法那种爆发,推理成本一定是最重要的第一个方向。
并且他也一定能快速被解决,不管从LLM本身出发,还是上下文压缩的技术迭进,还是开源平替小模型,他的各项技术前景都是现实的。所以如果4月1号OpenAI又宣布降价,别惊讶,常规操作。
No.2 垂直适配难题
目前要微调一些专用于垂直领域的LLM,会面临若干问题:
头部大模型价格高昂:OpenAI的Davanci基本模型调用价格为0.02美元/1Ktoken,但微调后模型的使用价格变成了0.12美元/1Ktoken,翻了6倍。
而事实上,基于Lora机制(冻结大部分模型参数,仅微调调整少量参数)实现的微调新模型,他的成本不可能翻6倍之多。我怀疑OpenAI在通过这种极其高昂的定价策略,逼迫使用者进行低阶模型的微调(在次一级模型上微调后,尽管价格仍然翻6倍,但只是上一级模型价格的60%),从而获得低阶模型微调适配的珍贵数据。所以OpenAI下调微调模型价格的空间理论上是存在的。
而现在开源平替模型的出现可能冲击OpenAI的这种策略,他的微调价格可能会产生相应调整,并可能也开放自己的小模型平替。但这种情况其实和Google推出LLM一样,是自己在刨自己的根,非常难做出决定。
另一方面,微调的任务能力有限,目前常见的微调主要为通用领域,例如更好的营销文案写作,更友好/更专业/更严肃的回答方式,针对性的文本提取,情绪分类等传统NLP任务。真正迫切的知识更新效果很差的,即让LLM专门记住我这批专业数据,并老实回答,这也是为什么ChatGPT到现在还是只有21年以前记忆的原因之一。
No.3 上下文中注意力失控
在这里要简单科普一下上下文和注意力是什么。大家会看到GPT的原始版本是2K左右的token上下文支持,GPT-3时代变成4K,GPT-4时代变成8K和32K。
那么为什么上下文会是一个要逐步被解决的问题呢?因为他的本质是,当你输入一个超长上下文(包括你的指示、你的补充知识、你的示例等),LLM需要对你的上下文进行全面的理解,用到一个叫“注意力”的技术去计算每个字与字之间的关系,甚至这种关系产生在你输入的第一个字和你回答的最后一个字之间也存在。
当LLM生成回答的时候,他会基于注意力权重来计算本次应该生成哪个字来形成答案。而这个注意力权重他是要对所有你输入的上下文文本进行计算的,文本越多,他的计算资源要求就越多(这也是为什么OpenAI以token计费,并且输入的文本也要钱)。
大概了解上下文和注意力后,我们回归这个问题——那么当我计算了所有的注意力后,哪些注意力是更重要的呢?
这就是所谓注意力失控,或者说根本就不给我控。通俗来说,如果我希望你记得某个关键信息,我会把那个字体标红、放大10倍。
而在LLM的技术中,其实也有类似手段。在GPT-3.5 turbo API(即CHatGPT这个版本)中,他们定义了一个叫System的字段,可以看为是允许开发者自行定义最关键的注意力点。但实践中,system中的内容总是被遗忘,并且仅有一个字段来承载也不够适配业务中的丰富需求。
所以,可控,可配,可调的自定义注意力,是一个非常关键的优化点,可能在后续版本出现。
No.4 安全性补足
我写这篇文章的时候,马斯克发起的公开信已经有1000个人联署了,大概内容就是“AI很可怕,在找到约束方法前,你们(OpenAI)不准再迭代拉!”。
在LLM安全方面,其实OpenAI建立了第一套标准,主要分为两个方面:
幻觉,即不要回答你不知道的东西,不知为不知是智也。
有毒,不要种族歧视,不要性别歧视,不要地域歧视,不要引导做负面事情,阳光向上保持健康做个好AI等等。
在他们的公开论文中,GPT-4在2022年8月已就位,拖到23年3月才发布,全是为了解决上述的安全问题。
我对这个方向的看法是:翻版的西方环保问题。
他是不是问题?是的。为什么大家要说这个问题?有真正的担忧,也有利益上的诉求。他真的会被执行吗?领先者用它敲打追随者,追随者用它声讨领先者,双方肯定会挥舞大棒打成一团(我原本以为还要再等一段时间)。
他稍微与环保问题不一样的地方是:环保不存在技术实现问题,更多是利益的纠缠。而LLM的幻觉和有毒性,真的没办法完全解决,这一点的判断我完全站在杨老板这边。
有一个有趣的公司,Anthropic,成员来自OpenAI中脱离而出的创业者。一开始被Google投资了,和OpenAI一起上线了Poe应用做对比,效果实差。而且他的金主Google也发力自己搞了,整个情况风雨交加。但是他找到了一条合适的路子,站在了LLM安全这个领域,并推出所谓的RLAIF(人类反馈约束安全变成AI反馈约束安全)。
如果让我说,这就是时代的风口,环保问题解决不了,但是环保会撑起来一个庞大市场,并诞生如同环保少女这样的顶流。
No.5 可解释
这是我在7大方向文章中唯一不被现实兑奖的预测。但我仍然认为这是一个很重要的方向,解释性在所有决策类业务上都是非常重要的。
我最近几年没在做AI,做的是搜索推荐,你可以把这个搜索推荐也看成某种意义上的AI决策(AI决定什么东西到你面前)。而这个领域中,越是高行动成本的,就越需要可解释性和信息背书。
例如推荐你看某个短视频,你的成本几乎没有,不准的代价是手指划走;推荐你看某个电影,你的成本是几十块 现场观影的两小时,不准则收获坏心情;推荐你买金融产品,你的成本是一堆钱,不准则失去这笔钱。
你会发现,越是高行动成本的事情,你越需要推荐的解释理由以及更丰富的信息背书(影评,导演,精彩片段等等)。LLM也是这样的,他如果要进一步发展,就一定需要更深入地介入人类生活,更进一步地去接管,辅助高行动成本的事情,在这个过程中缺乏解释性是一个超级大的问题。
从纯粹LLM技术本身,我不看好他被解决——神经网络的可解释性都是一个超级古老的大难题,更何况LLM这种集大成技术的可解释性。但通过Cot,产品设计,信源定位等方式总是能部分缓解的,这也可能成为未来所有LLM设计必涉及的一个范式。
No.6 本质学习
这个观念来自下面这篇文章,是OpenAI技术人员分享的的LLM迭进理念https://mp.weixin.qq.com/s/hQmvltuMlClBonM6UJmtLg
文章中OpenAI的人员认为LLM的正确做法是:“明确 AGI 基础模型的目标(任务)并搜集尽可能多的有效数据,然后使用所有可能的无损压缩方式,从而得到对任务方法的最小描述长度。”我的理解就是学习本质,而不是学习表层知识。
整个思路有点像我本文的分享框架,比起给你表层知识,不如给你获得、分析这个知识的思考框架,用哲学上的话来说,就是先验胜于后验。例如我知道特朗普是美国总统,不如我理解总统、美国这些概念,进而再通过Bing获取信息来整合。
这也是我认为OpenAI放弃进一步堆叠知识,而借由外部工具(计算器,wiki,Bing)来提升能力的原因。他并不是对现实妥协了,而是始终在坚持他心中的最优策略,就像这几年他一直坚持GPT方向一样。
但可惜的是,即使他发现了一些新知识,大概也不会发paper了。
No.7 业务安全
这个部分逻辑很简单,排除成本问题,很多企业还面临数据安全问题。并且这种安全问题可能到了云端私有化也解决不了的程度。
因此OpenAI下一个重点一定会包括与Azure一起推进的云端私有化开放,但与此同时大量的小模型厂家(基于开源模型改一改自研的那些)也一定会迎来属于他们的机会。
这个真的很简单,我不多说什么了,只是这个事实确实还未完全发生,勉强算是预测,所以我放上来写一下。
No.8 降低门槛
门槛的一部分来自成本,在第一个章节已经讲过了。
门槛的第二部分来自各种开发框架,例如langchain或者Colossal-AI,支持开发者更便捷的实现应用。
门槛的第三部分我不太确定,有点怀疑是低代码 AI绘画 开发框架串起来的APP工作流。即未来每个人都能极低成本实现自己的APP。
这部分OpenAI有可能会亲自下场,特别是门槛三种人人都是产品经理,人人都能构建自己APP的这个事情,具有非常大的意义。
开拓增量
No.1 理解(多模态)
在微软的KOSMOS-1论文中(即我发现多模态未来的那篇),他举的例子可不止图像理解,还在旁边放了音频、视频,这也是大家目前很容易预见的。
但我再补充另一部分细小的信源:陀螺仪,触碰(屏幕),温度,红外线,光照,湿度等等。
这些概念其实和图像、音频、视频不太一样,他们本身不具备丰富的人类信息,并且通常以清晰明了的数据格式存在(例如温度=17°C)。在LLM落地到手机这类新的终端后,他将远不止获取到图像、音频、视频这样的信息,还包括N多人类传统用于刻画客观环境的量化信息。
我反而很期待针对这些细小信源的应用,因为他们的信息结构很简单,基本都是代码常见格式,是现有能力能够快速兼容的,比起音频、视频要做的语义融入简单太多。
另外有一个超级遥远的未来(我觉得很遥远…说不定过几天又开发布会了),目前自动驾驶侧某种意义上是对真实世界的建模,那么如果真实3D世界能够被LLM理解,那么整个世界会向LLM进一步揭开了面纱。
No.2 干预
理解的下一步是行动。
首先,ChatGPT插件某种程度上就是一种干预行动,只是受限于安全风险,OpenAI做了控制,将所有步骤停留在产生影响的前一步(订机票,最后订那一步你自己做)。
其次,今日消息(28号),OpenAI投资了挪威机器人公司1X;并且之前他在机械手臂方面也是有相关技术积累的(Dactyl系列)。
但LLM的行动要解决和他现在的安全性问题是存在极大冲突的。在前面可解释性部分提过,AI仅仅辅助我们决策,我们都有那么高的要求,更何况他现在要直接干预世界?
这个部分,我在短期内是不抱期待的,我认为技术上的安全的问题很难解决。毕竟谁也不想被剃头机器人真的把头剃掉吧。
No.3 多端融合
微软目前的所有尝试,都是在围绕PC落地:bing,office全家桶,GitHub。所以在这个烽火连三月,爆发出的*手级产品基本上是生产力方向的应用。
剩余的终端如手机,VR,耳机,音箱等等,其实还处在缓慢的适应期。
一个原因是头部终端厂家没完全放弃,想自己搞搞看看能不能突破,另一方面是他们可能获得信息时间较晚,微软的整个动手准备可能从去年8月就开始尝试了,而大部分终端厂家可能等到11月30日ChatGPT发布才反应过来。
这个趋势,大家也形成共识了,我不谈他的逻辑了,重点说说这个方向要注意的地方:
1.要去看更多的信息输入,例如我前面讲到的,PC所不具备的陀螺仪,温湿度,触碰等等
2. 要去看设备特性的差异,例如手机的LBS和PC的LBS本质上是两个东西,手机上的图像输入和PC的图像输入也是两个东西。手机更具备时空跟随属性,和固定的PC不相同,不能简单用PC侧的认知去看待新的设备端口。
3. 去看低成本的终端方案,单机跑的小模型(效果差),能不能在终端跑通垂类应用?
4. 要去看全新的交互范式,CUI GUI的最终答案是什么,不要被目前的对话框限制住,要知道当初移动时代开端的时候,每个APP都长得和PC端一模一样。
No.4 被绑住翅膀的插件
ChatGPT插件发布后,我没有写文章,因为没有想象中那么惊喜。
从目前来看,他更接近Alexa Echo的 Skill Store而不是苹果的Apple Store。
这两者的区别在于,苹果本身的特性(移动,陀螺仪,触碰,实时LBS等)给众多基于他的APP提供了广阔的创造性,而Skill Store提供的特性有限,并且因为输入输出单一(语音),产生了非常大的限制(所以后面又加了屏幕)。
要更进一步发展,一方面GPT-4的图像模态需要开放,另一方面ChatGPT要落到更多的应用端,从端上获得更丰富的信息输入,并掌握更多的输出手段。
插件市场一定要用这种思维去看,LLM是核心能力,但这个核心能力也受限于端的输入(信息获取)和输出(交互手段),所以关键不是现在插件能做什么,而是未来插件能做什么。
02 哪些落地方向更有前景这次是我自己问自己:“你分析的依据是什么?你为什么认为这个好,那个差?”,下面与你分享我的框架:
1. 这次技术与以往的根本性差异是什么?
就像插件部分对音箱、手机、PC的分析一样,我们先看清楚技术带来的本质的变化:
2. 你正在看的这个方向是存量还是增量?
存量市场指这个市场以前就存在,例如客服,教育,游戏,通常来说存量市场的壁垒在于资深的业务逻辑,同时已经拥有非常多的资深玩家。当新技术到来时,旧玩家会纷纷拥抱,进入新一轮内卷,直到卷完后再次形成动态平衡。
在存量市场中,新玩家纯靠LLM技术几乎难以突破(特别是这种技术某种意义上非常平等,应用门槛很低)。
同时存量市场本身服务于某些市场需求,这些市场需求是否会因为新技术带来的体验提升,进一步扩大便捷,推动增量产生也是不一定的(要分行业去看,甚至要分具体应用去看)。
增量市场指这个市场以前或许存在,但相关技术不达标,所以整个市场一片蓝海,没有强有力的老玩家,大家众生平等各凭本事。
请注意,不是说增量一定就比存量好,存量才是当前世界的绝大多数,并且AI对每个存量市场的破坏式更新和增量带动也都不一样。
3. 你正在看的这个方向会被巨头颠覆吗?
最后,我分享一个可怕的猜测:GPT-X的迭代节奏是什么?
……将以上过程无限循环。
这个猜测你可以结合回顾我前面的“本质学习”章节,和OpenAI的理念是相符的。他们从始至终,要做到的事情,就不是锻炼LLM对于表层知识的理解(例如特朗普是谁),而是要锻炼LLM的思考框架。而Prompt指令中凝练了人类对任务的表达和要求,是这个阶段中最有价值的数据。
当我们还在感叹中文世界的语料数据(例如paper、文章)等不如英文世界时,OpenAI眼中的高质量数据可能已经从事实数据变为指令数据了。
4. 他的技术前置成立吗?他的商业潜力有足够空间吗?
这部分我没啥好说的,纯看你的技术理解和商业判断…这不是在一篇小文章里能说明白说完的事情。
No.1 情感方向
情感方向是我目前看到唯一一个纯粹的增量市场,在过去技术的限制使这个方向的发展十分微弱。在LLM出现后,他的技术前提已经使得这个市场成为可能。
但是情感方向存在三个问题:
No.2 新的范式
新的技术发展总会带来新的范式,例如PC时代表格工具对传统表格的降维打击(不仅仅是表格,更是查询、加工)。而Notion更进一步,试图推进All-in-one,形成Word、Excel等多种格式的统一,让创作者专注表达想法,而Notion负责输出时的多样化演绎。
那么Notion,或者说现在的Notion AI 就是最终的形式吗?或者说像Office Copilot那样快捷实现多种文件的互相转换和便捷操作是最终的形式吗?
会不会有一种新的文件格式“.ai”,只需要你写好你的大纲论点,就可以在演示过程中实时自由延伸(扩写),并变换多种展示方式(从导图到PPT,又在局部变成可交互表格)?
我也无从得知,这种空想也没有意义,需要许许多多细微的创新堆叠起来才能成为新时代的标准范式。
事实上,新技术出现初期,人类的想象力总会被约束在旧的思维框架中而不自知。例如《Power and Prediction》这本书中的例子,当电力出现时,要用它取代工厂中蒸汽机。
仅仅只是替换就可以吗?蒸汽是有管道链接到各个机器的,而电力只需要一根电线。蒸汽是必须常开的,而电力却可以即时开关。蒸汽动力举例衰减严重,所以他需要在工厂中间,而电力却不用。所有这些本质不同最终催生了对工业生产在技术,工具,管理等多维度的深刻改变。
因此,我不相信目前简单在旧模式上叠加的创作,生产提效就是终局范式,更不要说生活范式由于更娱乐化的手机、VR、音箱等端还未完全落地,更是起步初期。
在这样一个时期,谁先打磨出新的文件格式,先打磨出新的范式(创作/工作/生活),谁就有可能吃到最好的机会。——但是感觉巨头们绝不会放过这个场景。
No.3 AI化浪潮中的机会
AI化是浪潮,那么帮助他人跟上浪潮的过程就会产生机会。这个他人,又可以分为2C和2B。
但不管2C2B,我们都可以把他们粗略地分为三类:
1. 赚信息差的钱
2. 赚工具 AI差价的钱
3. 赚自主训练模型的钱
No.4 劳动力迁移中的机会
农业革命后,单位农业生产力溢出,导致农民流向了工业。工业革命后期,溢出劳动力流向了第三产业。那么现在,因为AI溢出的劳动力(并且较为优质),他们会流向哪里?
是附生在新AI的周边服务上,还是流向内容产业(我们的内容供给到极限了吗?),还是像有的朋友所说,回流到第一第二产业?
这种劳动力迁移中,一定会伴随着相应的机会出现。机会在哪里,我看不出来。但一个好的方法是观察美国,他们的劳动力市场更敏锐,他们的资本家也更冷酷,整个迁移方向有可能在美国先表现出来。
No.5 人文思潮的变化
生产力的变化也会带来人文思潮的变化,例如工业革命抹除了男性和女性的体力差距,并使女性具备经济独立,从而推动人格独立。再例如移动时代的碎片化特性使得短平快的奶头乐内容逐步取代长篇深度内容。
那么LLM技术会带来什么?一个猜想是前面提及的“信任感”,人类可能在未来逐步更相信AI,不再具备初次使用时的恶意。另一个极端则是对“AI危机”的警惕抗拒,例如今天马斯克发起的联名信其实就借用了这样的焦虑。
但是否还有其他更深远的影响呢?例如AI内容提效后,进一步推动创作者的两级分化:99.9%的好作者,和0.1%的超级好作者?例如AIGC飞速爆发后,对机器推荐的信任转向真实KOL的信任(人肉信息过滤器)?
不过人文思潮的变化更多影响通常集中在内容行业,或者说创作者领域,我能想到的就是赶紧开个反AI的号,从今天开始立人设。
No.6 能不能更具体点
看到这里你可能会有些失望,你说得这些似乎都很宽泛,有没有更实在具体一点的干货。
首先,如果你自己没有任何方向上的思考判断(并且是结合你自己过往经验的),我奉劝不要下场,任何只消化表层知识而不建立自身框架的行为都是雁过无痕的,就像收藏=已读一样。
其次,如果你真的要…看我的分析库链接吧,里面有69个方向(在这个大章节的开头),但是这个库我后面的更新频率会越来越低,因为他对我的价值越来越低了。我已经过了看遍青山的阶段。
03 我们要做些什么准备我们要去判断这次技术浪潮带来的改变,基于变化决定我们要做什么准备
1. 拥抱UGA元年
在这里,让我创造一个词语:UGA,User Generated application,区别于UGC。
现在越来越多的趋势表明,LLM的辐射范围不仅仅局限在内容创作领域,更包括应用创作领域,OpenAI接口的易用性,Github Copilot、Microsoft Power platform的发布都证明这一点。
以下是一个APP搭建过程中的一些必要劳动:
所以你需要做的第一件事是,开始你的创意,并用各种工具努力去把它做出来,不要管他多丑陋、多无聊,开始才是最重要的。
2. 找本质,先验胜于后验
在LLM盛行的未来,表层知识的价值会越来越低,有史可证:
在没有搜索引擎的时候,我们会记录所有知识,有了搜索引擎后,知识随用随取。
而LLM时代,他比搜索引擎更进一步,能够帮我们更高效,更匹配地找到所需知识。
那么当LLM落地到手机端甚至VR端的未来,你不仅在电脑面前无所不知,而是随时随地无所不知了。
在这种情况下,你最稀缺的能力就是更本质,更先验的底层思考框架,就像OpenAI的他们的目标一样——始终找到更优雅的理解这个世界的方式。
3. 保持好奇心,但做好信息管理
飞速变化的世界,会有非常多的信息涌进来,在这方面,我以个人的经验给一些建议:
4.拥抱不可控性
很多人问我,AI产品经理有别于其他行业产品的本质区别是什么。
我的观点发表在AIGC之我见 Vol.12,到目前都没有变过:“技术理解,商业判断,产品设计这些都是产品的基本功,不会因为他是AI产品就有本质上的区别。AI产品经理最大的本质区别在于对不可控性的控制,他手里的工具在技术、市场、效果等各方面都呈现出极大的不可控性,而产品经理最核心的能力就是控制它,在起伏的海浪中寻找One piece”
现在将这句话送给读到这里的各位,现在这不仅是AI产品经理的核心能力了,也是这场时代风暴下所有人应当共有的能力。
本文由@马丁的面包屑 原创发布于人人都是产品经理,未经许可,禁止转载。
题图来自 Unsplash,基于 CC0 协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved