大伙儿有没有发现,放弃造车后的苹果,最近在 AI 上的动向是越来越频繁了。
这不,今天一大早就有媒体报道,苹果收了一家搞视觉检测的加拿大 AI 初创公司。但还没一会儿,就又传出个大消息,说是苹果大模型要来了。
正当世超满怀期待想要看看怎么个事儿,却发现所谓的苹果大模型,只是一篇论文。。。
在 arXiv 上,苹果上新了一篇名为《 MM1 : Methods , Analysis & Insights from Multimodal LLM Pre-training 》(多模态大型语言模型预训练的方法,分析和洞察)的文章。
论文里,他们公布了个名叫 MM1 的基础大模型系列,其中 MM1 支持图文多模态,参数规模也分了小杯的 30 亿、中杯的 70 亿,还有大杯的 300 亿三种。
世超总体看起下来, MM1 的原理和市面上其他的一些大模型比,并没啥大差别。
但,世超还是翻到了些比较有意思的干货。因为他们通过一大堆实验,研究出了些能让多模态大语言模型变得更聪明的小技巧。
就比如,他们在训练模型的一开始,就给 AI 来了一波 “ 消融实验 ” ,大伙可别被这个生僻的名词给吓到了,消融实验,咱可以粗略地把它理解成 “ 可控制变量法 ” 。
就像差评君说他打游戏菜,是因为空调温度太低影响了他的发挥,那咱就空调温度往上调调;当然也可能是屏幕太亮,晃着眼差评君的眼睛了,所以咱也把屏幕亮度调低试试。。。
总之经过一系列调整之后,肯定能找出差评君游戏菜的锅,到底该谁背。。。
同样,在训练苹果大模型时,技术人员也挨个调配置,比如修改预训练数据源,或者调整图像分辨率,来看看调整之后,对模型性能到底有啥影响、有多大影响。
这样做的目的,就是要确认哪种组合设计可以让模型变得更聪明,世超也就不卖关子,直接公布最后的 “ 结果 ” 了。
首先,他们发现图像编码器的设计,尤其是图像分辨率和图像标记的数量,对模型性能的影响贼大。
说人话就是,图像越清晰、标记的细节越多,模型效果也就越好。
模型在不同图像编码器配置下,对不同图像分辨率和数据预训练的消融实验结果
还有咱们都知道,一般多模态多模型都能分成视觉模型、大语言模型和视觉语言连接器( 帮助模型理解图片内容,并用文字解释的部分 )三部分。
苹果则发现,其中视觉语言连接器相对是个小透明,无论它具体咋设计,对模型性能的影响都比较小。
另外再举个例子,模型从来没见过猫的图片,但在测试的时候却能认出猫是猫,这叫零样本性能。他们则发现,要想提高模型的零样本( zero-shot )性能,训练模型时,带标题的图像数据很重要。。。
说实话,上面的这些发现,多少还是有些人类能理解的逻辑在里面。
但这论文我越看,就越觉得 AI 妖。
因为实验发现 “ 45% 的图像 - 标题数据 45% 的交错图像 - 文本数据 10% 的纯文本数据 ” ,这种比例的数据,对他们的多模态大模型训练最有效。
这配方居然还有零有整的,而苹果就是研究出这个配方的厨子。。。
还有一点就是, MM1 也用上了最近流行的混合专家 MoE 架构,这种架构能给模型大脑扩容( 提高参数量 )的同时,又不会影响到模型推理速度。
这个 MoE 架构可以理解成,把一个模型拆成好几个 “ 专家 ” ,每个专家负责处理不同的任务。
假设你去医院看病,传统模型就像一个全科医生,他可以处理各种疾病,但没法子做到科科都精通。
MoE 架构则更像一个医院,它有不同的科室,医院系统会根据你的病情调一个最适合的科室大夫,既不会浪费医疗资源,又能给你提供更专业的医疗建议。
这次,苹果就搞了一个有 64 个专家的 30 亿参数模型,和一个有 32 个专家的 70 亿参数模型。
反正经苹果这么一调教,按照他们的说法, MM1 已经在某些领域超过了群内同行,达到了 SOTA ,也就是目前最先进的水平。
SOTA 的定语有点长,大家细品
最后世超想说的是,之前在 2024 苹果*大会上,库克就提过苹果今年要在 GenAI 领域大展拳脚。
而这篇论文,或许可以看作是苹果进入生成式 AI 领域的一块敲门砖,也变相跟外界解释了一波其实他们一直都在紧跟潮流,没有外界说得那么落伍。
还有论文里的发现,虽说有些零散,但好歹也让以后的大模型炼丹,有了些方向。
不过咱也说实话,且不和微软、谷歌这些大模型第一梯队的比了。。。
单是国内主流手机厂商,都已经吹响了 AI 大模型手机的冲锋号角,魅族要 All in AI , OPPO 成立了 AI 中心,华为的鸿蒙 4.0 也接入了盘古大模型。
苹果再不整,可就真来不及了。
最后,如果这大模型能成,我对他的要求就一个,求求给 siri 换个好使的脑子吧。。。
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved