从OpenAI发布基于GPT-3.5的到近期发布ChatGPT4.0,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮,瞬间引爆国内互联网大厂大模型的热潮。仅仅经过半年多的时间,不少头部互联网公司和人工智能公司基本都对外宣布了自己的大模型,国内已出现了“百模大战”的局面,甚至可能马上会到“群模乱舞”盛世。
展示Top20,仅供参考,如需要关注私信
现有国内公开的AI大模型数量为238个,近五成集中在北京,达到10亿参数大模型的已达80个,位列全球第二。参数大模型的建造离不开综合算力资源、算法人才、数据积累及产品研发几大核心要素。事实也正是如此,目前国内只有大厂才有大量资金和人才发展算力、算法、数据,也最有机会率先落地大模型。
真实现状就是除了头部大公司不断的进一步分析了这些大模型,其实目前真正能用的还是寥寥无几,从大模型的名字来看,可知大家为了取名大费苦心,建一个官网可查,然后声势越浩大越好,开一个新闻发布会,但大部分进入官网查看点击,也无法试用!
ChatGPT问世以来,我一直用到现在,包括的ChatGPT4.0;同时挖掘Poe的一些性能和使用场景等。
GPT 3.5现在已经非常成熟,且场景主要做短平快的事情,比如将乱七八糟的文本转换成标准格式,或整理一些逻辑性和短文本生成,关键不限次数且非常好用。
GPT4近期开始大量使用,目前看起来长文本生成能力很强,适合写作,写小短文,日常工作用来偷懒很好,其次它的稳定性和正确性对比3.5强太多,但使用次数会受到一定的限制,例如25次/3小时,根据自身的需求来定制使用频率。
Poe使用它的好处是集成了GPT4,Claude,和google的PalM,可以在一个APP里同时使用这几个,个人推挤Claude 。如果你正好在毕业季或者需要写论文,和公司经营规划,推荐使用Claude-instant-100k,因为可以输入10万个字符。把你看到的名人名家的智慧通过Claude-instant-100k,可以将一整篇文章进行分析,美中不足就是要收取一定的费用。
SuperCLUE测评数据
对比国外的快速发展,国内大厂大模型还处于成长期的。引用SuperCLUE测评数据,国外代表性模型的平均成绩为71 .23分,国内代表性模型平均成绩为60.48分,模型的能力差距还是非常明显的。GPT4-Turbo总分89.79分遥遥领先。高于国内所有大模型及国外代表性大模型。其中国内最好模型文心一言4.0总分74.02分,距离GPT4-Turbo有15.77分
但要肯定的是过去1年国内大模型已经有了长足的进步。综合能力超过GPT3.5的模型有8个,分别为百度的文心一言4.0、零一万物的Yi-34B-Chat、月之暗面的Moonshot、vivo的BlueLM、腾讯的混元阿里云的通义千问2.0、清华&智谱AI的ChatGLM3、字节跳动的云雀
全球来看,国内开源模型在中文上表现要好于国外开源模型,如百川智能的Baichuan2-13B-Chat、元象科技的XVERSE-13B-Chat-2、阿里云的Qwen-14、ChatGLM3-6B的成绩均大幅优于Llama2-13B-Chat。国内中文目前发展我个人觉得,我个人觉得文心一言、盘古、走在前列。
国内外能力对比
强大的中文对话能力:从模型来看,文心一言是高度本土化的AI模型,更加匹配中文环境的使用习惯,作为百度基本盘的搜索业务,不仅能够提供巨大的基础数据,而且在中文搜索上具有显著优势。甚至近期,在AGIEval、C-Eval等中英文权威测试集和MMLU英文权威测试集中,文心大模型3.5取得了超过ChatGPT和LLaMa、ChatGLM等其他大模型的分数表现,在中文评测项中超越了GPT-4。
阿里的“通义千问”大模型来看,调子起的非常高,强调算力,助力AI普及。即让每家企业的产品都能接入大模型升级改造,并有能力打造自己的专属大模型。作为大语言模型,通义千问与ChatGPT类似,它支持多轮交互及复杂指令理解、多模态融合以及外部增强API,能够实现多轮对话、文案创作、逻辑推理、多模态理解、多语言支持等功能。从阿里过去的商业判断,更多服务阿里自身淘系电商业务和阿里妈妈级生态伙伴。比如电商的智能客服、智能导购、智能语音助手;同时还可介入企业钉钉,只需上传一张功能草图,不用写一行代码,可立刻生成订餐等的轻应用;还可接入天猫精灵变得更拟人更聪明,知识、情感、个性、记忆能力大幅跃升,这就是为什么把夸克、钉钉定义未来的战略级业务。
腾讯的混元大模型已广泛应用于腾讯微信搜索、腾讯广告和腾讯游戏等业务场景。腾讯强大的算力集群和混元大模型为引擎,全力优化自身的业务生态,包括计算机视觉、自然语言处理、多模态内容理解、文案生成、文生视频等多个方向。
对比阿里的高调子,服务国内通讯行业的大佬华为更强调产业落地应用,深耕行业服务,显得更加务实。盘古大模型是一个汇聚深度学习技术的大规模AI模型。这一模型采用三层体系,包括L0基础大模型、L1行业大模型和L2场景模型。其设计目标是推动AI工业化进程,为各行业提供强大的技术支撑。华为云盘古大模型已经在100多个行业场景完成验证,包括医药研发、电力、煤矿、气象、小语种等。
讯飞星火采用“1 N”架构,“1”是通用认知智能大模型算法研发及高效训练底座平台,“N”是应用于教育、医疗、人机交互、办公、翻译、工业等多个行业领域的专用大模型版本。对比前面的几个互联网公司来看,科大讯飞更多围绕面向生活、工作等用户高频使用场景上线200多个小助手,将打造大模型时代的随身助手,这也贴合自身企业战略。
获央视点赞,深耕游戏AI技术。“玉言”大模型脱胎于网易伏羲,训练语料主要来自小说、百科和新闻等,模型规模从最早的一亿参数增长至千亿参数,模型领域也从文本拓展到图文、音乐、行为序列等多种模态,其具备的自然语言处理能力可应用于语言助手文本创作、新闻传媒、智能客服等领域,甚至在多项任务上超过人类水平。曾拿下中文语言理解权威测评基准CLUE分类任务榜单冠军。
打造AI数字人,360 AI数字人平台上拥有200多个角色,分为数字名人和数字员工两大类。数字名人包括历史人物、偶像明星、文学形象等,用户可以通过和数字角色进行对话,沉浸式地与角色们交流。此外,360AI数字人支持定制,每个人都能通过上传私人知识库,低成本生成自己的专属数字人,如数字分身、数字助理、数字偶像等。360AI智脑已具备生成与创作、多轮对话、代码能力、文本分类、文本改写、阅读理解、逻辑与推理、知识问答、多模态、翻译等十大核心能力,维度涵盖数百项细分功能,可覆盖大模型全部应用场景。但大众对于360做事的风格,更趋向于强行使用、无法删除。
GPT言犀则赋能电商服务形态,比较勉强且显得底气不足。言犀大模型预训练参数达到千亿级,品类覆盖3000 ,人工审核通过率95% 、生成文字30亿 。除了模型规模持续扩充外,京东大模型同时支持多模态,包括图片生成、语音生成、数字人生成等维度。具体的应用案例包括AI数字人采访、商品图片制作、艺术品创作、数字人直播带货等。这些优势可以在客户咨询与服务、营销文案生成、商品摘要生成、电商直播、数字人、研报生成、金融分析等领域发挥广泛价值。
国内代表追赶国际领先大模型同时,不由得让人更加期国产大模型的表现。在新的大模型竞争中,创业公司和大厂都有一定的优势。大厂有多年积累和大量用户的优势,可以大量获得用户数据和反馈。但一线创业公司同样存在快速技术迭代的优势。例如零一万物的Yi-34B-Chat、腾讯的混元。
用一个待评估模型与一个基准模型(GPT3.5)进行对比,看看国产大模型VS国际大模型对战胜率分布图的表现。
数据对SuperCLUE大模型对战胜率分布图
结论如下
最终胜率来看:GPT4-Turbo对GPT3.5在各项能力上的全面压倒性优势。全球领跑者GPT4-Turbo胜率为49.34%,和率为48.19%大幅领先于其他模型,而败率仅为2.4%。
从胜率的趋势来看国内模型中,零一万物的Yi-34B-Chat和百度的文心一言4.0属于第一梯队,通义千问2.0、云雀大模型相对落后。
语言理解与生成能力对比
语言理解与生成能力对比:在语言理解与生成维度的测评中,GPT-4 Turbo依然领先,是唯一超 过90分的大模型。国内大模型也表现相对较好,有3个模型的得分高于 GPT4,其中清华&智谱AI的ChatGLM3-Turbo表现出色排名国内第一。在中文语言理解与生成的能力上,国内大模型已基本追赶上国外头部大模型,在未来也最可能成为率先形成超越的维度之一。
专业技能与知识能力对比
专业技能与知识能力对比:总体来看,在专业技能与知识能力上,与国外最好模型依然有较大距离。GPT-4 Turbo大幅度领先,是唯一过90分的大模型,国内中文心一言4.0表现不俗,取得81.74的高分。是国内模型中唯一超过80分的大模型。
主观和客观对比:通过对比模型在主观和客观上的反馈,国内大模型多数擅长做选择题和判断题,这也符合中国人的思维和工作思考习惯,就像我们应对各类考试一样。对比我们也看到GPT4和GPT3.5的稳定性有所下降,原因是对比中很多场景是符合中文特性。
截止到11月份大模型现状
OpenAI CEO阿尔特曼表示,规模越大并不一定意味着模型越好,而可能只是为了追求一个数字而已。我更希望国内的互联网大厂更加关注参数规模与模型性能之间的关系。目前AI给整个产业,甚至整个社会带来的变革,或许正在中国加速爆发,在14亿人口的中国,通用大模型也不是模型应用的唯一方向,面向垂直产业的模型会成为大模型价值的引爆点,出于对模型的经济性考量AI大模型在B端应用未来将呈现阶梯式需求。
原创不易,请各位点赞关注观看,谢谢!
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved