Anthropic找到了打败OpenAI的方法：自己也成为OpenAI（机器人竞技场）

最近Anthropic真是风头正盛，堪称赢麻了。

亚马逊刚刚宣布，再次对它追加27.5亿美元投资，共同加速生成式人工智能发展。加上去年9月投入的12.5亿美元，总共豪掷超过40亿美元，成为亚马逊三十年历史上最大的对外投资，也令Anthropic从去年至今的融资额一举超过100亿美元。

而公司开发的旗舰大模型Claude 3全家桶自推出20多天以来，也一路好评无数、口碑爆棚，并在最新的Chatbot Arena排行榜上正式打败GPT-4，首次登上王位。

Claude 3打趴GPT-4，跃居用户体验榜首

我们知道，每当一款新的大模型推出时，都会拿GPT-4来作比较。拉出一张包括MMLU、数学、推理、编程等各项测试的跑分对照表，证明自己哪些参数已经赶超GPT-4。但归根结底，模型终究是给人用的，到底是不是真的比GPT-4厉害，还得是实际用户体验说了算。

昨天，Chatbot Arena新鲜出炉了截至3月26日的聊天机器人对战榜成绩。

在收集了来自47.7万多野生用户对于市面上75款大模型的匿名投票后，Claude 3 超大杯Opus在群众的呼声中力压群雄，打败GPT-4 Turbo成功登顶第1名。大杯Sonnet排名第4，就连 Claude最轻巧的中杯Haiku都超越了初版GPT-4和欧洲新贵Mistral Large，位列第6名。

与此同时Google仅Gemini Pro一员大将*入前十，来自阿里巴巴的通义千问排在第9。

如果说Anthropic发布Claude 3时引发的“大模型王位易主”讨论还存在参数争议，那么经过近一个月的场下实测，Claude 3的确用实力证明了自己比GPT-4更能打，成为目前LLM争霸赛的最大赢家。

社区用户Peter Gostev还根据Chatbot Arena排行榜制作了从23年5月到24年3月，Top15大模型的动态演变史，清晰展现Claude 3势如破竹的“上位”全过程。

对榜单不熟悉的朋友，我们先一起来看看它是怎么打分的。

Chatbot Arena（聊天机器人竞技场）是由UC Berkley、UCSD和CMU合作研究组织LMSYS Org开发的LLM测试平台，通过众包方式进行匿名随机对战，评估和排名不同的语言模型。

具体规则是：用户向两个匿名模型输入同一个问题，然后对它们各自生成的答案进行评价，选择模型A更好、B更好、平手或都很差。它支持多轮对话，直到用户认定赢家。并且如果在对话过程中泄露了模型身份，那么投票将不会被计入。最终，Chatbot Arena会采用类似于国际象棋等竞技游戏中广泛使用的Elo评分机制，来综合评估大模型能力。

可以看出，与常见的Benchmarks跑分不同，Arena Elo 排行榜成绩完全是基于人类用户的使用体验和真实反馈，在实用性上更具参考价值。

Chatbot Arena还放出一系列白热化的后台对战数据。

模型A在所有非平局Battle中战胜模型B的比例：

每一组模型组合（不包括平局）的对战次数：

公布这一结果的LMSYS Org认为，更让人印象深刻的是Claude 3 Haiku。作为全家桶中最轻量级的模型，它的用户偏好已达到与GPT-4相当的水平，综合其速度、能力和200k上下文长度，在市场上现在无人能敌。（同时也夸了一下自家伯克利团队开发的Starling-LM-7B-beta近期攀升迅速，是市面上最好的7B开源模型。）

许多网友也纷纷注意到了这点，为Haiku鼓掌叫好：“我们拥有了一个GPT-4水平但比它便宜10倍的模型！”

Antrohpic工程师@alexalbert_亲自解释说，Haiku模型的价格和速度被严重低估：“据估计，普通人一生大概会说8.6亿个单词，相当于约12亿个标记。而Haiku的价格是每百万标记输入0.25美元。意味着你仅花费300美元就可以让Haiku处理一个人一生中说的所有话。更疯狂的是，Haiku可以每秒读取高达2.4万个标记。也就是说只需5000秒，大约83分钟内，就能分析完一个人一生的经历。”

人们表示给新王跪了， Claude 3 Opus确实树立了新的AI行业标准，现实中使用率更高。

“我真得更喜欢Claude。我只是使用免费版Sonnet并与GPT-4进行比较，对于日常对话和事实核实，它似乎更加智能。GPT-4在编程方面仍占据主导地位，但我并不是特别相信它真有那么优秀。”

“苹果应该考虑和Anthropic合作，让Claude作为iPhone手机的配套AI。”

——这还真有可能。最近有新的传言流出，iOS 18的AI供应商也许会由Google Gemini悄悄换成Claude 3。Sam Altman因为一直想做AI硬件不被考虑，而安卓集成Gemini后会削弱iOS的独特性，此时人畜无害又口碑爆炸的 Claude 3似乎才是最佳选择，扶持它也能让AI竞赛拖得更久更均衡。相信这些到苹果6月的WWDC开发者大会便会见分晓。

丰富民间用例验证，六边形战士Claude 3

推上也有不少人展示了自己在日常工作中使用Claude 3的一些惊艳实例。

HyperWriteAI 公司CEO Matt Shumer分享了一个用于生成高质量提示的工具「claude-prompt-engineer」。用户只需描述任务和输入变量，Claude 3就会帮你生成许多候选提示，并在排名赛中针对每个用例测试，最后返回最佳提示。

他表示之前的版本接入的是GPT-4，而现在选用Claude 3编写出的提示比GPT-4质量要高得多。这个工具能自动生成测试用例，支持多变量，进一步自动化prompt engineering的工作流程，他本人已经在实际工作中使用，极大提升了效率。

他还做了一个使用 Claude 3 的开源投资分析师代理「claude-investor」。用户提供一个行业，就能快速查找主要公司的财务数据和新闻、分析每个公司的舆情和趋势，并根据投资潜力和目标价格对股票进行排名。

通过 Claude 3 强大的海量数据分析能力，生成详细的投资报告，帮助使用者查找高增长潜力的科技公司，跟踪投资组合中的股票表现，识别投资机会。从金融从业者到炒股小白都可以直接使用，很受社区欢迎。

用户@dr_cintas使用Claude 3生成了效果拔群的勾股定理演示动画。解锁了以动态视觉轻松解释各种原理的可能性。

再更生活化一些的例子也有。在宜家买过家具的同学都知道，看组装说明书实在是一项耗费脑细胞的活儿。用户@gabchuayz借助Claude 3强大的图像推理能力大大简化了这一流程。直接把说明书喂给模型，就生成简洁清晰的操作步骤。他在对比 GPT-4后认为Claude 3输出的结果更具可读性，还能辨认出细小零件的编号，非常实用。

Claude 3在代码审查和测试方面的潜力也得到了专业人士验证。

纽约大学Tandon工学院助理教授Brendan Dolan-Gavitt在X分享到，他将一个在GitHub上找到的小型C语言GIF解码库全部源代码提供给Claude 3，并要求它编写一个Python函数用于生成随机的GIF图像，以测试解码器的解析能力。结果这个GIF生成器在解码器中覆盖了92%的代码行，并发现了4个内存安全性漏洞和一个程序挂起问题。证明Claude 3完全有能力成为人类程序员的工作助手。

ChatGPT又变懒了？用户：弃

不过也有人觉得Claude 3厉害是厉害，但并不能代表OpenAI落于人后。毕竟GPT-4是22年夏天训练的，按照惯例，奥特曼的工具箱里早就准备好新武器了。

“Claude现在是顶级的中央控制AI模型，GPT-4长期的统治已经结束。但这一情况将随着一个被称为GPT-5的新秘密模型而改变。”

“Opus可以享受这种喜悦，直到GPT-5发布那天”。

但问题是....GPT-5到底在哪儿呢？

不久前Sam Altman在Lex Friedman最新的播客采访中提到过，OpenAI的目标绝不是给世界带来令人震惊的更新，而是恰恰相反，渐进式达到每一个里程碑，因此下一代LLM会考虑以一种新的形式与公众见面。但他也坚定表示，今年会官宣一个令人惊叹的新模型，不管是不是叫GPT-5。在那之前，还会有其它东西先发布。

或许是加上各种事件和官司缠身， OpenAI现在的行事风格确实不像以往那么激进了。最新推特是今天刚刚发布的准备与小部分美国开发者合作，测试基于访问量的GPT盈利模式的消息。“我们的目标是创造一个活跃的生态系统，在这里开发者因其创造力和影响力而获得奖励。”

然后底下的评论可想而知，似乎少有人关心这个已经被Poe玩了好几个月的创作者共享经济模式，满满都是在问什么时候发布GPT-5和开放Sora。

可以清晰感受到，随着Claude 3这类优秀大模型的卓越性能被大量用户亲自验证，人们对于OpenAI的耐心越来越低，对ChatGPT要求的门槛也越来越高。加上GPT-4最近又开始不给力，过去曾出现过的“变懒变傻”问题再次重演，引得大批网友在推特抱怨讨伐，纷纷倒戈转向了Claude 3（包括本人在内）。

“使用了4个月之后，我决定放弃ChatGPT Plus。GPT-4经常变得懒惰、缓慢、产生幻觉。与此同时我使用了免费的Claude 3 sonnet模型，它在上下文记忆、长回复以及速度方面给人留下了深刻印象——对程序员来说简直棒极了。正在考虑升级到高级版的Claude。请OpenAI尽快修复GPT-4的问题。”

其实，诸如Sora这些技术再超前，没有真正走向市场让人们上手用到，也只是望梅止渴的镜花水月。而今一个主打公平公正，由近50万用户验证后投票的Chatbot Arena榜单放出，足以见Claude 3是凭实力拿下的新王之位。

而无论是OpenAI还是Google等公司都应该清楚认识到，在GenAI浪潮里陪他们一起翻滚了两年多的用户们也早就练出来了，大家对于新模型的适应性和流动性是很强的。换句话说，没有谁真得离不开谁，单纯靠信仰的时代已过，体验跟不上、更新不及时，用户就会流失，好用才是硬道理。

打败OpenAI的方法是成为OpenAI

Anthropic在发布Claude 3时承诺过，会在接下来的几个月内对该系列进行频繁更新。发布一系列功能来增强模型性能，包括工具使用、交互式编码和更高级的代理能力等。对企业用例和大规模部署也会有新动作。

作为一家自我定义为“人工智能安全公司”的AI企业，现在的Anthropic似乎在慢慢远离起初低调谨慎、时刻强调安全的行事作风，节奏变得越发主动强势。而以往人们在推特上见惯了OpenAI、DeepMind的AI大咖输出意见，却鲜少见到Anthropic工程师们的身影。最近这一人群仿佛也跟着Claude 3的大火走向台前高调起来，成为人们关注的技术KOL。

再加上亚马逊总共40亿美元巨资入池，双方达成更深入的人工智能合作。Anthropic把AWS作为其关键工作负载的主要云提供商，使用亚马逊Trainium和Inferentia芯片来训练和部署未来模型，并向全球AWS客户提供未来几代基础模型在Amazon Bedrock上的访问权限。

今天亚马逊之于Anthropic的模式，怎么看怎么像曾经的微软之于OpenAI。按照这个路线，Anthropic很有可能在商业化版图中铺开更大的摊子，野心勃勃地跟亚马逊合力打造另一个AI帝国。等到苹果选择哪家AI供应商的靴子落地，全球科技巨头 AI公司的竞争格局又将被重新洗牌。

Anthropic已经找到了打败OpenAI的方法，那就是成为OpenAI。

也许，留给OpenAI的时间真得不多了。

查看全文