整理 | 苏宓
出品 | CSDN(ID:CSDNnews)
强大的东西往往都是以最朴实无华的形式出现。在没有官宣、没有炒作的氛围中,昨夜,一款名为“gpt2-Chatbot”的模型*出重围,在 AI 社区迅速刷屏,引得不少人火速围观。
让人惊奇的是,这款 gpt2-chatbot 模型宛如“天降”,没有人知道它是谁造出来的,也没有人知道这到底是个什么。
接下来要问它是如何吸引众人的关注的,那只能说它是凭实力的。
起初,只是有用户在 LLM 基准测试网站(chat.lmsys.org)上使用大模型时发现可用的模型列表中多了一个选项,即 gpt2-chatbot,这个网站可以使得用户能够与各种 LLM 聊天并评价它们的输出,而无需登录。
在好奇心驱使下,网友们开始了这种新模型的尝试,结果意外发现:它似乎与 GPT-4 处于相同的能力水平。
一款刚出炉的大模型,其性能就能比肩 GPT-4,甚至超过 GPT-4,可想而知,它带给大家的震撼力了.......
gpt2-chatbot 的能力如何?
接下来,我们也将从用户的评测中初次感受一波 gpt2-chatbot 的性能情况。
如基于 GPT-4-Turbo 使用 TikZ 绘制的独角兽图案,长这个样子:
gpt2-chatbot 使用 TikZ 绘制的独角兽图案,得到如下结果:
也有人将 gpt2-chatbot 与 Claude 3 Opus 的输出进行了比对,下图左边为 gpt2-chatbot,右边为 Claude 3 Opus:
绘制的效果显而易见,gpt2-chatbot 要比 GPT-4、Claude 3 Opus 更胜一筹。
如果说这个有些小儿科了,那么斯坦福的一名研究员 Andrew Gao 也分享了他的测试结果,并表示:
gpt2-chatbot 刚刚一次性解决了国际数学奥林匹克 (IMO) 问题
IMO 难度非常大。只有美国数学成绩最好的四名学生才有资格参加
再来看看 gpt2-chatbot 的规划能力,它可以有效提出潜在的网站或者潜在的搜索查询。而 GPT-4 只能给出了一个更模糊的答案。
在逻辑推理方面,一直专注于 AI 技术的 Florian S 用户表示,“可以肯定 gpt2-chatbot 很好。很少有模型能做到这一点。”
在示例中,他提出了一个问题:“今天我有三个苹果。昨天吃了一个,我有多少个苹果?”
对此,gpt2-chatbot 的回答是:「你今天有三个苹果。你昨天吃了一个苹果并不影响你今天有多少个苹果。你目前有三个苹果」。
与之形成鲜明对比的是:
最新 ChatGPT 4 的回答:你还有两个苹果。
Claude-3 Opus:你还有两个苹果。
Gemini Ultra:如果你一开始有三个苹果,吃了一个,你还剩两个苹果。
Llama3-70b-8192:我们来数苹果吧!你一开始有 3 个苹果,吃了 1 个,所以要知道你还剩几个苹果,我们可以用 3 减 1:3-1=2。所以,你还剩 2 个苹果!
再来尝试一次在 PyOpenGL 中一次性生成旋转 3D 立方体,其中GPT2-Chatbot 和 GPT-4-1106-Preview,第一次尝试变成功:
而 gpt-4-0613 和 gemini-1.5-pro-api-0409-preview 通过3 次尝试后得到了一些错误输出,如“OpenGL.error.FunctionError:尝试调用未定义的函数 glutInit,在调用之前检查 bool(glutInit)“以及其他错误等等。
claude-3-sonnet-20240229也是经过了 3 次尝试,得到了一个 PyOpenGL 窗口,各种几何形状旋转得非常快。
网友:我怀疑它与 OpenAI 有关,但是没有实质性的证据
综合以上种种,如果是制造出“gpt2-chatbot” 的开发商没有 AI 大模型的基础,显然不可信,而带来了这款大模型但却不留名,只留下各方网友不断地深挖蛛丝马迹来探究其来源。
对此,一位名为 DesuAnon 的 Prompt 工程师汇总整理了其发现的种种关于 gpt2-chatbot 的细节(https://rentry.co/GPT2):
“gpt2-chatbot”似乎使用了 OpenAI 的“tiktoken”分词器(tokenizer),通过比较特殊 tokens 对“gpt2-chatbot”和其他多个模型的影响已经验证了这一点。
当要求提供“provider”的联系方式时,它始终会向 OpenAI 提供非常详细的联系信息(比 GPT-3.5/4 更详细)。
它始终声称是基于 GPT-4,并将自己称为“ChatGPT”或“a ChatGPT”。它表现出来的方式通常与其他组织模型的幻想回复有所不同,这些模型是使用由 OpenAI 模型创建的数据集进行训练的。
它展示了 OpenAI 特定的提示注入漏洞,并且从未声称属于除 OpenAI 外的任何其他实体。
在相同提示词下,gpt2-chatbot 和 Anthropic、Meta、Mistral、Google 公司等模型提供了不同的输出。
GPT2-chatbot 的速率限制与 GPT-4 模型在直接聊天时是不同的,前者每人每天有 8 条消息的限制。按照这样的规则,GPT2-chatbot 每日用户限制或某些其他总服务限制实际上比 GPT-4 模型更严格,这可能意味着该模型在计算方面更昂贵,并且提供计算资源的人更希望用户使用 Arena(Battle)模式来生成基准测试。当用户达到每日用户限制时,他们会被引导到 Battle 模式。
MODEL_HOURLY_LIMIT (gpt-4-turbo-2024-04-09): 200 [=4800 replies per day, service total]
MODEL_HOURLY_LIMIT (gpt-4-1106-preview): 100 [= 2400 replies per day, service total]
USER_DAILY_LIMIT (gpt2-chatbot): 8 [per user]
综合这些信息,很难不把它和 OpenAI 联系到一起。
基于此,DesuAnon 也给出了自己的推测:
gpt2-chatbot 可能是 GPT-4.5,作为 OpenAI 另一系列“增量”模型更新的一部分,它看起来不太可能是 GPT-5。总体上,gpt2-chatbot 输出的质量,特别是其格式、结构和整体理解能力都非常出色。
对我来说,它感觉就像是从 GPT-3.5 进化到 GPT-4,但是使用了 GPT-4 作为起点。该模型的结构化回复似乎受到了诸如修改后的 CoT(Chain-of-Thought)等技术的强烈影响。
目前没有足够的理由相信这个神秘模型使用了全新的架构。尚未调查的可能性是,LMSYS(可能是指某个组织或系统)已经建立了类似于 MoE(Mixture of Experts)的概念,充当其连接模型的路由器(适配器)。有可能 LMSYS 已经训练了他们自己的模型。我鼓励人们保持怀疑态度,注意确认偏见,并保持基于证据的思维方式。最简单的解释可能是这是由 LMSYS 内部的某种服务配置错误造成的结果。
除此之外,DesuAnon 还提出了一种可能性,这个特定的模型可能是 OpenAI 秘密投放,用于对其最新的 GPT 模型进行基准测试,但不会大张旗鼓地对外宣布,主要原因或有三个:
获得“普通基准”测试的回复;
避免由于期望值过高,导致模型输出的结果让用户产生负面评价或者偏见;
减少受到其他竞争实体的“大规模负评/群攻”的可能性。
通过现在在 LMSYS 基准测试网站上上线,由 OpenAI 提供计算资源,而 LMSYS 如往常一样提供前端服务,同时他们还从用户互动中获得了异常高质量的数据集。如果真是如此,两家可谓是实现了双赢。
面对外界的推测,OpenAI CEO 也在此时为舆论添了一把火,和网友打起了“哑谜”。他一大早在社交媒体平台 X 上说了一句晦暗不明的话——“我确实对 gpt2 情有独钟”。
如同福尔摩斯的网友发现,Sam Altman 的这条推文是经过编辑的,那么编辑之前发布的原版内容是什么?
在他的评论区下方的热评中,网友 MachDiamonds 揭晓了答案:
值得细品的是,从 gpt-2 到 gpt2 的改写似乎是更为严谨的写法,毕竟 GPT-2 是 OpenAI 于 2019 年推出模型,而去掉破折号之后的 gpt2,可供想象的空间也更大了,网友 MachDiamonds 锐评道,“所以这个是第二代 GPT,而不是 GPT-2”。
写在最后
截至目前,不止 OpenAI,也并未有其他组织机构出面认领这款模型,甚至就连 GitHub 前 CEO Nat Friedman 也加入了“猜测大军”中,他发起了一个关于“gpt2-chatbot 到底是什么”的投票。
当前,有 36.6% 的网友认为这是一个其他的东西,也有差不多比例的用户认为这就是 OpenAI 的 GPT-4.5 早期版本。
你觉得它会是什么呢?
时下对于感兴趣的小伙伴,可以使用这个链接(https://chat.lmsys.org/)并选择 gpt2-chatbot,就能试用了。
你可以测试直接聊天功能,需要注意的是,只能发送 8 条消息,然后切换到“Battle”模式,并选择或重新选择模型选项。随时点击反馈按钮;可能需要提供一定数量的评分,才能继续使用该聊天模式。
参考:
https://chat.lmsys.org/
https://rentry.co/GPT2
https://twitter.com/natfriedman/status/1785175894828749187
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved