神秘大模型火速“刷屏”，网友竞猜GPT-4.5要来了，奥特曼神秘莫测地只说了一句话！（旋转立方体）

整理 | 苏宓

出品 | CSDN（ID：CSDNnews）

强大的东西往往都是以最朴实无华的形式出现。在没有官宣、没有炒作的氛围中，昨夜，一款名为“gpt2-Chatbot”的模型*出重围，在 AI 社区迅速刷屏，引得不少人火速围观。

让人惊奇的是，这款 gpt2-chatbot 模型宛如“天降”，没有人知道它是谁造出来的，也没有人知道这到底是个什么。

接下来要问它是如何吸引众人的关注的，那只能说它是凭实力的。

起初，只是有用户在 LLM 基准测试网站（chat.lmsys.org）上使用大模型时发现可用的模型列表中多了一个选项，即 gpt2-chatbot，这个网站可以使得用户能够与各种 LLM 聊天并评价它们的输出，而无需登录。

在好奇心驱使下，网友们开始了这种新模型的尝试，结果意外发现：它似乎与 GPT-4 处于相同的能力水平。

一款刚出炉的大模型，其性能就能比肩 GPT-4，甚至超过 GPT-4，可想而知，它带给大家的震撼力了.......

gpt2-chatbot 的能力如何？

接下来，我们也将从用户的评测中初次感受一波 gpt2-chatbot 的性能情况。

如基于 GPT-4-Turbo 使用 TikZ 绘制的独角兽图案，长这个样子：

gpt2-chatbot 使用 TikZ 绘制的独角兽图案，得到如下结果：

也有人将 gpt2-chatbot 与 Claude 3 Opus 的输出进行了比对，下图左边为 gpt2-chatbot，右边为 Claude 3 Opus：

绘制的效果显而易见，gpt2-chatbot 要比 GPT-4、Claude 3 Opus 更胜一筹。

如果说这个有些小儿科了，那么斯坦福的一名研究员 Andrew Gao 也分享了他的测试结果，并表示：

gpt2-chatbot 刚刚一次性解决了国际数学奥林匹克 (IMO) 问题

IMO 难度非常大。只有美国数学成绩最好的四名学生才有资格参加

再来看看 gpt2-chatbot 的规划能力，它可以有效提出潜在的网站或者潜在的搜索查询。而 GPT-4 只能给出了一个更模糊的答案。

在逻辑推理方面，一直专注于 AI 技术的 Florian S 用户表示，“可以肯定 gpt2-chatbot 很好。很少有模型能做到这一点。”

在示例中，他提出了一个问题：“今天我有三个苹果。昨天吃了一个，我有多少个苹果？”

对此，gpt2-chatbot 的回答是：「你今天有三个苹果。你昨天吃了一个苹果并不影响你今天有多少个苹果。你目前有三个苹果」。

与之形成鲜明对比的是：

最新 ChatGPT 4 的回答：你还有两个苹果。

Claude-3 Opus：你还有两个苹果。

Gemini Ultra：如果你一开始有三个苹果，吃了一个，你还剩两个苹果。

Llama3-70b-8192：我们来数苹果吧！你一开始有 3 个苹果，吃了 1 个，所以要知道你还剩几个苹果，我们可以用 3 减 1：3-1=2。所以，你还剩 2 个苹果!

再来尝试一次在 PyOpenGL 中一次性生成旋转 3D 立方体，其中GPT2-Chatbot 和 GPT-4-1106-Preview，第一次尝试变成功：

而 gpt-4-0613 和 gemini-1.5-pro-api-0409-preview 通过3 次尝试后得到了一些错误输出，如“OpenGL.error.FunctionError：尝试调用未定义的函数 glutInit，在调用之前检查 bool（glutInit）“以及其他错误等等。

claude-3-sonnet-20240229也是经过了 3 次尝试，得到了一个 PyOpenGL 窗口，各种几何形状旋转得非常快。

网友：我怀疑它与 OpenAI 有关，但是没有实质性的证据

综合以上种种，如果是制造出“gpt2-chatbot” 的开发商没有 AI 大模型的基础，显然不可信，而带来了这款大模型但却不留名，只留下各方网友不断地深挖蛛丝马迹来探究其来源。

对此，一位名为 DesuAnon 的 Prompt 工程师汇总整理了其发现的种种关于 gpt2-chatbot 的细节（https://rentry.co/GPT2）：

“gpt2-chatbot”似乎使用了 OpenAI 的“tiktoken”分词器（tokenizer），通过比较特殊 tokens 对“gpt2-chatbot”和其他多个模型的影响已经验证了这一点。
当要求提供“provider”的联系方式时，它始终会向 OpenAI 提供非常详细的联系信息（比 GPT-3.5/4 更详细）。
它始终声称是基于 GPT-4，并将自己称为“ChatGPT”或“a ChatGPT”。它表现出来的方式通常与其他组织模型的幻想回复有所不同，这些模型是使用由 OpenAI 模型创建的数据集进行训练的。
它展示了 OpenAI 特定的提示注入漏洞，并且从未声称属于除 OpenAI 外的任何其他实体。
在相同提示词下，gpt2-chatbot 和 Anthropic、Meta、Mistral、Google 公司等模型提供了不同的输出。
GPT2-chatbot 的速率限制与 GPT-4 模型在直接聊天时是不同的，前者每人每天有 8 条消息的限制。按照这样的规则，GPT2-chatbot 每日用户限制或某些其他总服务限制实际上比 GPT-4 模型更严格，这可能意味着该模型在计算方面更昂贵，并且提供计算资源的人更希望用户使用 Arena（Battle）模式来生成基准测试。当用户达到每日用户限制时，他们会被引导到 Battle 模式。

MODEL_HOURLY_LIMIT (gpt-4-turbo-2024-04-09): 200 [=4800 replies per day, service total]MODEL_HOURLY_LIMIT (gpt-4-1106-preview): 100 [= 2400 replies per day, service total]USER_DAILY_LIMIT (gpt2-chatbot): 8 [per user]

综合这些信息，很难不把它和 OpenAI 联系到一起。

基于此，DesuAnon 也给出了自己的推测：

gpt2-chatbot 可能是 GPT-4.5，作为 OpenAI 另一系列“增量”模型更新的一部分，它看起来不太可能是 GPT-5。总体上，gpt2-chatbot 输出的质量，特别是其格式、结构和整体理解能力都非常出色。

对我来说，它感觉就像是从 GPT-3.5 进化到 GPT-4，但是使用了 GPT-4 作为起点。该模型的结构化回复似乎受到了诸如修改后的 CoT（Chain-of-Thought）等技术的强烈影响。

目前没有足够的理由相信这个神秘模型使用了全新的架构。尚未调查的可能性是，LMSYS（可能是指某个组织或系统）已经建立了类似于 MoE（Mixture of Experts）的概念，充当其连接模型的路由器（适配器）。有可能 LMSYS 已经训练了他们自己的模型。我鼓励人们保持怀疑态度，注意确认偏见，并保持基于证据的思维方式。最简单的解释可能是这是由 LMSYS 内部的某种服务配置错误造成的结果。

除此之外，DesuAnon 还提出了一种可能性，这个特定的模型可能是 OpenAI 秘密投放，用于对其最新的 GPT 模型进行基准测试，但不会大张旗鼓地对外宣布，主要原因或有三个：