神秘大模型火速“刷屏”,网友竞猜GPT-4.5要来了,奥特曼神秘莫测地只说了一句话!

神秘大模型火速“刷屏”,网友竞猜GPT-4.5要来了,奥特曼神秘莫测地只说了一句话!

首页休闲益智旋转立方体更新时间:2024-06-18

整理 | 苏宓

出品 | CSDN(ID:CSDNnews)

强大的东西往往都是以最朴实无华的形式出现。在没有官宣、没有炒作的氛围中,昨夜,一款名为“gpt2-Chatbot”的模型*出重围,在 AI 社区迅速刷屏,引得不少人火速围观。

让人惊奇的是,这款 gpt2-chatbot 模型宛如“天降”,没有人知道它是谁造出来的,也没有人知道这到底是个什么。

接下来要问它是如何吸引众人的关注的,那只能说它是凭实力的。

起初,只是有用户在 LLM 基准测试网站(chat.lmsys.org)上使用大模型时发现可用的模型列表中多了一个选项,即 gpt2-chatbot,这个网站可以使得用户能够与各种 LLM 聊天并评价它们的输出,而无需登录。

在好奇心驱使下,网友们开始了这种新模型的尝试,结果意外发现:它似乎与 GPT-4 处于相同的能力水平。

一款刚出炉的大模型,其性能就能比肩 GPT-4,甚至超过 GPT-4,可想而知,它带给大家的震撼力了.......

gpt2-chatbot 的能力如何?

接下来,我们也将从用户的评测中初次感受一波 gpt2-chatbot 的性能情况。

如基于 GPT-4-Turbo 使用 TikZ 绘制的独角兽图案,长这个样子:

gpt2-chatbot 使用 TikZ 绘制的独角兽图案,得到如下结果:

也有人将 gpt2-chatbot 与 Claude 3 Opus 的输出进行了比对,下图左边为 gpt2-chatbot,右边为 Claude 3 Opus:

绘制的效果显而易见,gpt2-chatbot 要比 GPT-4、Claude 3 Opus 更胜一筹。

如果说这个有些小儿科了,那么斯坦福的一名研究员 Andrew Gao 也分享了他的测试结果,并表示:

gpt2-chatbot 刚刚一次性解决了国际数学奥林匹克 (IMO) 问题

IMO 难度非常大。只有美国数学成绩最好的四名学生才有资格参加

再来看看 gpt2-chatbot 的规划能力,它可以有效提出潜在的网站或者潜在的搜索查询。而 GPT-4 只能给出了一个更模糊的答案。

在逻辑推理方面,一直专注于 AI 技术的 Florian S 用户表示,“可以肯定 gpt2-chatbot 很好。很少有模型能做到这一点。”

在示例中,他提出了一个问题:“今天我有三个苹果。昨天吃了一个,我有多少个苹果?”

对此,gpt2-chatbot 的回答是:「你今天有三个苹果。你昨天吃了一个苹果并不影响你今天有多少个苹果。你目前有三个苹果」。

与之形成鲜明对比的是:

再来尝试一次在 PyOpenGL 中一次性生成旋转 3D 立方体,其中GPT2-Chatbot 和 GPT-4-1106-Preview,第一次尝试变成功:

而 gpt-4-0613 和 gemini-1.5-pro-api-0409-preview 通过3 次尝试后得到了一些错误输出,如“OpenGL.error.FunctionError:尝试调用未定义的函数 glutInit,在调用之前检查 bool(glutInit)“以及其他错误等等。

claude-3-sonnet-20240229也是经过了 3 次尝试,得到了一个 PyOpenGL 窗口,各种几何形状旋转得非常快。

网友:我怀疑它与 OpenAI 有关,但是没有实质性的证据

综合以上种种,如果是制造出“gpt2-chatbot” 的开发商没有 AI 大模型的基础,显然不可信,而带来了这款大模型但却不留名,只留下各方网友不断地深挖蛛丝马迹来探究其来源。

对此,一位名为 DesuAnon 的 Prompt 工程师汇总整理了其发现的种种关于 gpt2-chatbot 的细节(https://rentry.co/GPT2):

MODEL_HOURLY_LIMIT (gpt-4-turbo-2024-04-09): 200 [=4800 replies per day, service total]MODEL_HOURLY_LIMIT (gpt-4-1106-preview): 100 [= 2400 replies per day, service total]USER_DAILY_LIMIT (gpt2-chatbot): 8 [per user]

综合这些信息,很难不把它和 OpenAI 联系到一起。

基于此,DesuAnon 也给出了自己的推测:

gpt2-chatbot 可能是 GPT-4.5,作为 OpenAI 另一系列“增量”模型更新的一部分,它看起来不太可能是 GPT-5。总体上,gpt2-chatbot 输出的质量,特别是其格式、结构和整体理解能力都非常出色。

对我来说,它感觉就像是从 GPT-3.5 进化到 GPT-4,但是使用了 GPT-4 作为起点。该模型的结构化回复似乎受到了诸如修改后的 CoT(Chain-of-Thought)等技术的强烈影响。

目前没有足够的理由相信这个神秘模型使用了全新的架构。尚未调查的可能性是,LMSYS(可能是指某个组织或系统)已经建立了类似于 MoE(Mixture of Experts)的概念,充当其连接模型的路由器(适配器)。有可能 LMSYS 已经训练了他们自己的模型。我鼓励人们保持怀疑态度,注意确认偏见,并保持基于证据的思维方式。最简单的解释可能是这是由 LMSYS 内部的某种服务配置错误造成的结果。

除此之外,DesuAnon 还提出了一种可能性,这个特定的模型可能是 OpenAI 秘密投放,用于对其最新的 GPT 模型进行基准测试,但不会大张旗鼓地对外宣布,主要原因或有三个:

通过现在在 LMSYS 基准测试网站上上线,由 OpenAI 提供计算资源,而 LMSYS 如往常一样提供前端服务,同时他们还从用户互动中获得了异常高质量的数据集。如果真是如此,两家可谓是实现了双赢。

面对外界的推测,OpenAI CEO 也在此时为舆论添了一把火,和网友打起了“哑谜”。他一大早在社交媒体平台 X 上说了一句晦暗不明的话——“我确实对 gpt2 情有独钟”。

如同福尔摩斯的网友发现,Sam Altman 的这条推文是经过编辑的,那么编辑之前发布的原版内容是什么?

在他的评论区下方的热评中,网友 MachDiamonds 揭晓了答案:

值得细品的是,从 gpt-2 到 gpt2 的改写似乎是更为严谨的写法,毕竟 GPT-2 是 OpenAI 于 2019 年推出模型,而去掉破折号之后的 gpt2,可供想象的空间也更大了,网友 MachDiamonds 锐评道,“所以这个是第二代 GPT,而不是 GPT-2”。

写在最后

截至目前,不止 OpenAI,也并未有其他组织机构出面认领这款模型,甚至就连 GitHub 前 CEO Nat Friedman 也加入了“猜测大军”中,他发起了一个关于“gpt2-chatbot 到底是什么”的投票。

当前,有 36.6% 的网友认为这是一个其他的东西,也有差不多比例的用户认为这就是 OpenAI 的 GPT-4.5 早期版本。

你觉得它会是什么呢?

时下对于感兴趣的小伙伴,可以使用这个链接(https://chat.lmsys.org/)并选择 gpt2-chatbot,就能试用了。

你可以测试直接聊天功能,需要注意的是,只能发送 8 条消息,然后切换到“Battle”模式,并选择或重新选择模型选项。随时点击反馈按钮;可能需要提供一定数量的评分,才能继续使用该聊天模式。

参考:

https://chat.lmsys.org/

https://rentry.co/GPT2

https://twitter.com/natfriedman/status/1785175894828749187

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved