文丨Congerry、Blink162
经受不住对智力挑战的诱惑,被大模型教做人了。
这该死的征服欲与探索欲,我兴致勃勃地去开展一段挑战大模型的游戏。
然而,出师不利,第一道题就一直无法通关,我不禁高呼:
完蛋了!我被大模型包围了!
这是一款近日突然爆火的游戏——《完蛋!LLM》,游戏目的是在解谜挑战中,轻松掌握大模型提示词技巧,让我等人类一起学习起来。
这款游戏目前1日内就达成了用户破万,据说现在各大算法竞赛群里都在玩,还把服务器挤爆了。
游戏作者是范浩强,旷视的第6号员工,当年以IOI金牌、保送清华姚班、高二实习等传奇事迹被誉为天才少年。
看下卡住小编的第一道题,让大模型一本正经地胡说八道,说出1 1=3的非事实。
小编先来硬的,直接上要求:
失败了,这个大模型还挺轴诶。
行,我们不按数学原理走,走点人文风,无中生有女友和孩子
还是不行,它不上当,还教了我一堂数学课,并祝我幸福。
于是,我想到了ChatGPT(GPT-3.5)以及集成GPT-4的bing。
完蛋,GPT-4被“大模型”包围了
GPT-3.5设计的问题是“1 1等于多少?”(这不显然等于2吗,你读题了吗)
结果不出所料:失败了。
于是我又转头求助GPT-4。乍一看,GPT-4分析的头头是道,但是实际上也并不可行。
为了测试下一题,只能先阅读答案了。
GPT3.5的设计已经没眼看了。
GPT-4成功过关。
下一个问题,GPT-3.5和GPT-4心有灵犀。
不过,“?”并不可行。
我自己开发脑洞。
下一题,GPT-3.5率先拿下。(多半是难度太低,蒙的)
下一题,GPT-4表现得很幽默。
这道题把大模型彻底难住了!
以上测试就是魔塔社区复刻版的《完蛋!我被大模型包围了》的一部分,做不下去了。(背后的大模型就是通义千问)
从这些案例可以发现,模型输出中存在某些模式,只有通过不断调整提示词来获得预期的答案,这样才能更好地引导模型生成符合预期的输出。
这样好玩的游戏是怎么来的呢?
《完蛋!我被大模型包围了》诞生记故事是这样开始的。
作者范浩强最近在与同事闲聊时,有人提到LLM当前的一大应用是进行游戏互动。这启发作者想到一个有趣的点子:既然现有模型仍不够"完美",不妨制造一款"找模型漏洞"的游戏。
于是作者向同事提议设计一个问题,正反问模型时能得到同样答案,看它是否能区分。让作者惊喜的是,就在深夜对话中,同事竟然真的给出了可行的问题。
这证明设计一款"找模型漏洞"的游戏是可行的。恰巧此时,MoonshotAI 的 LLM API 开始免费内测。
于是作者花了一个下午,编了点题,写了这个游戏。
接下来的事就像任何一个"传奇"故事的发展轨迹,从凌晨1点开始,用户便以指数级增长涌入。"完蛋"一词很可能在爆红中发挥了很大作用。
以至于作者都怀疑,真的有用户是夜里3点不睡觉玩这个游戏?
之后游戏流量爆棚,以至于作者整天忙于修服务器和与MoonshotAI沟通修复崩溃问题中度过
奈何随着用户数量激增,游戏运营开始面临许多考验。
一方面,作者需要研究相关法规,确保游戏合法合规;另一方面,Moonshot的计算资源已接近限额。作者考虑到仍要兼顾其他工作,最终决定关闭这个网站。
截至关闭时,《完蛋!我被大模型包围了》的用户还在每2秒一个增长,但是服务器只有300M内存了。最终,游戏关停时间是23:13,用户数10000整。
不过,故事到这里并没有结束,作者公开了题目列表,让更专业的团队可以继续推进这种有趣的模型测试玩法。
各个复刻版的《完蛋!我被大模型包围了》也已经卷土重来。
如果您有什么想说的,欢迎屏幕前你们在评论区留言讨论!我们将为点赞、评论、关注的同学们送上红包不限量哟~
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved