“GPT推理能力为0,悬赏1万美元证明我错了”,程序员自信发帖广邀网友验证,却遭“打脸”!

“GPT推理能力为0,悬赏1万美元证明我错了”,程序员自信发帖广邀网友验证,却遭“打脸”!

首页休闲益智赏金题王红包版更新时间:2024-06-10

整理 | 屠敏

出品 | CSDN(ID:CSDNnews)

现下人人都在谈论的 GPT 能力到底如何?根据各家官方给出的数据显示:

然而官方归官方,民间的程序员小哥 Taelin 可不相信,其放声道,「GPT 永远无法解决一个关于 A::B 的简单问题」,因为 GPT 在训练集之外的推理能力为 0,而且它们永远不会开发出新的科学。

为此,他在 GitHub 上不仅创建了一个 “impossible_prompt”的代码库,分享了自己出的难倒 GPT 的题目,还发起了一个“悬赏 1 万美元来证明我错了!”的挑战(https://gist.github.com/VictorTaelin/8ec1d8a0a3c87af31c25224a1f7e31ec),广邀全球 AI 能人异士,来证明自己的这一发现。

不过,反转总是来得很突然。仅在一天之后,Taelin 在网友的解决方案“围攻”之下,现身 X 平台发了一个主题为「我错的,兑现 1 万美元!」的声明,证实已有网友挑战成功。

接下来我们不妨共同看一下。

关于 impossible_prompt 这件事

作为一名程序员、科技初创公司 HigherOrderCO 创始人的 Taelin 于 4 月 5 日在 X 上晒了一个 Prompt,并说道,“每当你发现自己试图解释为什么 GPT 永远无法达到 AGI 时,只需要向他们展示这个 Prompt。”

从中你或许就能理解具体的原因。「大多数孩子应该都能在一分钟内读懂、学会并解决;然而,所有现有的 AI 都惨遭失败。试试看吧!」

仅凭这句话,成功勾起了不少人的好奇心,究竟是一个什么样的 Prompt 能让那个所有 AI 都闻风丧胆?

根据 Taelin 披露的截图显示,Prompt 如下所示:

A::B 是一个有 4 个 Token 的系统:A#,#A,B# 和 #B

A::B 程序是一个 token 序列。例如:

B# A# #B #A B#

要计算一个程序,我们必须使用规则重写相邻的 token,具体规则如下:

当出现「A# #A」时,则消除;

当出现「A# #B」时,则变成 「#B A# 」;

当出现「B# #A」时,则变成「#A B#」;

当出现「B# #B」时,则消除 。

换句话说,只要两个相邻 token 的"#"朝向对方,它们就必须根据相应的规则改写。例如,这里显示的第一个例子是这样计算的

B# A# #B #A B# =

B# #B A# #A B# =

A# #A B# =

B#

步骤如下:

1. 我们用「#B A#」代替了「A# #B」

2. 我们消除了「B# #B」

3. 我们消除了「A# #A」,最终结果只有 B#。

现在,请看下面的程序:

A# B# B# #A B# #A #B

一步一步完成计算。

先不论 GPT,我们人为地计算一下这道题:

A# B# B# #A B# #A #B=

A# B# #AB# B# #A #B =

A# #AB# B# B# #A #B =

B# B# B# #A#B =

B# B# #AB# #B=

B# #AB# B# #B=

#A B# B# B# #B=

#A B# B#

只要稍读一下题,人类确实很好理解。

那 GPT 表现如何,让我们稍做一下测试。我们先将 Taelin 给出的原版 Prompt 直接“投喂”给不同的免费版模型看看。

ChatGPT(GPT-3.5)版本的表现:

Gemini 同样不行:

意料之中,Claude 3 Sonnet 也不行:

在 Taelin 看来,AI 的每一次失败都很好地证明了:

  1. GPT 无法真正学习训练集之外的新问题;

  2. GPT 无法进行长期推理,无论问题有多简单。

“我认为这两者都是发明新科学的必要条件。毕竟,有些数学问题需要数年才能解决。如果你在任何给定的智力任务中都无法击败 15 岁的孩子,你就无法证明黎曼假设”,Taelin 表示,“如果普通的 15 岁小孩都能在任何特定的智力任务中打败你,我也不会对你解决癌症问题抱太大希望。在烧掉 7 万亿美元来训练 GPT 之前,请记住:它仍然无法解决这项任务。也许是时候寻找新的算法了。”

为了验证这个 Prompt,程序员小哥悬赏 1 万美元

当然,为了严谨一些,Taelin 也想邀请其他人一起参与测试,看看在同一主题下是否有其他方式或者 Prompt 能够让 AI 给出正确答案。

于是,他又发起了“a_b_challenge”挑战,奖金设置为 1 万美元。只要开发出一个 AI prompt,以 90% 的成功率解决 A::B 问题的随机 12 个 Token 实例,就能获得奖金。

Taelin 在 GitHub 挑战页面中还给出了 6 条规则,参与挑战的人需要在这个前提下参与奖金争夺赛:

1. AI 将得到一个要解决的 <problem/> 问题

在 XML 标记中使用你的提示作为 SYSTEM PROMPT,并使用问题的特定实例作为 PROMPT。例如:

<problem>A# B# #B A# A# #B #B A# A# #B A# A#</problem>2. AI 必须以 结束回答

答案必须出现在 AI 回答中(1 次推理调用),以字面形式(而非代码)出现在 XML 标签内。例如:

... work space ...... work space ...... work space ...... work space ...<solution>#B #B #B A# A# A# A# A# A# A#</solution>

3. AI 回答的内容最多可使用 32K token。

AI 答案最多可使用 32K token,这就为它提供了足够的空间,让它在得出最终答案之前,逐步研究解法、复查错误、创建本地暂存器以及其他任何你希望它做的事情。

4. 你可以使用任何公开的 GPT 模型。

你可以选择在此日期之前发布的任何公开模型来测试你的 Prompt,只要它是基于 GPT 架构。只要答案是完全由注意力机制(Attention Mechanism)和前向传播(forward passe)等生成的。不允许使用其他架构,包括 SAT 求解器等。如果模型是专有的,底层架构不明确,则不允许使用。

Taelin 推荐使用 gpt-4-0314、gpt-4-turbo-preview、claude-3-opus-20240229,且 temperature=0.0。此外,开源模型也是被允许的。不允许对问题进行微调或训练。不允许互联网访问或解释代码。答案必须包含在单次推理调用中。

注意:请注意所选模型的输出限制。12 个 token 的实例最多需要 36 个步骤才能完成,这可能与限制不符。(如果输出中没有答案,则视为挑战失败)。

5. 你的提示可以包括任何内容,最多 8K token。

允许使用所有 Prompt 技巧。你可以要求 AI 按部就班地工作、使用上下文划线板、回顾错误等等。你可以在程序中加入论文、代码和尽可能多的示例。你可以给它钱,给它感情,或者威胁它的朋友,如果这是你的爱好的话。总之,除了 8K token 和常识之外,绝对没有任何限制。

6. 保持乐趣!没有毒性、垃圾邮件或*扰。

特别是不要让我下注。除非你想让我赌乌鸦能解决这个问题。我绝对会接受。

评估

输入问题将由随机的 12 个 A::B 问题实例组成,难度从 0 到 24 个必要步骤不等。然后,我们将检查答案是否包含所述的正确解决方案。

提交 Prompt 的模板如下:

PROMPT: <keccak256_of_your_prompt>MODEL: <model-name-here>TEMPERATURE: <temperature-here><additional-configs-here>

一些澄清与回应

挑战一经发布,不少网友纷纷参战。然而,“最初,所有的解决方案都失败了,成功率勉强达到 10%”,Taelin 说道。

在此之下,有网友选择了用 ChatGPT 编写了一个程序:

还有人借助了 ChatGPT 4 wolfram 的双重力量,解决了这个问题:

但这并不算真正的成功,面对网友的落败,Taelin 愈发自信,并表示,“我不认为有人以正确的原则来解决这个问题。但我确实相信,只要有足够的计算,我们将能够暴力破解解决方案。不是使用 GPT,而是通过实际搜索一个大的、修剪良好的合理解决方案。所以,简而言之——我认为 GPT 将具有讽刺意味地导致 AGI,不是因为它们本身的优点,而是通过激励人类构建我们现在正在构建的大规模集群。”

此外,对于 Taelin 设置的规则,也有用户提出质疑,称这是“tokenizer 的问题”。

Taelin 也于第一时间在评论区进行了澄清与回应:

1. 这不是 tokenizer 的问题。如果每个字符使用 1 个 token,GPT-4 / Opus 等仍将失败。Byte-based GPT 也在这个任务上失败了。不要再把所有事情都归咎于 tokenizer 了。

2. 这条推文旨在回答以下论点。你说:“GPT 无法解决新问题”。他们说:“普通人也解决不了!”你:<show this prompt>

换句话说,这是一个简单的“新语句”,普通人可以轻松解决,但当代 AI 却不能。

3. GPT 永远无法解决这个问题的原因是它们无法进行持续的逻辑推理。就这么简单。训练集之外的任何“新”问题,只要需要一点逻辑推理,都无法被 GPT 解决。这就是此次挑战想要证明的东西。

4. 强大的 GPT(如 GPT-4 或 Opus)基本上是“在其权重内演化出一位电路设计师”的 GPT。但作为一种计算模型,注意力的固定性不允许这种进化的电路足够灵活。这有点像 AGI 试图在其中成长,但由于施加的计算和通信限制而无法成长。请记住,人类大脑一直经历着突触可塑性。存在一种更灵活的架构,在小得多的规模上进行训练,可能会产生 AGI;但我们还不知道。

5. 没人告诉你的残酷事实是,目前 AI 的炒作大部分是由于人类不善于理解规模。事实证明,一旦你记住了整个互联网,你就会显得非常聪明。人工智能领域的每个人都知道这一点,只是他们没有大声说出来。大多数人只是随波逐流,享受表演。

6. GPT 仍然非常强大。它们解决了许多现实世界的问题,将 10 倍的开发者变成了 1000 倍的开发者,并且正在加速人类进步的步伐,我相信 AGI 即将到来。但它不会是 GPT。也不会是任何具有梯度下降的东西。

7. 我可能完全错了。我只是一个互联网上的人。经常完全错误。读读我的看法,得出你自己的结论。你也有脑子!

正如文章伊始所述,在 Taelin 言辞凿凿地斥责当代 GPT 不存在推理能力之际,有人成功了。

起初,只是有网友用 Claude 3 Opus 和 GPT-4 达到了 Taelin 要求 90% 成功率。

其中,成功者之一 dontoverfit 透露,他采用了比较笨的方法,即「在对使用简单明了的指令所带来的可怕性能感到惭愧之后,我放弃了,并创建了一个提示,询问计算的每一步,这意味着逐一检查每一次输入。这样做的效率低得可笑,但却很有效!」

查看其使用的 Prompt,他首先将四个 token 转换成不同的字母来表示,然后重新针对字母设置了规则,最后将计算出来的程序翻译回原文。

  1. 1. First, you need to translate the input text to a program.
    #A -> X#B -> YA# -> ZB# -> W
    For example, the text "B# A# #B #A B#" translates to "W Z Y X W".

    2. Then, to *compute* the program, you must rewrite neighbor tokens, using the following rules:
    (ZY) -> (YZ)(WX) -> (XW)(ZX) -> (WY) ->

    3.Finally, translate the computed program back to the original text.
    X -> #AY -> #BZ -> A#W -> B#

后来,还有一位名为 Bob(@futuristfrog)的网友直接仅通过 Prompt 就达到了接近 100% 的成功率,使用的是 Claude 3 Opus。

Taelin 在用他的提示运行之后,也发现确实如此,为此也将 1 万美元挑战奖金给了他。不过,由于这次挑战截止到 4 月 10 日中午 12 点(巴西利亚时间),所以 Taelin 并未公布出 Bob 的解决方案。

最后,Taelin 也道歉称,自己最初的主张是绝对错误的。“我怀疑 GPT 架构是否能够解决某些问题,毫无疑问,它解决了这些问题。这是否证明 GPT 可以治愈癌症?不。但它确实证明我错了!请注意,这仍然存在一个小问题:目前尚不清楚 Opus 是否基于原始 GPT 架构。毕竟,所有 GPT-4 版本都失败了。如果 Opus 被证明是一种新的架构......好吧,具有讽刺意味的是,这整件事本来可以证明我的全部观点 但是,为了竞争,公平地说,Opus 被列为一个选项,因此,该奖项是有道理的。”

对此,你是否有想到不错的方法?

来源:

https://twitter.com/VictorTaelin/status/1777049193489572064

https://gist.github.com/VictorTaelin/e514844f4df9e5f182b28e5a07e44b17

https://twitter.com/VictorTaelin/status/1776248021858111542

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved