更强大恐怖的GPT-4来了,考试表现优于人类,性能远超ChatGPT!
相较于之前广受欢迎的 ChatGPT(采用 GPT-3.5 模型),GPT-4 这一次跨越式地提升了性能。GPT-4 能够处理更长的输入文本,限制扩展至 2.5 万字,不仅如此,它还具备较强的识别和处理图像的能力,问答准确性显著提高。这预示着 GPT 系列模型在人工智能领域的发展有着更高的潜力和更广的应用前景。
据OpenAI表示,GPT-4是迄今为止最先进的系统,在某些学术和专业测试中,其表现达到了“人类水平”,远远超过其前任ChatGPT。实际上,我们可以通过实测来验证这一说法。
举例来说,我们可以对着GPT-4输入一张手绘草图,它可以直接生成最终设计所需的网页代码。
GPT-4 在许多专业测试中的表现甚至超过了大多数人类。例如,在美国律师资格考试Uniform Bar Exam、法学院入学考试LSAT、以及“美国高考”SAT的数学和证据性阅读与写作部分考试中,它的得分高于88%的考生。与之相比,GPT-3.5 在这些测试中仅能排在后10%左右。
曾经是Uber和Facebook产品设计师的一个人尝试使用GPT-4来开发游戏,并表示:“GPT-4是一项令人难以置信的革命性技术。在不到60秒的时间内,我就重新设计了一款乒乓球游戏,这还只是我第一次尝试。这个世界的面貌正日渐改变。”
这种技术的发展给当前的许多开发者带来了不小的压力和危机感。其中,有网友在看到这个新闻后当即表示“睡不着了”,并思虑未来 5-10 年我们的技术界会发生什么样的改变。这表明,在人工智能技术的快速推进背后,我们面临着更严峻的挑战,也有更广阔的发展空间和未来展望。
GPT-4的能力如此恐怖如斯,难道人类真的要因为AI开始失业了?
会推理判断,考试能力超过“做题家”
据OpenAI的介绍,GPT-4在某些方面已经比之前的GPT-3.5有了显著的改进。
首先是它在记忆方面的表现。相比于GPT-3.5仅能记忆8000个单词(相当于四到五页的书),GPT-4的最大记忆能力已达到6.4万个单词(近50页的文字),这使得对话更为准确和连贯,提高了人工智能处理自然语言的能力。
相较于GPT-3.5,GPT-4在文本对话中最大的进步之一在于具备了一定的文学创作能力。它能够根据要求创建出不同文风的歌词、诗篇,甚至短句,并在这个过程中能创造押韵的效果。
更令人惊叹的是,根据指令,GPT-4能够用仅26个单词的句子概括“灰姑娘”这个童话故事,而且每个单词的首字母都以A到Z的顺序排列,这展示了它在自然语言处理方面的非凡能力。
一位AI研究员询问了GPT-3.5和GPT-4关于“艾伦人工智能研究所前CEO Oren Etzioni 和企业家Eli Etzioni”之间的关系,结果GPT-4准确回答出他们是父子关系,而GPT-3.5却错误地将他们说成是兄弟。
与此同时,GPT-4在幽默感方面也有所提升。当它被要求提供一个关于歌手麦当娜的新鲜笑话时,它回答说“麦当娜为什么要学习几何?因为她想学会如何摆出各种角度的姿势!”在回答的结尾,它还“俏皮”地附上了三角尺、跳舞和麦克风的表情符号,增加了一些趣味性。
相对比之下,GPT-3.5的回答就显得平平无奇,缺乏幽默感,没有GPT-4那么好笑。
官方还表示,GPT-4将产生更少的错误答案,更少地偏离谈话轨道,更少地谈论禁忌话题,甚至在许多标准化测试中比人类表现得更好。
例如,GPT-4在模拟律师资格考试的成绩在考生中排名前10%左右,在SAT阅读考试中排名前7%左右,在SAT数学考试中排名前11%左右。
英伟达AI科学家Jim Fan评价道,GPT-4最强的能力是推理,其在GRE、SAT、法学院考试上的得分几乎与人类考生相当,这意味着GPT-4完全有可能凭借自身能力考上斯坦福大学。在26种语言的测试中,GPT-4的英语表现在24种语言中优于GPT-3.5和其他大型语言模型(例如Chinchilla和PaLM),其中包括一些资源匮乏的语言,如拉脱维亚语、威尔士语和斯瓦希里语。
GPT-4在情商方面的提升也非常显著。OpenAI表示,用户现在能够根据自己的需要,将ChatGPT的语气和风格改变为更符合自己个性化需求的风格。
举例来说,用户可以要求模型扮演各种角色,如电视采访主持人、老年用户的基金经理等等,并且GPT-4可以熟练切换不同的语言风格以适应它们的角色。在案例展示中,GPT-4表现得非常出色,例如在与老年人对话时,使用平静、慢节奏的语气,而在担任经理下达命令时则采取果断、坚决的态度。实际上,GPT-4的“赛博”角色扮演技能已经达到了相当高的水平。
可识别图片,还能GET到搞笑的梗
GPT-4在不同于以往的GPT系列模型的一个最大的突破是,它可以处理超越文本的内容,包括图像等。OpenAI宣称,当同时输入文本和图像时,GPT-4可以生成与之相关的自然语言和代码等文本。
尽管GPT-4的图像处理功能目前尚未公开,但该公司在官方网站上展示了一系列案例。例如,当用户输入如下的图片并询问“这张图片有什么不寻常之处”时,GPT-4能够顺利地给出回答,“这张照片的不寻常之处在于一名男子在行驶中的出租车车顶上使用熨衣板熨烫衣服。”
OpenAI提供了一个经典示例,输入一张超大的图片,GPT-4还能解读出这张图片搞笑的点在哪里:
OpenAI展示了一张在厨房中拍摄的图片,用以展示GPT-4的推理和图像识别能力。在接收到这张图片后,GPT-4可以不仅辨识出面粉、鸡蛋等元素,还能够仅凭此快速提供与食谱相关的建议和信息。
询问GPT-4这张图上能做几顿饭,它的回答也非常符合实际。
一夜之间,全球所有验证码都失效了,因为AI已经能读懂图片了。
除了一般的图片,GPT-4还能够处理更加复杂的图像信息,包括表格、考试题目截图、论文截图和漫画等。例如,当用户上传一篇专业论文时,GPT-4能够通过处理论文中的图像和文字信息,直接给出其摘要和重点内容。
用户也可以直接给一张考试题的照片,让GPT-4一步步思考作答。
还有一个示例是让GPT-4解释这张漫画,GPT-4认为它讽刺了统计学习和神经网络在提高模型性能方面的差异。
依旧存在局限性,还会有安全漏洞
不过话说来了, 与早期的GPT模型一样,GPT-4还是存在一定的局限性。
OpenAI称,它并不完全可靠,可能会出现推理错误 ,“GPT-4缺乏对绝大多数数据切断后(2021年9月)发生的事件的了解,并且无法从中吸取经验教训……它有时会出现简单的推理错误,它会轻信用户明显的虚假陈述,有时它会像人类一样在难题上失败,例如在它生成的代码中引入安全漏洞。”
基于此,OpenAI提醒,用户在使用语言模型时应格外小心,最好辅助以人工审查、附加上下文、或完全避免在高风险情况下使用它。
值得注意的是,GPT-4虽然于凌晨才正式公开,但早在一个月前,微软的新版搜索引擎必应(bing)就已经在GPT-4上运行。微软表示,“如果您在过去五周内的任何时间使用过新版必应,那么您已经体验过GPT-4的早期版本。
目前GPT-4没有免费版本,仅向chatgpt plus的付费订阅用户及企业和开发者开放。由于仅限于Plus订阅用户使用,当晚,大批新订用户涌入,以至于OpenAI的付款系统被挤爆了。
至于价格方面其为 22 美元一个月(20 2刀手续费),并且限制每 4 个小时只能发 100 条消息。
不管怎么说,也许在并不遥远的未来,一个考试中完全碾压人类“做题家”、模仿“霸道总裁”口吻和员工对话,并能精准解读表情包背后小情绪的强大AI即将诞生。至于这对人类来讲是福是祸,就是个见仁见智的问题了。
ChatGPT国内版vx搜索百泽一言
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved