谷歌CEO桑达尔·皮查伊谈Gemini：纵览全局，我们才刚刚开始（代号海文星）

关于谷歌正在开发大型语言模型的传闻已经流传许久。这个传闻终于在近日得到证实，谷歌 DeepMind官宣了自家的大模型 Gemini，而它的对手正是 OpenAI 的 GPT-4。

Gemini 是谷歌迄今为止最大的人工智能进展之一，旨在与竞争对手 OpenAI和微软争夺人工智能领域的领导地位。毫无疑问，该模型在各种功能上都被宣传为同类模型中最佳的，一些人甚至说它是一台“万能机器”。

（来源：GOOGLE）

谷歌及其母公司 Alphabet 的 CEO 桑达尔·皮查伊（Sundar Pichai）告诉《麻省理工技术评论》：“这个模型天生更有能力，它是一个平台。人工智能是一个影响深远的平台转变，比网络或移动曾经带来的转变更大。因此，它代表着我们迈出了一大步。”

从演示中判断，它在很多方面都做得很好，但很少有我们以前没有见过的。Gemini 是多模态的，这意味着它被训练来处理多种输入方式：文本、图像和音频。它可以将这些不同的格式结合起来，回答从家务到大学数学再到经济的所有问题。

在发布会上给记者的演示中，谷歌展示了 Gemini 的能力，它可以拿着已有的图表截图，用新数据分析数百页的研究，然后用新信息更新图表。

在另一个例子中，Gemini 展示了在平底锅中烹饪煎蛋卷的照片，并被用语音问到“煎蛋卷是否已经熟了”。Gemini 回答说：“它还没做好，因为鸡蛋黄还没凝固。”

然而想要获得完整的体验，大多数人将不得不等待一段时间。此次推出的版本是谷歌搜索聊天机器人 Bard 的后端，该公司表示它将为 Bard 提供更高级的推理、规划和理解能力。

Gemini 的多个版本将在未来几个月陆续上线。新的 Gemini 增强版 Bard 最初将在 170 多个国家和地区提供英语服务，但不包括欧盟和英国。谷歌负责 Bard 的副总裁希思·萧（Sissie Hsiao）表示，这是为了让该公司与当地监管机构“接触”。

Gemini 有三种尺寸：Ultra、Pro 和 Nano。Ultra 是性能最强的版本，Pro 和 Nano 是为使用有限计算资源运行的应用程序量身定制的。Nano 被设计在移动设备上运行，例如在谷歌的新款 Pixel 手机上。

从 2023 年 12 月 13 日开始，开发者和企业将可以访问 Gemini Pro。谷歌高管在一次新闻电话会议上告诉记者，在经过“广泛的信任和安全检查”之后，最强大的 Gemini Ultra 将于“明年初”上线。

皮查伊告诉我们：“我认为这是 Gemini 模型的时代。这就是谷歌 DeepMind 将如何在人工智能方面建立和取得进展。因此，它将永远代表我们在人工智能技术方面取得进展的前沿。”

OpenAI 最强大的模型 GPT-4 被视为行业的黄金标准。虽然谷歌生成 Gemini 的表现优于 OpenAI 的前一个模型 GPT 3.5，但公司高管回避了该模型超过 GPT-4 的程度的问题。

但该公司特别强调了一个基准，名为 MMLU（Massive Multitask Language Understanding，大规模多任务语言理解）基准。这些测试旨在衡量模型在涉及文本和图像的任务中的表现，包括阅读理解、大学数学以及物理、经济和社会科学的选择题测验。

皮查伊说，在纯文本任务中，Gemini 的得分为 90%，人类专家的得分约为 89%。GPT-4 在这类问题上的得分为 86%。在多模态任务中，Gemini 得分为 59%，而 GPT-4 得分为 57%。皮查伊说：“这是第一个跨过这一门槛的模型。”

美国新墨西哥州圣达菲研究所的人工智能研究员梅勒妮·米切尔（Melanie Mitchell）说，Gemini 在基准数据集上的表现非常令人印象深刻。

米切尔说：“很明显，Gemini 是一个非常复杂的人工智能系统。但对我来说，Gemini 虽然比 GPT-4 强，但并不明显。”

美国斯坦福大学基础模型研究中心主任 Percy Liang 表示，虽然该模型在基准数据集上表现很好，但由于我们不知道训练数据中有什么，就很难明白该如何解释这些数字。

米切尔还指出，Gemini 在语言和代码基准测试方面的表现比在图像和视频方面要好得多。她说：“多模态基础模型要想在许多任务中都能广泛地发挥作用，还有很长的路要走。”

利用人类测试人员的反馈，谷歌 DeepMind 可以训练 Gemini 更准确地回答事实，在被要求时给出归因，在面对无法回答的问题时给出反馈，而不是胡言乱语。

该公司声称这可以缓解幻觉的问题。但如果不对基础技术进行彻底改革，大型语言模型将继续胡编乱造。

华盛顿大学计算语言学教授艾米丽·本德（Emily M.Bender）说：“谷歌正在宣传 Gemini 是一台万能机器，一种可以以多种不同方式使用的通用模型。”

但该公司正在使用狭隘的基准来评估这些不同目的的模型。她说：“这意味着我们无法对其进行有效而彻底的评估。”

Gemini 的诞生已经花了不短的时间。2023 年 4 月，谷歌宣布将其人工智能研究部门谷歌大脑与人工智能研究实验室 DeepMind 合并。

因此，谷歌几乎花了一年的时间来开发 Gemini，用于应对 OpenAI 最先进的大型语言模型 GPT-4。该模型于 2023 年 3 月首次亮相，支撑着 ChatGPT 的 Plus 付费版本。

谷歌一直面临着巨大的压力，需要向投资者证明它可以在人工智能领域与竞争对手匹敌并超越竞争对手。

尽管该公司多年来一直在开发和使用强大的人工智能模型，但由于担心声誉受损和安全问题，它一直在犹豫是否向公众推出类似的工具。

“谷歌对向公众发布这些东西一直非常谨慎。”图灵奖得主杰弗里·辛顿（Geoffrey Hinton）在 2023 年 4 月份从谷歌离职时告诉《麻省理工技术评论》，“可能发生的坏事太多了，谷歌不想破坏自己的声誉。”面对看似不可信的技术，谷歌总是谨慎行事，直到风险变成了错过。

谷歌在跌倒中明白了推出有缺陷的产品会适得其反。当该公司在 2023 年 2 月份公布其 ChatGPT 的竞品 Bard 时，科学家们很快注意到该公司的聊天机器人营销内容中存在一个事实错误。这一事件随后使其股价蒸发了 1000 亿美元。

2023 年 5 月，谷歌宣布将在其大部分产品中推出生成式人工智能，从电子邮件到生产力软件。但批评者并没有因此打住，比如聊天机器人会提到不存在的电子邮件。

这个问题普遍存在于大型语言模型中。尽管生成式人工智能系统非常擅长生成看起来像人类写出来的东西，但它经常会胡编乱咋。

这并不是它们唯一的问题。它们也很容易被“越狱”，而且充满了偏见。它们生成的内容也会造成文本污染。

Gemini 可能是这一波生成式人工智能的顶峰。但目前尚不清楚基于大型语言模型的人工智能下一步会走向何方。一些研究人员认为，接下来可能是会趋于平淡。

皮查伊对此不以为然。“展望未来，我们看到了很大的空间。”他说，“我认为多模态将是重大的。随着我们教会这些模型更多地推理，将会有越来越大的突破。更深入的突破还在后头。”“当我纵览全局时，我真的觉得我们才刚刚开始。”

作者简介①：威尔·道格拉斯·海文（Will Douglas Heaven）是《麻省理工科技评论》人工智能栏目的高级编辑，他在这里报道新的研究、新兴趋势及其背后的人。此前，他是英国广播公司（BBC）科技与地缘政治网站 Future Now 的创始编辑，也是 New Scientist 杂志的首席技术编辑。他拥有英国伦敦帝国理工学院计算机科学博士学位，深谙与机器人合作的体验。

作者简介②：梅丽莎·海基莱（Melissa Heikkilä）是《麻省理工科技评论》的资深记者，她着重报道人工智能及其如何改变我们的社会。此前，她曾在 POLITICO 撰写有关人工智能政策和政治的文章。她还曾在《经济学人》工作，并曾担任新闻主播。

*马特·霍南（Mat Honan）对本文亦有帮助。

支持：Ren