谷歌Gemini 1.5深夜爆炸上线，史诗级多模态硬刚GPT-5！（午夜爆炸）

近日，谷歌公司发布的Gemini1.0，是谷歌迄今为止规模最大、能力最强且通用的 AI 模型。Gemini有三种量级：Ultra、Pro和Nano。能力最强的Gemini Ultra，适用于多任务的Gemini Pro以及适用于特定任务和端侧的Gemini Nano。

光子时代正式开启

谷歌的举动，为光子通信产业带来了重大的利好。

在交换机层面，光交换机将替代传统电交换机。光交换机新增光开关及其内部光学器件价值量，这将给光器件厂商带来新的增长机会。

在光口方面，TPU v5p超强的架构带来的大规模互联性，由于AI芯片较为便宜，组网量可以非常巨大，绝对数量上会带动更多光模块需求，因此也对应2024年产生大量800G需求。

随着TPU版本的持续迭代，其互联能力将持续提升，传输速率也将进一步升级，对应光模块数量、光模块速率以及短距离光替代电的想象空间都巨大。

Gemini的特点

Gemini 1.0是谷歌筹备了一年之久的GPT4真正竞品，也是目前谷歌能拿出手的功能最为强悍、适配最为灵活的大模型，包括三种不同套件，分别是Gemini Ultra、Gemini Pro和Gemini Nano。

其中Ultra的能力最强，复杂度最高，能够处理最为困难的多模态任务；Pro能力稍弱，是一个可扩展至多任务的模型；Nano是一款可以在手机端侧运行的模型。Gemini的触达范围很广，可以下探至数据中心，也可以上行至移动设备端侧。

同时，Gemini可以生成和理解Python、Java、C 和Go等主流代码。Gemini Ultra在多个编码基准测试中表现出色，包括HumanEval，这是评估编码任务性能的重要行业标准。

Gemini从一开始就被创建为多模态的模型，过海量数据训练，可以很好识别和理解文本、图像、音频等内容，并可以回答复杂主题相关的问题，非常擅长解释数学和物理等复杂学科的推理任务。例如，从数十万字的小说中整理出重要观点，从200页的金融报告中找出最有价值的内容，这对于金融、科技、医疗的科研和业务人员来说帮助巨大。在灵活度上，从数据中心到移动设备上，它都能够运行。

Gemini首次在MMLU（大规模多任务语言理解）测评上超过人类专家，在32个多模态基准中取得30个SOTA（当前最优效果），几乎全方位超越GPT-4。

大模型视野，被「史诗级」拓宽

LLM发展到这个阶段，模型的上下文窗口已经成为了关键的掣肘。

模型的上下文窗口由许多token组成，它们是处理单词、图像、视频、音频、代码这些信息的基础构建。

模型的上下文窗口越大，它处理给定提示时能够接纳的信息就越多——这就使得它的输出更加连贯、相关和实用。

而这次，谷歌通过一系列机器学习的创新，大幅提升了1.5 Pro的上下文窗口容量，从Gemini 1.0的原始32,000 token，直接提升到了惊人的1,000,000 token。

这就意味着，1.5 Pro能够一次性处理海量信息——比如1小时的视频、11小时的音频、超过30,000行的代码库，或是超过700,000个单词。

甚至，谷歌曾经一度成功测试了高达10,000,000的token。

免责声明：

1、本号不对发布的任何信息的可用性、准确性、时效性、有效性或完整性作出声明或保证，并在此声明不承担信息可能产生的任何责任、任何后果。

2、本号非商业、非营利性，转载的内容并不代表赞同其观点和对其真实性负责，也无意构成任何其他引导。本号不对转载或发布的任何信息存在的不准确或错误，负任何直接或间接责任。

3、本号部分资料、素材、文字、图片等来源于互联网，所有转载都已经注明来源出处。如果您发现有侵犯您的知识产权以及个人合法权益的作品，请与我们取得联系，我们会及时修改或删除。