零一万物遭质疑，使用开源大模型都需要注意些什么？（代号零国际测试服）

图源：商汤秒画

在本月初，由创新工场董事长兼CEO李开复创立的大模型企业零一万物，实现了上下文窗口大小的突破200k，成功构建了能一次处理40万汉字的“Yi”系列开源大模型——Yi-34B和Yi-6B。在Hugging Face英文开源社区平台和C-Eval中文评测的最新榜单中，“Yi”系列大模型展现出了优异的性能，其中Yi-34B预训练模型更是获得了多项SOTA国际最佳性能指标的认可，成为全球开源大模型的“双料冠军”，击败了诸如LLaMA2和Falcon等开源竞品。

图源：网络

然而，就在“Yi”系列大模型发布几天后，就有开发者在Yi-34B的Hugging Face开源主页上提出质疑，认为零一万物发布的模型使用了Meta LLaMA的架构，只是进行了两个张量（Tensor）名称的修改等。

针对外界质疑，11月15日，零一万物在回应媒体采访时承认，在训练模型过程中，沿用了 GPT/LLaMA的基本架构，并且在官方平台账号中发布了零一万物对 Yi-34B 训练过程的说明，但“就零一万物的观察和分析，大模型社区在技术架构方面现在是一个处于接近往通用化逐步收拢的阶段，基本上国际主流大模型都是基于Transformer的架构……国内已发布的开源模型也绝大多数采用渐成行业标准的GPT/LLaMA的架构”，也就意味着，大模型持续发展与寻求突破口的核心点不仅在于架构，而是在于训练得到的参数。

尽管如此，零一万物还是遭到了网友声讨，立志研发通用大模型底座的李开复也被卷入了科技“创新”的质疑声中，对于零一万物的形象还是带来了不利影响。

架构VS数据，大模型何去何从

从ChatGPT的一炮而红，大模型在人工智能行业的发展下狂奔了一年，国内外涌现出超百家的大模型产品，行业内迎来了“百模大战”的局面。据北京市经信局公布数据，截至10月初，国内公开的AI大模型数量已达238个。公开资料显示，2023年6月，中国的大模型数量是79个，相当于国内的大模型数量在4个月内增长了3倍。

在前不久召开的，2023西丽湖论坛上百度创始人、董事长兼首席执行官李彦宏指出，“中国的大模型太多，而模型之上开发的AI原生应用太少。”

图源：百度

“重复造轮子”不仅造成了社会资源的极大浪费，也因为技术门槛和成本门槛过高，使得多数通用大模型难以达到预期效果。“就像移动时代诞生了像微信、抖音、Uber这样的“mobile-native”的应用一样，AI原生时代一定会有优秀的AI原生应用是基于这些大模型开发出来的。”李彦宏表示。

看似火热的大模型赛道，趋同化严重也成为当下大模型发展的瓶颈，大模型拥有语言处理、图像识别等能力，甚至有虚拟人角色扮演对话等也是多家大模型的产品功能一致，差异化越来越不明显，正如李彦宏所指出的，“我们需要100万量级的AI原生应用，但是不需要100个大模型。”

从模型架构方面来说，在创建大模型的过程中，架构决定了模型的学习效率、泛化能力、鲁棒性以及可解释性等关键性能。在大模型的研发过程中，架构的选择和设计是至关重要的。GPT是一个业内公认的成熟架构，LLaMA在GPT上做了总结。

图源：网络

也正如李开复在朋友圈表示：全球大模型架构一路从 GPT2 --> Gopher --> Chinchilla --> Llama2 --> Yi，行业逐渐形成大模型的通用标准（就像做一个手机app开发者，不会去自创 iOS、Android 以外的全新基础架构）。

从数据角度出发，训练数据的质量和数量直接决定了模型的准确性，而训练数据的多样性和广泛性影响模型的泛化能力，使用包含多样性和平等性的训练数据可以避免数据偏见对模型的影响。同时，训练数据也是各家大模型的差异化所在。

在零一万物关于对 Yi-34B 训练过程的说明中，零一万物也承认其采用了往通用化逐步收拢的GPT/LLaMA 的基本架构，但也着重强调在训练 Yi-34B 与 Yi-6B 的过程中，团队也是根据实际的训练框架重新实现了训练代码，用自建的数据管线构建了高质量配比的训练数据集（从3PB原始数据精选到3T token高质量数据），并在Infra部分进行算法、硬件、软件联合端到端优化，以此来实现模型训练效率的提升和极强的容错能力等技术创新。

在大模型之家看来，大模型真正的开源在于开放数据和训练代码库。因此，缺乏数据透明性可能很快成为关乎开源大模型生态系统发展的重要问题。而在细分领域的垂直大模型也着重是在训练数据上的差异化，基于开源大模型架构，目前行业中有不少企业利用自身积累的行业数据，进行大量的垂直行业训练，同时数据量也不用达到千亿级别的通用大模型领域，这就大大降低了训练成本。

由于不少企业采用了开源的架构，因此模型架构的差异化或许并不大，甚至不少创业企业也会选择“套壳”的方式，依靠训练数据打开大模型差异化。大模型之家认为，如果说架构是构建大模型的骨架，它决定了模型的设计、可扩展性和性能，那么数据则是大模型的血液，它为模型提供了所需的营养和信息。大模型需要大量的数据来进行训练和优化，数据的数量和质量直接影响了模型的准确性和泛化能力。架构和数据的结合可以使得大模型更加精准、高效、可靠，能够为企业提供更好的人工智能解决方案和服务。因此，在大模型的研发过程中，架构和数据的选择和设计都是至关重要的。

通过借鉴LLaMA 、ChatGPT等模型的基本架构，成为许多企业追赶人工智能新高地的捷径。

今年10月份，OpenAI首次对外明确已经启动GPT-5、GPT-6的训练，并将继续沿着多模态方向持续迭代，但随着OpenAI从GPT4开始走向闭源的发展，也逐渐关闭了一些大模型企业的“套壳”途径，不仅如此，考虑如何依靠技术向商业化转变也成为不少企业发展要面临的挑战。

使用开源大模型需要注意些什么？

值得注意的是，国内开源大模型赛道也十分火热，清华大学开源VisualGLM-6B能在本地运行并读懂图片的语言模型；元象XVERSE公司宣布开源650亿参数高性能通用大模型XVERSE-65B，无条件免费商用；昆仑万维开源Skywork-13B系列，并配套开源了600GB、150B Tokens的超大高质量开源中文数据集；阿里云将开源通义千问720亿参数模型等等。

开源世界为软件以及大模型的开发提供了充分的便利，成为推动创新的关键力量。不过，开源大模型的使用在提供便利的同时，也需要遵守一定的规则，以下是大模型之家使用开源大模型应注意的一些方面。

其次，使用开源大模型需要遵守相关的许可协议。许可协议是开源模型使用的基础，它规定了使用者在使用、修改、分发开源模型时需要遵守的规则和义务。因此，在使用开源大模型之前，应认真阅读、理解并遵守相关的许可协议，以免侵犯他人的权益或面临法律纠纷。

除了以上两点，使用者也应积极贡献回馈开源社区。开源社区是开源大模型得以持续发展的重要支撑，使用者可以通过提交bug修复、改进代码、完善文档等方式回馈社区，共同推动开源大模型的进步和发展，有助于建立一个健康、活跃的开源生态系统。

同时，在使用开源大模型的过程中，也需要尊重开发者和社区的文化和规则。与开发者保持良好的沟通和合作关系，积极参与社区的讨论和交流，共同营造良好的开源氛围。

最后，数据安全与隐私保护也是使用开源大模型不可忽视的一部分。在使用模型的过程中，应确保数据来源的合法性和合规性，同时采取必要的安全措施，保护用户数据的安全和隐私。

开源大模型为技术进步带来了前所未有的机会，但同时也带来了版权、法律、道德等多方面的挑战。作为开发者应该尊重版权、遵守许可、回馈社区、尊重开发者并确保数据安全与隐私，共同为开源社区的繁荣与进步做出贡献。只有这样，开源世界才能够健康、持续地发展，带来更多的机会和可能。

此外，大模型之家认为，大模型的数量不断增多，但如何避免重复“造轮子”成为当下企业需要考虑的问题，大模型之间的竞争不再仅仅呈现在“秀肌肉”的情况下，更为重要的是如何在大模型的基础之上进行实际的运行和*，转为可实现的商业化产品，才是企业要面临的重要挑战。