ASC24超算大赛挑战大模型推理4bit量化,探寻精度与效率的极致平衡（极致平衡）

4月9日-13日，2024ASC世界大学生超级计算机竞赛（ASC24）总决赛即将在上海大学举行。从全球300多支参赛队伍中晋级的25支队伍将继续向AI大模型优化发起挑战——参赛队伍要基于开源大语言模型AquilaChat2-34B，构建并优化推理引擎，在组委会提供的样本数据集上使用4比特及以下量化来进行推理，在保证精度的前提下提升推理速度。各参赛队伍需要充分了解并掌握大模型常见的量化策略与并行方法，并学习使用各种技术来优化推理过程。

推理优化：大模型应用落地关键

随着大模型技术的飞速发展，AIGC技术的切实落地应用成为焦点。然而，AI大模型庞大的参数量面临着巨大的计算资源需求与计算效率挑战。在技术发展的同时，只有不断提高大模型的运行效率、减少资源消耗并改善用户体验，才能让大模型实现规模化应用，将生产力和创新力更好释放到千行百业。

因此，大模型推理优化技术已经成为AIGC领域的前沿技术课题，其是指对具有大量参数的复杂AI大模型进行有效的推理运行过程优化，实现更低延迟和更高吞吐量，使得大规模AI模型能够在有限的计算资源下高效运行，大幅降低对计算设备的需求与计算成本。

ASC超算竞赛一直聚焦前沿科学，引导大学生学习、使用最新的计算产品和技术，探索和解决当下最紧迫的科技创新问题。一直以来，ASC竞赛特别关注人工智能领域的最新动态，已经连续多年将AI热点技术纳入赛题，这不仅推动了超算与AI计算的融合发展，也为培养下一代的AI计算人才提供了宝贵的机会和平台。

大模型4 bit量化：在精度与效率之间追求极致平衡

模型量化（Model Quantization）是大模型推理优化的主流技术之一，旨在通过减少表示权重或激活值所需的位数来实现模型压缩，降低模型的大小和计算复杂度。然而，压缩模型可能会影响其性能，如何在压缩的同时保持模型精度，是量化技术的核心挑战。

ASC24总决赛将要求参赛选手基于开源大语言模型Aquila2-34B进行量化推理加速。Aquila2-34B是智源研究院发布的悟道・天鹰340亿参数开源中英双语大模型，在推理、泛化等方面表现出色，在智能体、代码生成、文献检索等场景方面取得了一系列成绩。

在大模型推理优化比拼中，参赛选手需要将AquilaChat2-34B所需的推理权重减少到4 bit及以下。当前，低位量化技术已经成为大模型量化的重点趋势，相较于FP16（半精度浮点）或者8 bit的量化要求，4 bit及以下量化能够更大程度减少模型的内存占用和计算资源消耗，但对于精度损失的控制挑战也更大。本届ASC参赛选手们要在保证推理精度的前提下尽可能提升推理速度，以减少推理时间。

要想在这道赛题中取得佳绩，各参赛队伍需要充分了解并掌握大模型量化的策略与方法，并在3000W的限制下进行数据并行加快推理，在精度损失和计算效率之间追求极致平衡。

大模型推理优化赛题，不但可以让参赛选手掌握大模型量化策略，探索更加有效的推理加速技术，降低大模型应用落地门槛，激发他们深度参与人工智能产业的热情，同时也预示着超级计算领域正在主动拥抱大模型，并将在大模型应用中发挥重要作用。大赛鼓励参赛队伍做更多更深的优化工作，将大模型的推理性能提升到极致，也期待竞赛中涌现出令人惊喜的高质量创新成果，未来顶尖人工智能科学家也许就来自本次参赛队伍当中。

ASC世界大学生超级计算机竞赛（ASC Student Supercomputer Challenge）由中国发起组织，并得到亚洲及欧美相关专家和机构支持，旨在通过大赛平台推动各国及地区间超算青年人才交流和培养，提升超算应用水平和研发能力,发挥超算的科技驱动力，促进科技与产业创新。ASC超算大赛迄今已举行至第十一届，吸引来自全球六大洲上万名大学生报名参赛，是全球最大规模的大学生超算竞赛。

查看全文