火了一年的大模型,正在衍生出更多细分的技术与应用,例如对大模型进行行业定制,以及开发面向特定场景的“小模型”等需求,因此,大模型在 2024 年将继续深刻渗透和重构企业的各个业务环节,为企业智能化升级提供强劲动能。
与此同时,承载训练及推理这些庞大模型的算力基础设施,也将成为 2024 年企业必然需要面对的挑战。大模型海量参数、复杂计算将对算力需求提出更高要求,算力成本也随之水涨船高。在大模型带来智能化红利的同时,如何在GPU算力紧张的情况获得充足AI算力,将是企业在新一年中的重中之重。
AI 算力需求再次爆发
阿里云 ECS g8i 以 CPU 算力 hold 住大模型
因 AI 受到追捧抢购、甚至需要囤货的 GPU,一直是 AI 行业里解决算力问题的关键因素。不过芯片巨头英特尔另辟蹊径,创新性地在 CPU 平台上应用了用于矩阵运算的单元,满足大数据、人工智能等数据密集型的业务算力要求。从去年英特尔® 高级矩阵扩展(以下简称 AMX)就已经运行在了阿里达摩院和阿里手机淘宝的 AI 应用中。
近期,阿里云推出国内首款搭载第五代英特尔至强可扩展处理器(代号 EMR)的云计算产品——第八代企业级通用计算实例 ECS g8i,其中的性能硬核实力包括有:产品的整机性能最高提升 85%,AI 推理性能最高提升 7 倍,可支撑高达 72B 参数的大语言模型。从阿里系内部运行到阿里云正式推出云计算产品,让业界进一步看到,以 CPU 为中心的计算体系同样具备加速 AI 推理的巨大潜力。
同时,本次发布的新实例产品还提供了端到端安全防护,为企业构建可信 AI 应用提供隐私增强算力支撑。该产品的发布证明了公共云不仅可胜任超大规模的 AI 模型,也为 AI 应用加速落地开辟了新途径。这对于人工智能的发展和应用具有重要意义,更会推动 AI 技术的进一步普及和应用。
通用算力性能升级背后
芯片、虚拟机、操作系统全栈优化
作为企业级通用计算实例,ECS g8i实例在计算、存储、网络和安全等能力得到了全方位提升。具体来说:
值得一提的是,阿里云还将第五代英特尔至强可扩展处理器的各类加速器能力融入到自研的虚拟化技术并实现性能零损耗,用户以最小规格2vCPU即可启用加速器能力。同时,阿里云自研Alibaba Cloud Linux3操作系统是业界首家全量优化适配英特尔加速器,真正实现从芯片、虚拟化再到操作系统的整体优化,进一步降低加速器技术门槛,让用户真正享受技术普惠。
CPU 为 AI 算力提速
ECS g8i满足从小模型到超大规模各类需求
生成式 AI 掀起的技术革命,正在推动计算的范式发生根本性的变化。本次阿里云 ECS g8i 最硬核的技术实力,就是以 CPU 为核心的计算体系去满足 AI 对算力的需求。当前,AI大模型推理在算力上依然面临诸多挑战,例如首包延迟受限于并行处理能力与浮点运算能力,吞吐性能则受限于内存带宽和网络延迟。
ECS g8i 通过优化其内置指令集,利用 Intel AMX 高级矩阵扩展加速技术,提升了生成式 AI 的运算速度,从而减少了首包延迟。使用AMX加速,当进行 int 8 矩阵计算时,性能提升更是达到了 7 倍。这些优化措施不仅提高了 AI 应用的运行速度,还为生成式 AI 的广泛应用打下了坚实的基础。
ECS g8i 在响应中小规模参数模型(如 6B、13B 数量级)方面具有更迅速的能力, 在运行知识检索、问答系统及摘要生成等 AI 工作负载时,起建成本相对传统GPU方案大幅降低。同时,通过配合阿里云平台的 Spot 抢占式实例,成本优势将进一步凸显,进一步降低 AI 推理成本。这种成本优势和效率提升对于许多应用场景来说都是非常重要的。
对于超大规模参数模型来讲,ECS g8i 实例集群通过利用阿里云自研的 eRDMA 超低延时弹性网络,能够支撑 72B 参数级别的大语言模型分布式推理。这种低延迟和高弹性使得 ECS g8i 实例集群在处理大规模 AI 模型时,随着集群规模的扩大,AI推理性能相对VPC网络接近线性提升。
据介绍,当前 ECS g8i 实例集群可支持超过 32 batch size 的 AI 模型负载,运行各种 AI场景 工作负载,如AI 生成代码、虚拟助手以及创意辅助工具等。
以阿里云开源的 Qwen-72B 大模型为例,ECS g8i 实例 eRDMA 网络构建的集群能够实现高效运行。这种高效运行表现为在输入在500字以内,首包延时可以做到3秒以内,每秒可生成 7 个 Token。这种性能表现证明了 ECS g8i 实例集群在处理超大规模 AI 模型的高潜力。
基于自研 CIPU 构建端到端安全防护
确保模型云上安全
在大模型大规模应用时,确保数据安全也是同等重要的工作之一。针对模型数据安全,阿里云基于自研的云基础设施处理器 CIPU,全产品线构建了端到端的安全防护,确保数据存储、数据传输和数据计算使用的全流程安全。
通过以上技术我们能看到,阿里云 ECS g8i 基于飞天云操作系统 云基础设施处理器 CIPU 全新计算架构体系,证明了 CPU 为核心的算力,也可以运行AI工作负载,尤其是在 AI 推理领域实现了显著的技术突破,将助力 2024 年大模型与 AI 应用的加速落地和创新,也必将推进 AI 算力发展,实现 AI 普惠。
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved