2023年计算机行业中期策略:坚守AI、拥抱数据、看好信创

2023年计算机行业中期策略:坚守AI、拥抱数据、看好信创

首页角色扮演魔塔2023更新时间:2024-06-10

(报告出品方/作者:西部证券,邢开允、赵宇阳)

一、2023年回顾:坚守景气,行业反转

结束长期调整,迎反弹行情。申万计算机行业指数自 2020 年 7 月以来持续向下调整, 2022 年以来受呈现先抑后扬趋势,前三季度受到疫情、宏观经济承压等因素影响,继续 深度调整,而 10 月以来随着信创、安全等代表的板块边际变化,23 年在 AIGC 和数字经 济的带动下,服务器、大模型、AI 应用、数据安全端纷纷表现,市场预期提升,板块反弹 明显。截至 4 月 28 日,计算机板块 2023 年累计涨幅达到 27.22%,位于申万 31 个行 业板块的 3 位。

公募持仓市值环比改善,但继续保持低配。从 23 年一季度公募持仓数据看,计算机板块 总持仓市值为 1436 亿元,总持仓占比 4.48%,环比小幅提升,位列 6 名,目前仍处于低 配状态。前十大重仓股为金山办公、海康威视、恒生电子、科大讯飞、广联达、深信服、 同花顺、宝信软件、中科创达、大华股份。

板块估值修复显著。2022 年 10 月以来计算机板块估值从底部开始回升,截至 2023 年 4 月 28 日收盘价,计算机板块 PE TTM 为 56.36X,高于五年来均值水平(46x)。从细分行业 看,安防设备板块估值仍然低于历史均值,为 34X,此外,其他计算机设备、IT 服务 III、 垂直应用软件和横向通用软件 PE TTM 分别为 48、49、73、161X。

白马龙头估值回归。个股估值层面,当前主要白马龙头公司估值有所分化,前期信创、安 全等产业热点催化叠加近期 AI 浪潮、数据要素等驱动,金山办公、中望软件、用友网络、 中国软件、海光信息等公司估值(PE TTM)回升显著,部分仍处于历史较低水平。

业绩表现待修复。疫情、经济压力加大,2022 年前三季度计算机板块业绩同比表现整体 不佳,Q3 开始后营收端看到边际改善,包括毛利率亦明显回升。

二、AI人工智能:拥抱科技,把握AI新时代

2.1 拥抱AI核心资产

2.1.1 GPU:GPT-4对算力需求更大,算力重要性凸显

近年来,由于其并行计算的特性,GPU 也被应用于一些需要大量计算的领域,如机器学 习、深度学习、数据挖掘、科学计算等。在这些领域中,GPU 可以加速训练模型、处理 海量数据等计算密集型任务,显著提高了计算效率和速度。因此,GPU 已成为现代计算 机的重要组成部分,被广泛应用于各种领域。 GPU 的工作原理和 CPU 类似,都是通过执行指令来完成计算任务的。不同的是,CPU 是通过串行执行指令的方式来完成计算任务的,而 GPU 是通过并行执行指令的方式来完 成计算任务的。GPU 的并行计算方式可以同时执行多个任务,大大提高了计算效率和速 度。

GPU 采用了数量众多的计算单元和超长的流水线,但只有简单的控制逻辑并省去了 Cache;而 CPU 不仅被 Cache 占据了大量空间,而且还有有复杂的控制逻辑和诸多优化 电路,相比之下计算能力只是 CPU 很小的一部分。CPU 需要很强的通用性来处理各种不 同的数据类型,同时又要逻辑判断又会引入大量的分支跳转和中断的处理。这些都使得 CPU 的内部结构异常复杂;而 GPU 面对的则是类型高度统一的、相互无依赖的大规模数 据和不需要被打断的纯净的计算环境。 GPU 最初用在 PC 和移动端上运行绘图运算工作的微处理器,与 CPU 集成以集成显卡(核 显)的形态发挥功能。NVIDIA 于 2007 年率先推出独立 GPU(独显),使其作为“协处理 器”在 PC 和服务器端负责加速计算,承接 CPU 计算密集部分的工作负载,同时由 CPU 继续运行其余程序代码。作为独显的 GPU 由 GPU 核心芯片、显存和接口电路构成。

AI 芯片在智能摄像头、无人驾驶等领域应用广泛。数据、算力和算法是 AI 三大要素,CPU 配合加速芯片模式成为典型的 AI 部署方案,CPU 提供算力,加速芯片提升算力并助推算 法的产生。常见的 AI 加速芯片包括 GPU、FPGA(Field Programmable Gate Array)和 ASIC(Application Specific Integrated Circuit)三种类型。

2021 年 1 月,OpenAI 发布了 OpenAI CLIP,用于进行图像和文本的识别分类;同时 推出全新产品 DALL-E,该模型可以根据文字描述自动生成对应的图片,2022 年更新的 DALL-E2 更是全方位改进了生成图片的质量,获得了广泛好评。2022 年 12 月,OpenAI 推出基于 GPT-3.5 的新型 AI 聊天机器人 chatgpt,在发布近两个月后拥有 1 亿用户, 成为史上用户增长最快的应用;美东时间 2023 年 3 月 14 日,ChatGPT 的开发机构 OpenAI 正式推出多模态大模型 GPT-4。 GPT-4 相较于 ChatGPT 实现能力大幅度提升。GPT-4 是一个多模态大模型(接受图像 和文本输入,生成文本),相比上一代,GPT-4 可以更准确地解决难题,具有更广泛的常 识和解决问题的能力:更具创造性和协作性;能够处理超过 25000 个单词的文本,允许 长文内容创建、扩展对话以及文档搜索和分析等用例。

数据、算力及模型是人工智能发展的三要素。以 GPT 系列为例:(1)数据端:自 OpenAI 于 2018 年发布 GPT-1,到 2020 年的 GPT-3,GPT 模型参数数量和训练数据量实现指数 型增长。参数数量从 GPT-1 的 1.17 亿增长到 GPT-3 的 1750 亿,训练数据量从 5GB 增 长到的 45TB;(2)模型端:ChatGPT 在以往模型的基础上,在语料库、计算能力、预训 练、自我学习能力等方面有了明显提升,同时 Transformer 架构突破了人工标注数据集的 不足,实现与人类更顺畅的交流;(3)算力端:根据 OpenAl 发布的《Language Models are Few-Shot Learners》,训练13亿参数的GPT-3 XL模型训练一次消耗的算力约为27.5PFlop/s-dav,训练 1750 亿参数的完整 GPT-3 模型则会消耗算力 3640 PFlop/s-dav(以 一万亿次每秒速度计算,需要 3640 天完成)。

GPT-4相对于3来讲训练需求的算力更大。以GPT-3模型为例,以算力需求= 2 × 参数数量 × 3 × 数据规模 × 训练轮数为计算模型,以 OpenAI 数据为基础,则训练 1 轮 GPT-3 需要 的算力= 2 × 174.6 × 10^9 × 3 × 300 × 10^9 × 1 = 3.14 × 10^23flop,如果采用 A100 芯 片 , 则 GPT-3 需 要 的 算 力 为 = 3.14 × 10^23/(39 × 10^12 × 365 × 24 × 60 × 60 = 241A100 − years(即一张 A100 芯片需要训练 241 年),如果需要一个月训练完则需要 2000 多张 A100。可见,GPT-3 对于算力的需求巨大,GPT-4 相对于 3 来讲,参数是其 20 倍左右,且增加了多模态,因此对于算力的需求更大。 全球算力规模将呈现高速增长态势。根据国家数据资源调查报告数据,2021 年全球数据 总产量 67ZB,近三年平均增速超过 26%,经中国信息通信研究院测算,2021 年全球计 算设备算力总规模达到 615EFlops,增速达 44%。根据中国信通院援引的 IDC 数据,2025 年全球算力整体规模将达 3300EFlops,2020-2025 年的年均复合增长率达到 50.4%。结 合华为 GIV 预测,2030 年人类将迎来 YB 数据时代,全球算力规模达到 56ZFlops, 2025-2030 年复合增速达到 76.2%。

大模型核心是训练算力,Chat 流量核心是推理算力。从训练侧来看,我们了解到大模型 训练需经过无监督学习出预训练模型、有监督学习数据集,奖励学习,强化学习暴力计算 四个阶段,训练过程一般在 1 个月左右,超过 2 个月则不具备工程和商业落地价值。因此 需要大规模 GPU 服务器组网训练。从经验来看,GPT-3 级别模型需要大约 1000 张 A100 级别的训练卡才能确保在一个多月时间完成训练。如果是 GPT-4 级别多模态训练,则需 要在每个模态分别训练收敛,最后在全局收敛,训练成本又在 GPT-3 基础上大幅增长数 倍乃至十数倍、数十倍。当前国内大模型训练爆火,相关企业、团队不下 10 家,垂类模 型如同花顺(金融)、云从(多模态)等则更多,因此训练侧需求爆棚,相关 GPU、服务 器、光模块乃至 PCB、serdes、HBM 等需求将持续爆棚才能确保不打输当前的军备竞赛。 但就 openAI 不支持 ChatGPT 的 Plus 付费而言,更多的问题出在推理测。与训练侧不 同,当模型训练完成、应用场景固定,通过对模型进行裁剪、优化参数网络存储、降低精 度降低存储量和计算强度降低对显存、片间带宽和算力的要求,可以降低对单张卡的算力 要求。但推理直接服务用户和应用,面对的是上亿(360)、数亿(淘宝)、十亿(微信、tiktok、tw、fb、google)等海量流量的冲击,所需要的算力规模无比巨大,从经验来看远 大于训练侧的算力需求。

因此我们建议关注 openAI 不支持 ChatGPT 的 Plus 付费对训练、推理两条线的影响:对 训练侧,主要影响在于爆火刺激大模型研发相关方积极投入为未来的 AI 红利抢占先机; 对推理侧,openAI 当前用 A100 支持推理侧直面海量用户的策略遭受巨大挑战,也预示着 未来推理侧算力的巨大红利尚待挖掘。 商汤发布大模型,继续看好算力线。商汤 4 月 10 日宣布推出大模型体系“日日新大模型”。 用户高度关注的语言问答和图片 AI 生成功能部分。1.中文语言大模型应用平台,商汤将其 命名为“商量”,希望 AI 能在商量的过程中帮助用户解决问题。“商量”平台目前参数量 为 1800 亿。实现多轮对话、基于人设的对话、共情等出现类 chatgpt“涌现”能力。2. 文生图方面,“秒画”可理解为对标 Midjourney 的 AI 绘图产品,并实现了部分 Civitai(C 站)功能,尤其值得注意的是,“秒画”实现了 2 秒出图和自训练功能。商汤此次发布大 模型表示出国内大模型有能力达到 GPT3.5的水平,看好大模型军备竞赛,利好算力产业。

2.1.2大模型/垂类模型:随着数字经济、元宇审等概念的逐渐兴起,大模型迅速发展

随着人工智能赋能实体经济进入深水区,企业通常面临数据资源有限、算力投资难度大、 高水平人才稀缺的发展瓶颈。大模型作为解决上述问题的最优路径之一,可极大降低企业 的技术门槛和开发成本。 IDC 定义下的 AI 大模型是基于海量多源数据打造的预训练模型,是对原有算法模型的技 术升级和产品选代,用户可通过开源或开放 API/工具等形式进行模型零样本/小样本数据 学习,以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。大模型的 核心作用是突破数据标注的困境,通过学习海量无标注的数据来做预训练,拓展整体模型 前期学习的广度和深度,以此提升大模型的知识水平,从而低成本,高适应性地赋能大模 型在后续下游任务中的应用。在实践中,预训练大模型在基于海量数据的自监督学习阶段 完成了“通识”教育,再借助“预训练 精调”等模式,在共享参数的情况下,根据具体 应用场景的特性,用少量数据进行相应微调,即可高水平完成任务。

从技术的角度来看,大模型发端于自然语言处理领域,以谷歌的 BERTOpenAI 的 GPT 和 百度文心大模型为代表,参数规模逐步提升至千亿、万亿,同时用于训练的数据量级也显 著提升,带来了模型能力的提高。此外,继语言模态之后,如视觉大模型等其他模态的大 模型研究,也开始逐步受到重视。进一步地,单模态的大模型被统一整合起来,模拟人脑多 模态感知的大模型出现,推动了 AI 从感知到认知的发展。 国家政策对 AI 产业应用的关注与引导将推动预训练大模型加速发展。在国家层面,各国 都在强调人工智能在发展中的重要性,并相继出台相关政策,希望在新一轮产业变革中占 据上风。中国在“十四五”期间,针对人工智能的未来发展陆续出台了相关指导方案和激 励支撑政策,对人工智能的整体发展方向和技术发展重点做出重要规划,同时提出加强算 法创新与应用、推动算力基础设施建设、完善数据基础支撑体系等关键建议,倡导未来不 断夯实产业发展新基础。 2021 年中国人工智能软件及应用市场国模为 51 亿美元,预计 2026 年将会达到 211 亿美 元,各行业的需求正大力推进 AI 的发展,将推动市场的持续增长。

随着数字经济、元宇审等概念的逐渐兴起,人工智能进入大规模落地应用的关键时期,但 其开发门松高、应用场景复杂多样、对场景标注数据依赖等问题开始显露,阻碍了规模化 落地。AI 大模型凭借其优越的泛化性、通用性、迁移性,为人工智能大规模落地带来新的 希望。

2.1.3 AI监管:AIGC高速发展,AI监管重要性凸显

4 月 11 日,国家互联网信息办公室发布关于《生成式人工智能服务管理办法(征求意见 稿)》(以下简称“《管理办法》”)公开征求意见的通知。《管理办法》明确提出,利用生成 式人工智能生成的内容应当真实准确,采取措施防止生成虚假信息。 根据《管理办法》,提供生成式人工智能产品或服务应当遵守法律法规的要求,尊重社会 公德、公序良俗,符合以下要求: 同时《管理办法》指出,利用生成式人工智能产品提供聊天和文本、图像、声音生成等服 务的组织和个人(以下简称“提供者”),包括通过提供可编程接口等方式支持他人自行生 成文本、图像、声音等,承担该产品生成内容生产者的责任;涉及个人信息的,承担个人 信息处理者的法定责任,履行个人信息保护义务。

此外,《管理办法》指出,利用生成式人工智能产品向公众提供服务前,应当按照《具有 舆论属性或社会动员能力的互联网信息服务安全评估规定》向国家网信部门申报安全评估, 并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。 同一时间,美国商务部也就 ChatGPT 等 AI 工具监管措施公开征求意见。作为潜在监管的 第一步,美国商务部 4 月 11 日就相关问责措施正式公开征求意见,包括新人工智能模型 在发布前是否应经过认证程序,征求意见期限为 60 天。此前一周,全球范围内已掀起了 对 ChatGPT 潜在风险的关注,意大利、德国等计划加强对 ChatGPT 的监管。

2.1.4 核心应用:AI 办公为核心落地场景

在 AIGC 产业链的下游,可以将相关应用拓展到四个主要场景:文本处理、音频处理、图 像处理、视频处理。 文本处理是 AIGC 相关技术距离普通消费者最近的场景,也是技术较为成熟的场景,许多 应用公司都会从多个维度出发,辅助业务拓展与商业化过程中。一般说来文本处理可以细 分为营销型、销售型、续写型、知识型、通用型、辅助型、交互型、代码型。 目前的音频处理主要分为三类:音乐型、讲话型、定制型,很多公司都专注于此。AI 的应用将优化供给效率,改善整体利润水平。 图片的创作门槛比文字高,传递信息也更直观,所以商业化的潜力自然也更高。随着 AIGC 应用的日益广泛,图片处理也就从广告、设计、编辑等角度带来更大更多的机遇。图片处 理可细分为生成型、广告型、设计型、编辑型。

随着时代的发展,人们在视频上的投入逐渐超出了在图片上的,视频也日益成为新时代最 主流的内容消费形态。因此将 AIGC 引入视频将是全新的赛道,也是技术难度最大的领域。 视频处理可以细分为生成型、编辑型、定制型、数字虚拟人视频。 同花顺拥有大量的训练数据。同花顺的主营业务是基于为个人投资者提供专业化的投资工 具(软件),从而向用户收取会员费、向证券公司收取开户导流费。据 QuestMobile 数据 显示,2022 年下半年,同花顺炒股票 APP 接近 3000 万人次,当前全国自然人投资者数 量约为 2.1 亿人,同花顺在同类产品中市占率领先。 同花顺深耕 AI 领域,初步具备一些应用能力。公司的投顾问答场景应用了语言模型自然 语言处理的技术。相对于目前较为主流的“端到端”的绩效评估形式,较早的使用了语言 模型来完成对用户的问句结构化查询和匹配的建模。目前用户向爱问财提问,它还只能给 出一个较为宽泛的一般性回答,未来需要做的就是将它推进到较为精确的阶段,如提供一 些结构化的图表。需要利用爱问财近 10 年的自然语言工具与结构化查询数据的积累来训 练语言模型,做到更精确的自然语言理解和结构化匹配。

金山办公的 WPS 产品为国内 AI 办公软件生态落地最佳场景,公司主动拥抱生成式 AI 技术变革。金山办公拥有办公应用套件 WPS Office,为对标 Microsoft 365 的 AI 办公软 件应用落地优质场景。自 2017 年起,AI 即上升至金山办公产品战略之一,公司 AI 业务 已经历技术研发、技术产品化两个阶段,进入当前的 AI 产品业务化阶段,计划将 AI 产品 沉淀转化为公司实际业务以推动公司业绩增长。面对生成式 AI 技术变革,根据 CEO 章庆 元采访,公司 2023 年将在 AI 领域进一步重点发力,会侧重在内容生成、BI 等表格应用、 格式美化等 AIGC 方面实现更多技术应用突破,主动拥抱 AI 技术变革。

公司积极探索 AIGC 技术,拟发行 GDR 推进全球化公司积极探索结合 AIGC、LLM 技 术的下一代人机交互体验,并在文档翻译、听读、中英文校对、语音及音频转写、智能辅 助写作及排版、表格数据智能分析、PPT 一键生成及美化等场景进行融合,为用户提供 便捷优质的智能化服务体验。2022 年,金山办公利用 AI 能力帮助用户校对总字数达 3,340 亿个,全年 OCR 处理图片数量达 146 亿份,智能美化功能月活跃用户数量达 237 万。

2.2 坚守边际优先资产

从海外模型角度看,GPT 系列不断更新迭代,3 月初,GPT 成本降低 90%,以及 GPT-4 Office全家桶 Microsoft 365 Copilot发布,打开ai应用想象空间,促进海外应用接入 GPT, 相对国内而言,海外应用接入 GPT-4 更加容易和方便。 从大模型本身看,自然语言处理(Natural Language ProcessingNLP)是用计算机来模拟、 延伸及拓展人类语言能力的理论、技术及方法,是融合语言学、计算机科学、数学等于一 体的综合性学科。自然语言处理目前面临的关键问题是人类语言的复杂性和多样性,例如 同样的词汇在不同的语境之下意思不完全一致、日常用语中的反识等反向情感表达,句式 结构的多变和缺失所引发的歧义以及方言和“行话”等语言个性化特点。 计算机视觉(ComputerVisionCV)是指使用计算机及相关设备来模拟生物视觉的技术, 即基于传统或深度学习算法,赋能计算机理解数字图像和视频,并从各种模态的数据之中 提取目标信息。其主要目标是开发“机器之眼”,不仅让计算机具备视觉能力,更让计算 机识别、理解“看”到的多模态数据。

多模态大模型的发展从 OpenAl 的 CLIP(文本图像匹配),以及 Dall·E(文生图)拉开 帷幕,目前跨多个模态的数据融合问题开始变成行业探究的重点。多模态是指多个模态感 知与认知的融合。对于人类来说,所有感知交互方式的融合形成了社会交流;对于计算机来 说,是通过对文本、图片、视频和音频等不同储存信息载体的认知和理解,结合环境因素 来模拟人与人之间的交互方式。多模态技术的重要性不言而喻,让人工智能理解人类世界 的最优办法就是让 AI 成功理解多模态信息并能够对此类信息形成分析、推理的逻辑和生 成新信息的能力。

近期 Meta 发布 SAM,看好多模态解决方案产业链 。Meta 可以快速识别照片/视频中的 所有物体,并智能地将其分割成不同的形状和板块。1)相较于普通的抠图软件来说,原 本需要手动选择的目标,现在只需要 SAM 的识别就可以快速分割画面中的物品,且精准度,效率都要比个人操作高。2)此外,SAM 的一大突破还在于,即使是在训练过程中从 未遇到过的物品和形状,人工智能也能将其准确识别并分割出来。3)交互方面,SAM 还 支持用户使用各种交互性的方式来分离出想要的物体。可以通过将鼠标悬浮在该物体之上, 就能自动定位出物体的轮廓。即使是颜色非常相近或者有连人眼都很难快速分辨出的倒影 的图片之中,SAM 都能非常准确找出轮廓边线。也可以直接通过输入文字查询,AI 就可 以找到并标记出这个图片中对应的文字对象。4)视频方面,对于视频中的物体,SAM 也 能准确识别并且还能快速标记出物品的种类、名字、大小,并自动用 ID 给这些物品进行 记录和分类。5)编辑方面,除了能把物品从图像中精准地分离出来,SAM 还能支持对这 个物品的编辑。

SAM 基于 1100 万张照片训练,模型和数据全部开源,看好多模态解决方案产业链。1) SAM 开创性地跟 Prompt 结合了起来。它可以接受各种输入提示,例如点击、框选或指定 想要分割的对象,这种输入并不是一次性指令,你可以不停地对图像下达不同的指令达到 最终的编辑效果,这也意味着此前在自然语言处理的 Prompt 模式也开始被应用在了计算 机视觉领域;此外,SAM 基于 1100 万张图像和 11 亿个掩码的海量数据集上进行训练, 这是迄今为止最大的分割数据集;SAM 在各种分割任务上具有很强的零样本性能。零样 本意味着 SAM 可以在不对特定任务或领域进行任何额外训练或微调的情况下分割对象。2) 我们看好多模态产业链,Meta 此次推出 SAM 预示着大模型在多模态发展方面更进一步, 布局计算机视觉/视频的厂商有望在 Meta 产品推出的背景下持续受益。

盘古大模型初露头角,成果显著。2021 年 4 月份发布了盘古 NLP 大模型和盘古机器视觉 大模型,当年也发布了盘古科学计算大模型,在 2021 年 9 月份,用于药物研发中小分子 药物筛选发布了盘古药物分子大模型;到 2022 年在行业中拓展应用,比如和能源集团合 作发布了盘古矿山大模型,到2022年11月份在华为HDC大会上发布了盘古气象大模型; 在 2022 年的 HDC 泰国上,发布了盘古海浪大模型、盘古金融 OCR 大模型。

盘古生态逐步完善,有望将 AI 赋能众多行业。大模型是连接技术生态和商业生态的桥梁, 是未来 AI 生态的核心。盘古大模型可分为三个层级。L0 是基础通用模型,比如 GPT3, 但应用到行业中达不到最好的效果。L1 是行业大模型,在 L0 的基础上加入行业数据,通 过混合训练得到。L2 是部署模型,将 L1 在具体下游、千行百业的细分场景进行部署得到 L2。尽快的降低生产成本、提高效率,由 L1 升级到 L2 是关键。 盘古大模型聚焦“AI for industries”,凸显泛化能力优秀、样本能力高效、使用门槛较低 的特点,有望推动人工智能开发从“作坊式”到“工业化”升级,应用领域将包括气象、医药、游戏、税务、工业、机械、航天航空、土木、地质等多方面。

盘古大模型底层昇腾生态链完善,产能确定落地确定。以“一平台双驱动”布局,昇腾生 态链逐渐完善。“一平台”:昇腾基础软硬件平台,包括 AI 处理器、服务器硬件、芯片使 能软件、MindSpore 全场景 AI 计算框架和应用使能平台 MindX。 “双生态”:(1)AI 技术生态,包括科研机构、高校、企业、合作伙伴的研究和开发人员。 (2)AI 商业生态,包括 ISV、IHV、整机伙伴、一体机合作伙伴等。 昇腾计算产品众多。其中,昇腾 910 芯片支持全场景人工智能应用,昇腾 310 芯片主要 用在边缘计算等低功耗的领域。华为已联合超 100 家头部 ISV 基于昇腾孵化超过 120 个 解决方案。为盘古大模型的发展提供底层算力核心支持。

盘古大模型聚焦“AI for industries”,凸显泛化能力优秀、样本能力高效、使用门槛较低 的特点,有望推动人工智能开发从“作坊式”到“工业化”升级,应用领域将包括气象、 医药、游戏、税务、工业、机械、航天航空、土木、地质等多方面。

阿里通义大模型架构庞大。阿里通义大模型整体可分为三个层次,分别为行业模型、通用 模型与模型底座。 (1)模型底座层: 主要构建语言和视觉的模态映射,通过统一学习范式与模块化设计来 实现; (2)通用模型层:主要包括多模态模型“通义-M6”;NLP 模型“通义-AliceMind”和 CV 模型“通义-视觉”。每个模型下对应不同的功能模块。 (3)行业模型层:结合电商、设计、医疗、娱乐、设计、金融、工业、制造业等行业的特 点,对通义大模型进行功能完善和应用细分。

通义大模型厚积薄发。阿里在 NLP、多模态模型领域技术实力雄厚。2019 年,阿里开发 出了大规模预训练语言模型 structBERT 并登顶全球 NLP 权威榜单 GLUE;2021 年,阿 里开发出了国内首个超百亿参数的多模态大模型 M6。凭借多年的发展,2023 年 4 月阿里 开放通义千问内测。

飞天智算平台为大模型提供强大算力。大模型竞赛本质上已延伸到算力层面,云计算是支撑更聪明 AI 的基础。2022 年 8 月,阿里云推出全栈智能计算解决方案——飞天智算平 台,为科研、公共服务和企业机构提供强大的智能计算服务,可将计算资源利用率提高 3 倍以上,AI 训练效率提升 11 倍,推理效率提升 6 倍。 阿里推出“魔塔”社区,让模型应用更简单。2022 年 11 月,阿里巴巴达摩院推出人工智 能模型开源社区“魔搭”(ModelScope),旨在打造下一代开源的模型即服务共享平台,为 泛 AI 开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单。“魔搭” 社区首批上架超 300 个模型,其中中文模型超过 100 个,覆盖了视觉、语音、自然语言 处理、多模态等 AI 主要领域,推动 Al 应用发展。不到半年的时间里,“魔搭”社区总用 户量已超 100 万,模型总下载量超 1600 万次,成为国内规模最大的 AI 模型社区。

阿里智能家居业务蓬勃发展。根据 36 氪显示,2023 年中国智能家居市场规模将突破 5000 亿元。阿里在智能家居业务上多面出击,重兵布局,主要和传统家电企业合作,构建开放 式平台,形成了较为完整的大家居战略。天猫精灵成为消费者购买智能音箱的首选品牌, 2022 年市场份额为 27%。

阿里智能家居主要通过阿里云 LoT 进行阿里智能家居生态的打造。主要包括三方面: 阿里 云 LoT 平台产品、阿里云 LoT 基础产品和阿里云 LoT 应用&服务。

(1)阿里云 LoT 平台产品

阿里云 Link 生活平台(生活物联网平台),阿里云 Link 城市平台(城市物联网平台)和阿里云 Link 商业共享平台(商业共享平台)。

(2)阿里云 LoT 基础产品

阿里云 Link Edge(将计算扩展至边缘),阿里云 Link WAN (广域低功耗物联通讯网络) 和 AliOS Things(嵌入式物联网实时操作系统)。

(3)阿里云 LoT 应用&服务

阿里云 Link 测试&认证服务(软硬结合的测试&标准化认证服务)和阿里云 Link 魔笔 (自然书写笔迹数字化的云端产品)。

天猫精灵 GPT 已进入内测。阿里云将推动 AI 进一步普及。阿里巴巴所有产品未来将接 入大模型。目前,钉钉、天猫精灵已经在测试接入大模型。接入通义千问后,新天猫精灵 变得更拟人更聪明,知识、情感、个性、记忆能力大幅跃升。 大语言模型“通义千问”正式推出。4 月 11 日的阿里云峰会上,阿里云正式宣布推出大 语言模型“通义千问”。通义千问是一个超大规模的语言模型,具备多轮对话、文案创作、 逻辑推理、多模态理解、多语言支持等功能。

三、数据要素:数字经济之基

3.1 乘数字经济之风,数据要素市场快速发展

数据服务商在数据要素产业链处于核心位置,起到链接数据供应方和需求方的作用。数据 要素产业链上游主要是数据提供方,主要提供公共数据、业务信息、个人信息的数据。中 游主要是数据服务商、数据交易所。下游是数据需求方,包括政府、金融、教育、医疗等 行业客户。

在数字社会,数据扮演基础性战略资源和关键性生产要素双重角色,一方面,有价值的数 据资源是生产力的重要组成部分,是催生和推动众多数字经济新产业、新业态、新模式发 展的基础;另一方面,数据区别于以往生产要素的突出特点是对其他要素资源具有乘数作 用,可以放大劳动力、资本等要素在社会各行业价值链流转中产生的价值。 根据《中国数据要素市场发展报告》,数据要素对我国 GDP 增长的贡献率和贡献度在 2021 年分别为 14.7%和 0.83 个百分点。总体来说,数据要素对当年 GDP 增长的贡献率呈现持 续上升状态,表明数据要素正发挥越来越大的促进作用。

数据要素包含七大模块,具备泛在赋能等特点。我国数据要素市场归结为数据采集、数据 存储、数据加工、数据流通、数据分析、数据应用、生态保障七大模块,覆盖数据要素从产生到发生要素作用的全过程。其中数据采集、数据存储、数据加工、数据流通、数据分 析、生态保障六大模块,主要是数据作为劳动对象,被挖掘出价值和使用价值的阶段;而 数据应用模块,主要是指数据作为劳动工具,发挥带动作用的阶段。

数据要素流通环节亟待发展。数据要素市场涉及环节众多,包括数据采集、数据分析、数 据加工、数据确权、数据质量评估、数据定价、数据交付、数据治理、数据安全等。经过 数年乃至十数年的发展,行业数字化取得了相当的进展,传统 IT 服务市场已较为成熟, 但跨行业、跨公司的数据要素流通仍有较大发展空间,新兴 IT 服务市场迎发展机会。

数据供给:当前中国数商行业企业数量为 192 万家,数据产品和服务供给不足。根据国 家工信安全发展研究中心,从市场规模来看,2021 年,数据供给环节(采集、存储、加 工)的市场规模达到 385 亿元。2021 年中国数据要素市场规模约为 815 亿元(不含数据 应用),其中,数据供给环节占比 47.2%。从数商企业数量来看,存在明显的供需不匹配 问题,缺少标准化和规划化产品。高质量数据产品的背后是高质量数商。根据上海数据交 易所官网,截至 2022 年 11 月,上海数据交易所累计挂牌数商仅 89 个。根据《全国数商 产业发展报告》,截至 2022 年 11 月,中国数商行业企业数量达到 192 万家。其中,中国数商产业主要集中在长三角、珠三角、京津翼、川渝地区,四大区域合计占比达到 56.8%。

数据流通:目前仍以场外交易为主,场内交易持续发力。从市场规模来看,根据国家工信 安全发展研究中心,2021 年中国数据流通(交易、分析、数据服务)市场规模约为 380 亿元,占中国数据要素市场规模的 46.6%。从市场占比来看,根据上海数据交易所研究院, 2022 年,场外交易占全部交易的比重约为 2%。预计到 2025 年,场内交易占比将达到 1/4~1/3。场外交易平台集中度低,场内交易以省市级交易所为主。2014 年 1 月,中关村 数海大数据交易中心平台成立,拉开了场内交易的序幕;2015 年 4 月,全国首家大数据 交易所贵阳大数据交易所获批成立;2022 年 11 月,深圳数据交易所正式揭牌成立,至此, 北上广深四大一线城市均开启了新的数据流通探索。 自 2020 年以来,国家陆续出台数据要素市场化改革的法规及政策文件,总体围绕“以数 据安全为前提,完善数据要素产权配置、完善数字治理、细化市场领域”,由浅入深地建 立健全数据要素市场的基础制度。

搭乘数字经济的快车,我国数字要素市场整体处于高速发展阶段。“十三五”期间,我国 各个要素市场规模均实现稳定增长,以数据采集、数据存储、数据加工、数据流通等环节 为核心的数据要素市场增长尤为迅速。据国家工信安全中心测算,2021 年我国数据要素 市场规模为 704 亿元,预计到 2025 年我国数据要素市场规模将达到 1749 亿元,2021 年 -2025 年的年复合增长率超过 25%。根据中国信通院数据显示,仅有 32%的企业数据价 值会被激活,还有数据未被采集、加工、流通和分析,我们可以预期未来数据要素市场将 会在立法与技术的双重培育下,保持高速增长。

3.2 数据要素加速落地,医疗数据优势明显凸显

新政策带来新机遇,国家重视医疗健康领域的数据建设。2022 年 5 月 20 日,国务院 办公厅发布《“十四五”国民健康规划》,提出促进全民健康信息联通应用,构建权威统一、 互联互通的全民健康信息平台,完善全民健康信息核心数据库,推进各级各类医疗卫生机 构统一接入和数据共享。探索建立卫生健康、医疗保障、药监等部门信息共享机制,通过 全国一体化政务服务平台,实现跨地区、跨部门数据共享。研究制定数据开放清单,开展 政府医疗健康数据授权运营试点。2023 年 3 月 23 日,中共中央、国务院发布了《关 于进一步完善医疗卫生服务体系的意见》,提出发挥信息技术支撑作用,加强健康医疗大 数据共享交换与保障体系建设;建立跨部门、跨机构公共卫生数据共享调度机制和智慧化 预警多点触发机制;推进医疗联合体内信息系统统一运营和互联互通,加强数字化管理。

在数据要素相关政策出台的推动下,医保数据应用有望加速。2021 年 8 月,国家医保局 提出打造“保险 健康”服务生态闭环,依法依规探索商业健康保险信息平台与全国统一 的医疗保障信息平台信息共享机制,强化医疗健康大数据应用,助推保险精算创新发展。 2023 年 1 月 12 日,全国医疗保障工作会议提出“把大数据赋能作为医保改革发展的重 要借力点,最大程度发挥全国统一医保信息平台作用,更安全更积极更有序地用好医保大 数据。”数据要素相关政策的陆续出台,医保数据应用的路径、场景逐渐清晰。

国家医保局成立后,我国医保信息化建设加速,全国统一医保信息平台基本建成并投用, 各地医保信息平台也在快速推进,医保信息化进入建设高峰期。医保支付方式改革,如 DRG/DIP 等,为医保信息化建设带来新机遇,需要医院和医保部门升级改造原有系统, 提高信息化水平。

医疗机构端信息化投入主动性将显著提升。过去医院信息化建设的目的主要为:完善院端 功能、提升运营效率和服务水平、通过大数据和云计算等提高信息管理水平。由于信息化 投入效益难以在短期体现,过去外部资金支持较为短缺,信息部人力资源不足,医院管理 层缺乏资金投入动力。一方面,随着行业众多催化政策陆续落地,各项信息化建设规划明 确,国家卫健委等官方部门资金支持力度加大,多项信息系统被纳入医院评级标准,各项 外部因素驱动医院主动增加信息化投入。另一方面,人口老龄化、新冠疫情等加重医疗服 务与管理压力,医院发展也逐步走向精细化阶段,信息化建设对医院综合实力的影响逐步 体现,信息化投入的内部主动性也将逐步提高。

医疗健康数据具有广泛应用场景。如疾病智能筛查诊断场景,通过融合医院诊疗数据,促 进如疾病自动筛查、辅助诊断(CDSS)、智能医疗培训等医疗人工智能技术的加速发展以 及规模化应用;普惠健康险场景,通过融合保险数据、诊疗数据、医保数据、健康数据等, 设计普惠创新的医疗保险,提供更加精准的保险定价、投保核保、理赔等服务;健康管理 场景,通过融合医疗、健康管理(手环、手机健康 APP 等)、消费等数据,对个人健康进 行综合建模,形成慢病管理、疾病预防、健康产品推送等综合应用。 院端投入规模仍有较大提升空间。根据国家卫健委发布的《全民健康信息化调查报告—— 区域卫生信息化与医院信息化(2021)》数据显示,2020 年各医疗机构年度信息化建设资 金投入占总收入比例在 0.1%~1%的医院占 53.7%,比例在 1%~5%的医院占 32.0%,比 例超过 5%的医院占 7.4%,未投入的医院占 6.8%。据前瞻产业研究院,发达国家医疗机 构信息化建设资金投入占总收入比例在 3~5%,相比之下我国医疗机构的 IT 支出占收入比 重仍然偏低。

四、国产化/密码:国产替代提速

4.1 国产化浪潮持续推进,拥抱自主可控

自中兴事件以来,中美贸易摩擦愈演愈烈,美国已经将数百家中国企业、机构加入“实体 清单”,限制美国技术产品对华输出。 2022 年 10 月,美国工业和安全局(BIS)宣布新 一轮的对华芯片出口管制措施,新规旨在限制中国获得先进计算芯片、开发和维护超级计 算机以及先进工艺制造能力,给中国超算、芯片产业链带来震动。短中期内带来代工风险, 但是也进一步倒逼芯片制造向国产供应链切换,加速产业成熟。

时代大背景下,需求端自主可控发展的迫切性日益凸显。国家政策导向更加积极,敦促和 引导信创产业发展;同时,产业对于国产替代的迫切性、主动性也在加强,以试点项目、 实际业务使用反向催化国产产品技术的成熟。2020 年正式规模落地应用以来,信创产业 已经开始支撑党政办公系统、金融、电信等部分业务系统。

供给侧,国产产品不断优化。信创生态系统构建以 CPU OS 为基础。国产 CPU 主要参 与者有海光信息、海思半导体、龙芯中科、上海兆芯、天津飞腾等,产品技术持续迭代提 高可用性。服务器端,海光信息具有明显的兼容 X86 生态优势,而华为积极构建产业生态, “鲲鹏”ARM 生态加速成熟,PC 端,飞腾引领市场份额。操作系统领域,主要由麒麟软件 和统信参与。

随着信创产业的深入发展,国产基础软硬件厂商的业务规模高速发展,并且持续升级优化 产品技术,提供更可用、更好用的产品技术。2022 年以来金融为代表的行业信创推进持 续超预期,相比党政办公系统替换,行业信创以业务系统服务器需求为主,带动服务器 CPU 核心厂商海光信息业务在 2022 年继续提速高增,表现尤其突出。

行业信创已经推进至右侧阶段,党政市场替代节奏待观望。金融、电信行业已经推进三年 时间,通过业务系统测试不断打磨国产软硬件产品可用性,为后续更多行业的国产替代打 下坚实基础,进入 22 年下半年,信创与各行业信息化、安全发展需求形成强共振,目前 教育、医疗、能源、交通等行业均在有序加速替代之中。同时,党政替换第一阶段基本完 成,后续推进节奏仍待观察,但未来下沉市场、外网政务系统替换仍有数倍空间。 千亿信创基础软硬件市场可期。我们在此前海光信息、神州数码首次覆盖报告中对党政、 信创的服务器市场空间进行了梳理,替代空间过千亿。若以现有政府、重要行业的终端和 服务器数量为基础,对国产 OS 替换空间进行测算,我们测算国产 OS 市场可替换空间超 过 300 亿,年化替代市场约为 63.81 亿元。

服务器数量,根据 IDC 数据,2020 年我国服务器出货量约为 350 万台,重要行业占 其中 40%左右,政府为 16%,我们估算 2020-2022 年已经替换的服务器量约为 84 万台,另外按照电子设备 3 年一更新计算存量。 终端数量,参考两方面口径,我们假设可替代终端总量约为 5355 万,根据飞腾、金 山办公、麒麟软件等企业 2020-2022 年的销售额数据,我们估算党政市场已有约 600 万台的替换;a) 服务器与 PC 的经验配比,不同行业约 1:10~20; b) 政府及金融、电信、能源、教育等重要行业的从业人员数量:我国金融行业从业人数 已突破 800 万人;三家基础电信合计员工数量 110 万左右;教育行业从业人员超过 2000 万,教师超过 1700 万;电力、热力、燃气及水生产和供应业从业人员 466 万; 全国卫生人员总数 1398.3 万人。另外,还需要考虑能源、医疗、教育等部分行业从 业人员并不需要配备 PC。 终端 PC OS 价格,假设为 300 元/套,服务器 OS 价格假设为 3500 元/套; 替换节奏,我们假设 2023 年-2027 年五年期为主要替换时间;

4.2 密评和国产化双催化,商密产业高速发展

近年来随着国内外网络安全事故的频发,我国政府不断提高对网络安全的重视。2013 年 先后设立了重要国家安全委员会、中央网络安全和信息化委员会。2017 年 6 月 1 日,《网 络安全法》正式发布,等级保护制度随之上升到法律层面;2019 年 5 月,公安部正式发 布《信息安全技术网络安全等级保护基本要求》,开启等保 2.0 时代。与等保 1.0 相比,等 保 2.0 延续了五个级别的划分。同时,将可信验证列入各级别和各环节的主要功能要求, 要求在通讯传输过程中采用密码技术保证敏感信息字段或整个报文的保密性,同时强调采 用密码技术保证重要数据在存储过程中的保密性。新版商用密码法发布在即。

商业密码行业产业链为:芯片-板卡-加密机服务器。目前市场中从事芯片业务的公司主要 为卫士通、三未信安、国芯科技(上市)、北京宏思、恩智浦;从事从事密码板卡的公司主要为卫士通、三未信安、渔翁信息;从事加密机服务器的主要为卫士通、格尔软件、吉 大正元、信安世纪、数字认证。

当前,商密应用领域基本实现全覆盖,初步实现了商用密码产品与行业场景特点的融合应 用。其中,根据全景财经数据,商用密码在金融领域应用占比 24.05%,在政务领域应用 占比 19.31%,在通信领域占比 15.38%,在电力领域占比 12.31%,在交通领域占比 9.47%, 在税务、医疗、电子商务等其他领域占比共计 19.48%。

近年来我国商用密码行业规模不断扩大,产业规模整体呈上升趋势。2020 年在新冠疫情 流行的客观环境下,我国商用密码产业仍取得高速发展,总体规模达到 466 亿元,较 2019 年增长 33.14%,预计 2023 年商用密码行业规模有望达到 937.5 亿元。

五、重点公司分析

1、神州数码:鲲鹏生态核心厂商

鲲鹏生态核心践行者,受益国产替代进程加速。自主可控发展必要性日益凸显。国家政策 导向更加积极,敦促和引导信创产业发展;同时,产业对于国产替代的迫切性、主动性也 在加强,以试点项目、实际业务使用反向催化国产产品技术的成熟。供给侧,华为积极构 建“鲲鹏”产业生态, 神州数码是鲲鹏核心参与者,长期合作华为,率先投入“鲲鹏” 生态, 构建了从研发、生产、供应链及销售、售后服务的完整软硬件配套生态,已经获得运营商、 政府、金融等客户认可,随着国产替代进程提速,公司信创业务有望快速成长。 同时公司传统 IT 分销业务为国内龙头、云服务业务占据市场领先地位,持续分享中国数 字云化发展红利。

2、寒武纪:中国 AI 芯片领域先行者

公司是国内稀缺的 AI 算力芯片公司,公司拥有完善的智能芯片产品布局,能提供云边端 一体、软硬件协同、训练推理融合、具备统一生态的系列化智能芯片产品和平台化基础系 统软件。云端产品线方面,公司已先后推出了思元 290 和思元 370 芯片及相应的云端 智能加速卡系列产品、训练整机。边缘产品线方面,公司面向边缘计算场景推出的思元 220 芯片和边缘智能加速卡已落地多家头部企业,自发布以来累计销量突破百万片。IP 授权 及软件方面,公司先后推出了用于终端场景的寒武纪 1A、寒武纪 1M 系列智能处理器, 授权给客户在其产品中使用。

3、金山办公:订阅制转型稳步推进,中国版 Microsoft 365 Copilot

国产办公龙头地位稳固,B 端空间逐步释放、C 端竞争力强劲。国内机构订阅:金山对 主流客户覆盖广泛,目前渗透率仍然较低,实际人均单价与公司产品能力不匹配,随着信 创推进和公司产品能力提高,渗透率空间带来更大弹性;国内个人订阅:WPS 产品产品优化、功能完善、会员长期化策略下,付费转换、ARPU 值稳步提升;国内机构授权业务: 党政下沉和业务系统替换启动,相比 20 年以来的办公替换,估算仍有 2-3 倍的市场空 间。

4、博汇科技:AI 监管行业景气度向上,公司业绩有望进一步增长

AI 监管行业景气度向上,公司业绩有望进一步增长。1)深耕视听信息技术领域多年,积 累众多实践经验。注重研发投入,持续保持竞争优势。2022 年公司研发投入金额为 0.48 亿元,占营收比例达到 29.40%。2)积极参与行业建设,公司实力获业界认可。积极参与 行业建设,不断提高业内影响力。公司积极参与业内资质评审、项目评审、赛事活动,实 力获得业界认可。3)优质客户数量众多,品牌影响力逐步扩大。目前已在全国所有省份 长期派驻区域负责销售和技术人员,能够在产品完整的生命周期内及时响应。

5、云赛智联:上海数据要素市场先锋部队,国资背景 全链产品双拳助威

公司坚持三大业务云计算和大数据、行业解决方案、智慧产品之间的相互支撑和依存,抢 抓全面推进城市数字化转型先机,为构建城市数字化转型新底座做准备。2022 年公司实 现营收 45.34 亿,同比下降 9.19%,其中云计算和大数据占比超 55%,是公司最核心业 务; 2022 年公司实现归母净利润 1.81 亿,同比下降 29.57%,主要受上海疫情影响所致。 数据要素资产化的进程和数据市场体系的建立都明确说明中央大力扶持数据行业发展的 态度,相比美国市场已进入能基于数据提供相应增值服务的阶段,我国数据要素市场仍处 于萌芽期,据前瞻产业研究院测算,2025 年行业拥有近两千亿的市场空间。

6、久远银海:民生信息化领军企业,数据要素应用迎变革

聚焦智慧民生,以医保和社保信息化为核心主业。久远银海 1992 年起源于中国工程物理 研究院,是中国工程物理研究院发展“军转民”事业在 IT 领域的重点支柱性企业。公司 是国内最早涉足劳动保障领域的企业之一,是国家劳动保障部社保核心平台三家开发单位 之一,此后一直专注于民生信息化领域,随着相关政策需要,将业务领域拓展到医保、社 保信息化领域。中国工程物理研究院为实控人。截至 2023 年 3 月 20 日,中国工程物 理研究院为公司实控人,合计间接持股公司 38%,国资背景为公司开展社保和医保相关信 息化服务提供了有力支撑。

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

精选报告来源:【未来智库】。

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved