旷视破局大模型：一个“中心”和两个“基本点”（旷视专属官方版）

AI商业化的真正痛点到底是什么？

作者｜晓峰

编辑｜栗子

号称“世界第一”的传奇CEO杰克•韦尔奇曾有一个比喻：“企业的组织就像是一幢房子，组织变大，房子中的墙和门就越多。这些墙和门就阻碍了部门间的沟通和协调。”

作为美国通用电气的前任总裁，在其任职二十年来，妙手回春，将一个弥漫着官僚气息的公司打造成为充满朝气、富有生机的巨头。达成这一切，关键在他的下半句：“为了加强沟通和协调，你必须把这些墙和门拆除。”

通过技术赋能提高经营效率，无疑是所有企业的追求。

在中国，这样的标杆名单里一定有华为。千禧年前，这家公司内部运行滞塞。任正非痛则思变，前往硅谷拜访多家IT巨头：双方差距显而易见，华为内部的流程变革迫在眉睫。

于是1998年，华为邀请IBM顾问团队开启了一场长达10多年合作，以客户为中心的集成产品开发流程（IPD）变革正式展开。在耗费上百亿资金后，华为从过去人均创收不足100万元，变成了超过400万元。

但相比于华为的成功，大多数公司的IT变革往往以失败收场。

当2000年信息化引入中国后，很多企业因流程过于通用化，缺乏细分业务场景，导致企业流程成本高、效率低。这种问题到即使放在企业数字化阶段依然存在。例如企业花了大价钱上了不少系统，但各系统间并不互通，未能达成企业真正想要的降本增效。

更重要的问题是：当我们已站在数字化与智能化交汇的十字路口，如何才能让无数涌现的AI大模型不再重蹈覆辙，真正在客户的实际业务中发挥价值，恐怕是今天所有产业都要深入思考的问题。

好在这一问题，已经有人给出了答案。

1.AI商业化的真正痛点到底是什么？

商业化为什么一直是AI的痛点？

一个重要的原因是，很多AI技术公司更关注技术的发展，忽略了对客户业务与需求的理解。

在当前的AI Native浪潮中，不少大模型公司在尝试将产品商业化时，常常面临两个“不知道”的困境：既不清楚市场需求，也不明白如何满足这些需求。

这种困境，给AI落地带来了两个直接挑战。

首先是需求失真：企业难以将现有的大模型技术直接应用到业务中，而且客户对大模型的期望与实际表现之间存在巨大差距。特别是在对话类应用中，现有的技术水平还不足以支撑高质量的智能助手功能。

另外，大模型技术在提高效率方面的不足也在客户业务侧被放大。目前，大模型更多被视为提升用户体验的工具，而非提升精度的手段。并且，如今的企业在IT上已经形成了一套标准化的业务流程，简单地用大模型替代现有的大数据系统，其带来的增益往往是不确定的。

因此，对于许多大模型企业来说，要想真正实现商业化，仅仅寻找适合的技术应用场景是不够的。

旷视科技CEO印奇近期指出，随着大模型时代的到来，AI行业落地“最后一公里”的效率会大幅提升、成本会显著下降。但是，“最后一公里”的问题仍然存在。

作为中国早期人工智能创业公司的领导者，印奇认为，破局的关键在于如何深入理解产业中的客户需求，并找到问题的根本原因：如何在大模型应用于新的场景、为各行各业创造价值过程中，理解客户，进而处理客户越发复杂、真实的需求。

在印奇看来，要想真正落地“人工智能 ”，更好赋能千行百业，核心不仅仅是技术的进步，更重要的是深入理解产业中的客户痛点。

为此，旷视科技关于大模型的思考，可以概括为“一个中心”和“两个基本点”，即以多模态为中心，坚持行业应用，坚持软硬结合。具体来说：

第一，重点推动从视觉大模型到多模态大模型的技术演进。

第二，面对纷繁复杂的行业应用场景，紧贴客户需求，深入理解行业，坚持与客户共创，推动行业大模型落地。

第三，坚持软硬结合，长期坚定“大模型机器人”的发展方向。

2.破局AI商业化的两个关键能力

那么，大模型企业到底需要具备什么核心能力，才能真正解决客户痛点并满足其需求？

这个问题恐怕很难直接回答。但我们或许可以从已经落地的企业中找到答案。

《2023大模型落地应用案例集》显示，国内大模型中，垂类大模型落地速度最快。这意味着在特定行业内，大模型技术能够迅速适应并解决行业特有的问题，帮助企业快速实现智能化升级。

但在落地前，大模型需要打好的第一个基础是“dirty work”。

旷视科技资深副总裁、云服务事业部负责人赵立威向「甲子光年」举例：“在金融领域，客户需要处理各种年报和报表，并提取有时效性的信息。然而，这些报表的格式、日期并不统一，必须对PDF阅读处理、时间、可靠性评估，这些都是大模型制定前就要做的工作。”

如果没有这些前期的准备工作，大模型在抓取信息时可能就无法提供足够精准的数据，也就无法解决客户的实际需求。而处理这些“dirty work”，积累数据与行业Know-How，就逐渐成了大模型的护城河。

实际上，大模型是一个结合算力、数据、算法、模型训练的综合体，企业使用AI的场景通常是基于行业和场景的数据加上业务流程，这是AI真正进入企业的核心，没有捷径。

因此，企业沉淀的高质量数据越多，大模型的“养料”就越丰富，AI Ready 的状态就越充分。如果大模型没有深入理解业务实际，技术就可能无法得到有效应用。要优化和变革业务流程，就必须在实施大模型时充分理解企业的现有业务需求和逻辑，这样才能颠覆传统的业务流程并发挥最大效益。

以旷视科技为例，自成立以来，旷视基于对客户需求和行业理解的积累，服务了众多行业的头部客户，并围绕重点行业积累了大量的知识和经验。目前，旷视科技正在与金融、运营商、智能汽车、手机等领域的客户合作，探索大模型的行业应用。

不过，数据的沉淀只是破局AI商业化的第一步，更重要的是对用户“心理”的把握，以便准确理解“需求的真谛”。

在「甲子光年」对大模型商业化的持续观察发现，目前许多客户对大模型的需求和应用并不明确。他们可能知道自己有痛点，但未必知道这些痛点是否适合用大模型来解决。一旦错误地应用大模型，可能会导致更多问题。

在这种情况下，旷视科技认为，在帮助客户梳理需求的过程中，需要不断平衡效率和效果，分析需求在技术上的可行性，以及成本上对资源和软硬件的消耗，并反复衡量投入产出比。

这些具体、细致、艰难的工作，只有通过与客户共同创造的形式，才能真正实现行业大模型的落地，并在变化中抓住企业增效的核心。

否则，仅仅将大模型简单地替换原有的IT体系，增益将会非常有限。只有充分理解已有的业务需求和逻辑，颠覆以往的业务流程、组织关系甚至是决策体系，才能发挥大模型在增效方面的作用。

访谈中，印奇表示，行业大模型要实现高质量落地，达成用户体验和商业化的更好协同，光靠开源改参数的方法绝不可行。在打造一个可靠、可控的基础大模型后，还需要运用行业内大量数据充分训练，并且：“行业大模型本质上要以客户为中心，一家企业只有真的在行业浸泡很长时间，找到行业痛点，且能把产品出售获得利润，才能达成真正行业大模型的落地。”

3.十年积淀，旷视多模态大模型为何是更优解？

“共建行业大模型”只是旷视科技破局AI商业化的关键动作之一。

另一个关键动作是，面对客户更复杂的需求场景，旷视科技需要提供一个全面、系统化的解决方案。

例如，企业对大模型的需求可能不仅限于知识库和文案总结，还可能包括图像场景的识别和分析等方面。所以当大模型应用于具体行业时，企业往往需要的是端到端的解决方案，这要求AI企业必须具备对模型、系统、数据和行业的综合理解能力。

在这种情况下，相比于单一的语言大模型，多模态大模型因其更强的泛化和理解能力，成为满足客户复杂需求的更佳选择。

旷视科技作为行业和技术的“老兵”，在多模态大模型方面的布局一直是其技术发展的主线。

印奇曾表示，从技术演进的角度来看，无论是之前的AlphaGo还是现在的大模型，本质上都是深度学习技术的延续。深度学习是人工智能技术发展的核心技术能力。

实际上，大模型的兴起是学术界和产业界在NLP、视觉、语音等深度学习核心领域研究成果积累的结果，这些成果最终促成了大模型的质变。虽然模型的规模和性能在变化，但深度学习始终是技术发展的主线。

据「甲子光年」了解，旷视自公司成立以来，在计算机视觉（CV）领域已有十年的积累，并一直坚持深度学习的基础科研，这为公司在多模态大模型的开发和应用提供了坚实的基础。

从这点上说，旷视科技从一家AI视觉公司“跨越”转型到一家多模态大模型公司，其实并不突兀。印奇也表示，一方面，旷视一直以来拥有很强的基础AI科研能力。另一方面，在视觉走向大一统路径的背景下，旷视提出的多模态大模型，本质上是视觉走向通用能力过程中，与自然语言结合的一个新阶段：“旷视在视觉的技术、数据和底层框架上都拥有很深的积累，并在此基础上补齐了在语言方面的能力，专注在多模态大模型上。”

实际上，旷视团队早在多年前就开始投入大模型的研究，在视觉技术、底层框架和数据闭环等方面积累了丰富的科研成果和人才储备。

因此，旷视能够为客户提供的不仅仅是大模型，而是一整套系统化的解决方案，包括算法库和系统组件，以适应广泛的应用场景。

此外，基于长期积累的行业经验，旷视将多模态大模型定位在数十亿到数百亿参数级别的大型模型上。这类模型具有较强的通用性，同时在行业部署成本、效率和硬件适配方面也能达到更优的平衡。

并且，旷视科技其自主研发的新一代AI生产力平台Brain ，集成了深度学习框架MegEngine、深度学习云计算平台MegCompute以及数据管理平台MegData，能够将算法、算力和数据能力融为一体，可帮助企业和开发者提升AI生产效率和规范生产流程的同时，还能在成本上表现出色。

旷视科技透露，Brain 的开放能力可以缩短80%算法从需求到落地的时间，整体降低55%的算法生产成本。

而这在某种程度上也意味着，凭借在CV和大模型领域的深厚积累，旷视的这一多模态大模型能够针对图片、视频、文字等不同模态，实现感知、理解和推理的功能，并在此基础上为2B业务打造行业应用，未来可能会有更广泛的应用场景。

4.AGI的未来：既是百米赛跑，也是漫长的马拉松

某种程度上说，中国AI赋能产业化落地，是一种“既要又要，还要都要”的多重考验。

因为一家企业要想从行业残酷淘汰中脱颖而出，势必速度至上，也要生存至上。既要有短期商业的闭环，也要有长期坚实的布局。

“我其实不太相信在中国，一家公司可以十年以上不做商业化变现，只做基础科研。所谓的基础理想，一定是要靠自己养活自己的商业能力去支撑。”印奇在访谈中直言。

在他看来，企业的长期理想必须通过自身的商业能力来支撑。

面对未来，企业不仅需要技术的爆发力，还需要技术的持久力。旷视科技在过去十多年里一直在为最终目标做商业规划，始终坚持软硬件结合的策略，这是他们对未来发展的核心逻辑。

在这种思考之下，旷视科技认为，要实现大模型在行业的落地和爆发，必须同时考虑规模和效率，这正是软硬件结合的优势所在。

印奇还指出，从PC到手机市场，真正的行业机会总是伴随着硬件载体的巨大变革。尽管机器人技术复杂，需要长期的技术积累。然而，一旦成本可控且能规模化生产和推广，新的商业模式就会出现。

因此，旷视科技的发展方向是“AI in Physical”，即AI技术与物理世界的结合。多年来，他们一直在构建软硬件结合的产品体系，这已成为旷视的基因。

通过软硬件的深度整合，旷视科技能够提供全面的解决方案，满足客户在不同场景下的需求，同时优化产品性能，降低成本，提高市场竞争力。并且，软硬结合的经验正在推动公司在AIoT领域的技术创新，并促进公司在智能硬件和物联网领域的持续发展。

面对未来，旷视科技的核心策略是结合行业积累、合作共创，找到核心的硬件载体，将大模型能力部署其上，并在商业化上实现短期和长期的结合。他们认为，多模态大模型是未来三年内的技术核心竞争点，而具身AI（Embodied AI）可能是未来三到五年甚至更长时间内的重点。

展望未来，印奇谈到，希望利用其在软硬件结合和行业落地方面的能力，逐步实现盈利的短期商业闭环，并逐渐扩大到更大的商业闭环：“最终在十年后成为AI机器人领域的全球领先企业。”

（封面图来源：旷视科技）