自从ChatGPT和Sora发布后,在我们的工作流程中,AI能参与的部分越来越多。比如本文从游戏行业从业者的视角出发,谈谈当前对于AI动画/视频的一些思考。
最近,Sora的公布给所有行业的人带来了狠狠地Impact,所有从业者都在期待着AI动画/视频技术的革新,并为行业带来的效率提升。
本文将从游戏行业从业者的视角出发,谈谈当前对于AI动画/视频的一些思考。BTW,目前AI技术日新月异,本人对于某个领域的能力的AI技术认知可能有所滞后,欢迎指正。
一、游戏行业的美术资源游戏行业是一个严重依赖美术资源的行业。无论是在游戏的研发、营销还是运营过程中,都需要大量的美术资源。
在游戏研发阶段,策划设计游戏玩法和系统,将其交由美术团队进行角色、界面和场景设计,最终由开发团队完成游戏的开发和测试工作。根据游戏类型的不同,所需的美术资源也会有所差异。
美术资源主要分为:
根据东方财富证券的报告,游戏研发成本占收入比约在 15%-35%,美术成本一般占到游戏研发成本的 50-70%。根据伽马数据,2023年中国游戏市场实际销售收入3029.64亿元。因此,此处美术成本约为200~800亿元。
数据来源:游戏工委、伽马数据(CNG)
在游戏开发完成后,游戏公司需要进行游戏营销,以有限的成本吸引更多精准的用户。常见的获客手段包括投放广告、联合运营和品牌宣传等。在营销过程中,需要大量的营销美术资源,如图片、动图和视频,用于广告投放、联运商城以及品牌宣传。比如,我们常见的洗脑广告视频,这些是由真人拍摄的广告视频。
根据游戏新知的数据,营销一直是游戏公司支出的重要部分,因此对美术资源的需求也非常高。
一旦吸引用户进入游戏,运营团队的主要任务是促进用户活跃、提高留存率并引导用户进行付费转化。在运营过程中,需要大量的美术资源,与营销所需的素材相似,但主要用于运营活动和社群内容构建,包括图片、动图和视频等美术素材。
综上所述,游戏行业对美术资源的需求主要分为3类:2D美术资源、3D美术资源和动画资源。
二、当前游戏行业美术对AI的应用根据伽马数据的报告显示,自AI绘画技术问世以来,某游戏企业在美术方面取得了显著进展。据称,该企业目前在美术方面的成本节省率达到40%,文案创作效率提升超过50%,而未来在研发端,整体成本预计将下降30%。以往需要两周完成的2D美术资源生产,如今仅需3天便可完成。
一个完整的2D美术资源的生产应该包含以下流程:
然而,由于当前AI技术的“可控性”和“稳定性”仍有提升空间,因此AI工具主要在激发灵感、制作草稿以及需求确认等方面发挥作用。
尽管部分素材可以直接采用AI生成的成稿,但这仅适用于少数情况。美术人员可以通过文生图/图生图等方式进行抽卡,激发创作灵感,并快速形成草稿,从而显著提高美术资源的生产效率。
同时,借助已生成的草稿,可以快速与需求方进行对齐。或者,需求方可以通过AI工具生成样图,与美术人员进行需求确认。这种方式可以大大减少由沟通问题导致的需求差异,从而减少返工情况,进一步提高美术资源的生产效率。
当前,虽然在3D美术资源领域已经出现了一些能够快速生成资源的工具,但相比之下,仍未有2D美术资源的生成成熟,然而这方面的讨论将暂且搁置。在美术资源的各个类型中,AI视频工具在动画美术资源的制作中发挥着一定的辅助作用,尽管也存在一些挑战。根据前文的分析,游戏行业中动画素材的制作场景主要涉及以下方面:
所有这些方面都可以通过与AI动画/视频相关工具的结合来实现成本降低、效率提升的目标。
我们先拆解下现在动画素材制作的流程,主要有以下环节:
在进行动画素材的制作之前,美术人员通常会利用第三方平台进行调研,以收集灵感和素材。
对于营销层面的视频素材的制作灵感收集,他们使用像DataEye、AppGrowing等网站,这些平台汇集了广告领域中最热门和最新的视频素材。通过这些调研,制作者可以了解哪些素材在广告投放中效果良好、哪些是当前热门的素材,以及哪些具有潜力,从而指导他们的视频素材创作。
然而,海量数据分析是一项耗时耗力的工作。动画/视频制作本身就是一个人力密集型的过程,如果还需要额外的时间用于灵感收集,那将增加额外的成本。
热门且效果良好的素材具有明显的数据特征,可以通过数据规则快速提取,但仍需要人工识别其中的参考内容。而那些具有潜力的素材则往往没有明显的数据特征,因此只能在海量数据中进行挖掘,有些许像大海捞针。
假设我们能够应用AI技术来增强业务能力,通过AI动画/视频分析,系统可以解构视频中的元素并进行标签分类,将这些分类信息存储在灵感库中,以便设计师快速提取灵感,同时也有助于快速发现潜力内容。通过AI技术,我们可以将海量数据浓缩为高价值信息,从而提升业务生产效率。
目前,B站提供了AI视频分析功能,但仅适用于部分视频。没有配音或字幕的视频以及发布时间早于24年的视频无法使用该功能。估计B站的AI视频能力主要通过OCR和语音识别技术提取视频文本内容,并将其提交给LLM进行总结。
然而,游戏的动画/视频素材生产,更多的是涉及没有文本内容的画面(角色动作、战斗效果、场景光影、UI交互、游戏实况视频等)。类似于B站的视频分析能力,目前还无法从这些画面中提取信息。这就需要依赖基于视觉内容的AI分析模型。目前一些SaaS厂商提供了相关能力,但是要提炼出美术设计师所关心的内容仍然具有一定难度,因此这些模型更多地用于视频内容审核。
图片来源于商汤(左)和网易易盾(右)
动画素材实质上是2D/3D美术资源在时间维度上的延续,因此动画的草稿相对复杂,涉及脚本、分镜等设计内容,其中的沟通成本和试错成本远高于2D/3D美术资源。
目前存在几个方向的AI视频/动画工具,可以在制作草稿过程中发挥作用:
1)素材搜索匹配:
在调研过程中,发现一类AI动画/视频工具,通过输入文本/图片,AI能够匹配相关度较高的视频素材并进行拼接,同时使用AI声音进行配音,快速生成相关动画/视频内容。
图中为度加创作工具
这类AI动画/视频工具的核心在于素材搜索匹配能力。
通过对素材库中的视频进行分析、拆解、打标签,再根据用户的提示词匹配最合适的动画/视频内容,从而拼接成动画/视频。这个过程涉及到AI文本生成、语音合成、动画/视频剪辑等能力,可以归类为剪辑工具。
然而,当前这类工具可能存在以下问题:
i)素材上下文相关性:
由于视频是由多个素材拼接而成,若AI无法理解素材之间的关系,在动画/视频剪辑过程中使用了矛盾的素材,将影响最终成片效果。
ii)素材版权:
生成的动画/视频片段来源于其他视频素材,可能涉及版权问题。工具需要解决和规避侵权内容的识别问题。
iii)素材库的大小:
素材库规模的大小直接影响这类视频生成工具的效果和生成的视频多样性。庞大的素材库需要大量版权资源或内容平台支持,从而构建工具的“网络效应”,而较小的素材库会限制工具的效果。
因而,这个方向的AI工具,内容巨头企业才更容易做得更好。
iv)搜索匹配的准确度:
动画/视频分析AI对动画/视频内容的理解有限,导致搜索匹配结果准确度问题,与用户设想的画面可能存在一定差距。在生成多个动画/视频片段拼接而成的视频时,准确率问题会叠加,使成品动画/视频偏离原始设想。
这些问题导致素材搜索匹配相关的AI产品工具,在当前并不是那么好用。
2)文/图生视频:
Sora属于文/图生视频的AI方向。在Sora发布之前,市场上已有相关工具如Pika、RunwayGen2、Stable Video Diffusion,它们可以根据用户输入的文本或静态图片,生成几秒钟的视频/动画。
然而,目前市面上的文/图生视频AI工具存在明显缺陷,例如:
i)未能理解物理世界:
正如Runway之前宣布要通用世界模型(General World Model),像Gen-2这样的视频生成AI,仅仅是生成了具有有一定运动的短视频,但是在处理摄像机运动或物体运动等问题上存在局限。
比如这里,我用张俩男孩打架的图片,生成的视频中,男孩挥出去的手反而贯穿了自己的脑袋。
虽然Sora也具备了通用世界模型的基础能力,但是也同样存在“对物理世界理解不足”的问题,比如知名的“玻璃破碎”、“虚空椅子”。这些训练数据不足的情况,使得在多主体之间的运动无法被准确表达。
ii)主体一致性问题:
在AI生成的动画/视频中,人物外貌、动作等可能随着人物动作的变化而发生变化,导致主体一致性问题,影响视频质量。如下图的案例中,原本是生成马斯克的视频,但是在视频的最后几秒,马斯克变成了一个黄种女人。
视频素材来源于知乎用户sunny
iii)无法生成游戏行业垂直内容:
像是角色动作、战斗效果、场景光影、UI交互、游戏实况视频等内容,AI工具的生成效果极差。因此对于游戏行业,大概率仅有视频类动画素材的生产过程才能用上这类AI工具。
制作视频类动画素材涉及收集素材的过程,其中需要结合分镜稿,收集足够的素材以供剪辑使用。这一过程与制作草稿的工具需求大致相同,可以借助“素材搜索匹配”和“文/图生视频工具”的AI能力来辅助。
一旦素材齐全,下一步就是将所收集/制作的素材拼接成最终的成品稿。这个过程涉及到多种类型的AI动画/视频工具,种类繁多且多样,较难一一概括,以下是我观察到的一些类型,而且大多都只能用在视频类型的素材剪辑上。
1)视频拆条:
这类工具旨在快速将视频按需求进行剪辑拆分和拼接。举例来说,火山引擎提供了“视频拆条”功能,利用AI画面和语音识别自动将视频进行拆分,同时支持对视频进行进阶设置。这种工具可用于对长视频进行分割处理,以便进行短视频合成。
又比如,“vidyo.ai”提供的视频拆条能力,在基于语音识别的基础上,还提供了针对不同内容平台的格式转化能力。
2)配音:
语音配音在制作视频类内容时扮演着重要的角色。尽管在严格意义上,配音并不属于AI视频工具的范畴,但却是制作视频内容不可或缺的一环。当前的AI生成语音技术已经相当成熟,以剪映官方为例,他们提供了完善的配音音色功能,用户可以通过输入文本生成对应的音频内容。
3)字幕:
视频制作中不可或缺的一环是字幕。随着技术的发展,字幕生成技术也日趋成熟,例如,剪映已经具备了自动生成字幕的能力。
4)画面编辑:
我觉得很多视频工具都可以归到这一类里面,比如视频剪辑软件里面都会配备的滤镜能力,通过应用特定的滤镜效果,使视频呈现出特定风格和视觉效果。
同时,市面上也有能将够稳定将视频转换成其他风格的工具,如Ebsynth。
Runway里面除了视频生成能力,还提供了像是一键删除背景、一键修复、一键模糊等效果编辑AI。
perfectly-clear提供的编辑能力可用于改善视频的色彩、提高对比度、消除噪点、改善视频的清晰度,以及消除视频中的抖动和模糊。
腾讯云提供的AI换脸技术将真人视频中的人脸替换成其他人脸。
5)数字人:
几乎所有主要厂商都在积极探索并应用这一技术。其核心在于利用AI生成个性化的数字人物,并结合专属的AI音色,使得这些AI数字人可以替代用户进行视频解说。在直播带货等场景中,这种技术不仅可以提高效率,还能有效节省人力成本。
四、小结结合我的调研,目前游戏行业相关的AI视频/动画工具可分为4大类:
目前的AI视频/动画工具更多偏向于视频类动画素材的生产,更适用于与营销相关的业务生产,因为这方面对于大型模型的定制化要求较低。然而,对于与动效相关的动画生产,可能需要游戏行业垂直领域大型模型能力的进一步发展。
我将收集到的AI视频/动画工具给到美术设计,他们的回答是:“好像什么都能做,但是又好像做不好的感觉。总不能为了这碗醋(使用AI),才包的这顿饺子吧(做动画/视频)。”剖析其中的原因,主要是:
随着越来越多AI公司的入局,以上提到的问题一定会被解决,正如万物摩尔定律所描述,成本问题也会越来越低。Sora的出现,无疑是对这个过程的加速。
但是我也想谈谈我对未来展望的一些观点,我觉得未来的AI动画/视频工具一定是背靠视频剪辑/动画制作工具的,并集成大多数的AI工具(All in one),因为:
1.工具集成&贴合工作流带来的用户体验优势:
视频剪辑/动画制作工具本身就是贴合用户工作流程的产品形态。当AI工具集成在一起时,用户可以直接利用AI能力进行生产,无需研究各种AI工具,减少额外精力消耗。同时,基于用户使用习惯,产品可以提供AI数据资产积累能力,定制化模型,更贴合用户使用习惯,构成用户的沉没成本。
2.用户增长优势:
现有视频剪辑/动画制作工具已有一批忠实用户群体,发展AI能力时无需从零开始用户增长。在成熟工具上构建AI能力,加固了产品壁垒。
3.更容易构建数据飞轮,构建数据壁垒:
借助平台原有的用户积累,能够利用庞大的素材积累、数据积累训练优秀的大模型,打造优质的视频产品功能,从而吸引更多用户,构建数据飞轮,构建自身的壁垒。
4.工具更具有可控性问题的解决方案:
AI动画/视频生成工具是具有本质上的矛盾的,文本是低维信息,却需要准确表达动画/视频这种高维信息,这个过程必定伴随信息的失真。文生视频必定是不能100%传达制作者的想法的。这个过程就需要编辑工具的存在,通过人工编辑的接入,将内容准确表达。而且,通过编辑工具,我们也能通过人力弥补AI的准确度问题,使得在AI能力能准确生成我们需要的内容之前,我们也能利用AI进行效率的提升。
因此背靠视频剪辑/动画制作工具,更容易进行编辑工具构建,从而解决可控性问题。
专栏作家
柠檬饼干净又卫生,公众号:柠檬饼干净又卫生,人人都是产品经理专栏作家。一名游戏行业的B端产品,负责过游戏行业内CRM 、风控、BI、SDK、AI相关的内容,定期输出个人思考或总结文章~
本文原创发布于人人都是产品经理,未经许可,禁止转载
题图来自Unsplash,基于CC0协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved