爱诗科技王长虎:用户量最大的国产AI视频生成产品,是怎么炼成的？（像素哥3中文版）

作者 | GenAICon 2024

2024中国生成式AI大会于4月18-19日在北京举行，在大会首日的主会场开幕式上，爱诗科技创始人兼CEO王长虎博士以《AI视频生成——用像素构建星辰大海》为题发表演讲。

王长虎深耕计算机视觉与AI领域20年，曾任微软亚洲研究院主管研究员，2017年初加入字节跳动，而后担任字节跳动AI Lab总监，从0到1支撑了抖音、TikTok等国民级视频产品的建设与发展。2023年4月，他创办AI视频大模型创企爱诗科技。

爱诗科技在今年1月上线的海外版产品PixVerse，是当前全球用户量最大的国产AI视频生成产品，国内版（爱诗视频大模型）也在今年3月上线内测。上线88天，PixVerse达成了一千万次视频生成量的里程碑。

今年2月，Sora横空出世，点燃了大众对视频生成的热情，也为深耕该领域的从业者带来了前所未有的机遇和挑战。在技术层面上，Sora验证了DiT架构在视频生成中的Scaling Law（规模定律），并证实了这个方向的可行性。在王长虎看来，追赶Sora的窗口期在一年前，也就是爱诗科技成立的2023年。

过去一年，视频大模型经历着量变到质变。王长虎认为，中国在短视频领域领先全球，同时短视频也是最贴近用户的内容形态。目前视频生成技术还没有到ChatGPT时刻，他称自己有一支在全球AI视频领域最能打硬仗、打胜仗的团队，希望最大程度降低视频创作门槛，实现技术普惠。

以下为王长虎的演讲实录：

过去这一年，视频生成领域进展迅速，从无人问津到众所周知。今天借这个机会，希望能跟大家聊一聊过去一年我的一些体会和浅见。

大家应该非常熟悉这个视频了。今年大年初七凌晨，Sora横空出世，进一步激发了大众对AI视频生成的热情。很多评论、解读铺天盖地而来，很多大V、大佬们也纷纷发言，包括马斯克、周鸿祎以及各种媒体。

大年初七一大早，我被微信吵醒了，很多投资人、朋友、家人、同事纷纷发来问候，好像又碰到那句话：“元芳你怎么看？”

当时最令我开心的是这条，我们公司一位优秀的候选人第一时间给我发信息，说“我要加入你们”，因为视频生成这件事“太大了、太重要了，时不我待”。

这是一张当时在国外互联网上广为流传图片——一众视频生成模型膜拜“新王”Sora。看到这张图后，我的心情很复杂。

我们的产品叫PixVerse，很荣幸“跪”在了第一排，跟Runway、Pika、SVD等当时最好的视频生成产品放到一起，也是这张图里面唯一一家中国公司。

但另一方面，我们前面有一个巨人，还需要进一步超越它。

有人问我，Sora出现之后你会不会焦虑？中美之间的视频大模型差距会不会越来越大？爱诗作为创业公司，接下来路怎么走？

在我看来，Sora的出现是2024年春节期间我收到的最好的礼物。

一、Sora验证了DiT架构，追赶Sora的窗口期在一年前

我们是在去年整个视频生成行业还非常冷的时候，加入这个赛道的，并且在Sora出来之前，产品实测效果已经走到全球视频生成第一梯队。

这就像一个人在戈壁徒步，已经走在最前面，需要继续探索的时候，突然看到前面有一些脚印，那时候的感觉一定是非常开心。

一方面，这验证了这个方向大概率是对的；另一方面，前面还有一个人能让你继续超越。因此，强大的对手是沙漠中的水源。

对于Sora的解读非常多，我就不详细展开了。在我看来，Sora最大的贡献就是验证了DiT（Diffusion Transformer）在视频生成中的Scaling Law（规模定律）。

在基础计算量的时候，AI生成的视频惨不忍睹，随着计算量加倍至32倍，生成视频几乎可以以假乱真，这更坚定了我们做视频生成的信心。

毋庸置疑，Sora的出现推动了整个行业的进步和发展。但是很遗憾，至今为止我也没有机会试一下Sora，我们想在座的绝大多数人都没有试过。

当前，Sora只是一场“卖家秀”，也特别期待有一天我们可以看到更多的“买家秀”。Sora出来之后，我们可以看到很多大厂、初创公司都去做视频生成了，要超越Sora。

有人问我，超越、追赶Sora的最佳窗口期是多长时间？

在我看来，追赶Sora的窗口期是在过去这一年，是在视频生成行业很冷的那一年，是在Sora出来之前，整个业界对这个方向还不那么认可的一年。

二、视频生成去年不被看好，仍带领抖音AI视频团队All in

回到一年前，我们可以看一下这个行业有多冷。

一年前的今天，OpenAI、Anthropic分别获得了100亿美金、10亿美金的融资，国内的很多大语言模型创企也纷纷拿到第一桶金数亿美金，更大的一笔钱还在融资计划中。

再看视频大模型。一年前，做视频大模型的公司，一只手都可以数得出来。国外Runway已经成立五年，拿到2亿美元融资；Pika刚刚出现，拿到2000万美金；爱诗拿到数百万美元融资。

视频大模型和大语言模型相比，就像蚂蚁和大象一样。

去年上半年，我们聊了一些投资人。一位行业大佬第一时间打钱，成为了我们的天使领投，但更多投资人对这个方向可能看的还不是很清楚，也不是很认可。我们得到一些非常现实的建议，有人说大模型在中国没前途，还不如回家上班，或者建议尽快变现。

当时确实有非常多的选择，是继续创业还是回家？如果创业选择哪个赛道？是先做文生图，还是先做文生视频？

那时候，视频生成没有什么开源模型，需要从头去建设，且生成质量惨不忍睹。而AI图片生成产品Midjourney已经走出来了，每个月有数千万美元MRR（月度经常性收入），有开源模型，所以很多创业公司都去做文生图。

如果选择视频生成，是做大模型还是做应用层？当时很多朋友找到我，说可以一起做游戏、电商、广告，能够很快变现。

但是在我看来，视频是最重要、也是离用户最近的一类内容。过去若干年，我们可以看到抖音、TikTok这样的短视频产品，已经成为全球最重要、用户量最大的国民级产品，无论是下载量还是使用时长。

我们都知道抖音、TikTok是中国团队做出来的，服务于全球。很有幸我和我的核心伙伴们从2017年开始，从0到1支撑了抖音、TikTok这些产品背后的视频AI。所以在AI视频生成领域，我们是全球最能打硬仗、打胜仗的团队，于是决定是All in AI视频生成。

三、给初创公司取个浪漫的名字，想用AI做最高级的内容

去年这个时候，在Sora出来之前，引用张一鸣的说法，这是一种“务实的浪漫”。我们没有选择最容易的事情，而是选择当时可能非主流、非共识，但我们认为是正确的事情。做视频大模型是有生命力的，是面向未来的。

我们公司也取了一个有点浪漫的名字——爱诗，“爱”是AI的意思，“诗”是可以流芳千古的、最高级的内容，“爱诗”的意思是用AI做最高级的内容。

去年4月份我们公司成立，7月份开始训练大模型，经过大约几个月的时间，技术上已经成为全球第一梯队。今年1月份我们的产品PixVerse在海外上线，发展很快速。Sora出来之前，我们在年前已经拿到了数亿元的第二轮融资。

这是去年8月，我们第一次训练好的一个完整模型生成的视频，时间很短，动作也很小，但是对我们来说是一大步。

有人问我，大语言模型跟视频大模型区别在什么地方？

在我看来，语言和视觉是两类完全不同的内容，语言是在人类出现之后才出现的，是人类文明的结晶，它已经对信息做了高度抽象和概括；而视觉在人类出现之前，山在那里、水在那里，它是更原始的东西。

当大模型出现之后，人们对大模型的期待是模拟人脑，是新的硅基生命，是人内部的东西。而视频生成大模型出现之后，人们的期待是什么？是对世界进行模拟、建模。

视频生成本质上是理解这个世界，然后做影像呈现，这种呈现经历了从记录到生成的演进过程，这里我们列举了三个影像记录历史中很重要的时刻。

在三万多年前，人类已经在岩壁上去呈现自己看过的一些群狮奔跑的画面；1826年，法国的摄影先驱制作了第一张可以长期展现的照片；1872年，人类历史上第一个视频出现了，它源于两个美国人关于马飞奔过程中蹄子是否同时腾空的探讨。从视觉的呈现到视频的生成看起来很远，事实上离我们很近。

小时候过年，我的父亲总会给我做各种各样的灯，其中有一种灯叫“走马灯”。我们要点燃蜡烛，蜡烛推动热气上升，带动轴轮的转动，轴轮上面会绑上一些剪纸，烛光通过剪纸映射到最外边一层的屏上，走马灯就呈现了这样动态的效果。右边的连环画是我很快乐的童年记忆，也是一种原始的“视频生成”。

当抖音、快手这样的短视频产品逐渐成为主流，越来越频繁影响我们的生活的时候，我们可以看到视频生成技术也逐渐出现了。

最早期阶段是检索生成，即视频里的每一个片段都是从海量数据中检索而来，不是纯粹生成的，通过自动或者人工方式拼接在一起，现在在短视频平台里面也可以看到这样的视频。

第二阶段是部分生成，我们在玩抖音、TikTok的时候会看到里面有很多特效，其中有一个特效“控雨”，用户录制视频的时候用手掌可以控制雨让它停掉，并且有一些微动。这类视频总是有一个原始的视频，在这个基础上做一些局部生成，包括特效里面的美颜、动漫风、换个狗头、加个猫耳朵都是这样。

最后是我们现在提到的真正意义上的视频生成，是凭空生成的。

视频生成技术可以追溯到十年前，GAN（生成对抗网络）的出现开始。之后的若干年，局部生成领域大放异彩，虽然有很多通用生成、文生视频的技术出现，但是效果也很差。

直到Diffusion扩散模型的成功，2023年出现了非常多的文生视频的技术、产品，有谷歌的VideoPoet、英伟达的Video LDM、Runway的GEN-2，还有Pika以及我们的PixVerse。

但是2024年Sora出现，表明过去这一年无论是数据量、计算量还是参数量都有非常大的提升。

这里我选了几个模型，2023年7月份发布的AnimateDiff、2023年12月发布的VideoPoet以及2024年2月发布的Sora，其中关于Sora参数都是道听途说，有可能不准，也有可能比较保守。我们看到一年之内，这些参数都有巨大的提升，这也带来了视频生成产品的提升。

四、上线88天生成1000万次，PixVerse已解决多镜头一致性问题

我们在去年11月份初发布了PixVerse测试版，今年1月份正式发布了Web UI的版本，提供了文生视频、图生视频以及我们首创的Character to Video，用户只要上传一张照片就可以成为视频的主角，可以解决多镜头的一致性问题。

最后一张视频大家能看出是谁吗？这是我们开发出这个模型之后生成的第一个视频，我自拍一下输进去，让它生成一个我在跑步的视频，“他”的身材比我好多了。生成后我第一时间发到我们健身群里面，告诉大家我的“健身效果显著”。

现在已经有很多的创作者用PixVerse替代摄像机、演员、布景来创作大片。中间一张图是一个俄罗斯用户在今年1月份创作的一个AI科幻片Last Mission，每个镜头都是PixVerse做的，这也是在海内外有广泛影响的影片。

很多国内用户也在用我们的产品。前段时间我们受邀到一个省级电视台去交流，惊讶地发现有很多编导已经在用PixVerse做AI视频。他们也很惊讶这个产品团队居然就在在国内。

下面这个视频是国内一个导演“闲人一坤”，利用PixVerse创作出来的中式奇幻片《山海奇镜之劈波斩浪》，也是国内播放量最大、影响力最大的AI视频之一。《山海奇镜之劈波斩浪》已经被快手平台采购，据悉将在5月上线。

PixVerse发布之后，我们跟创作者交流过程中，也遇到很多感人的瞬间。

这是国内一个54岁的老大哥给我们发的一封邮件，他想申请加入我们的创作者计划，说他前些天戴着老花镜花了一整天时间，用PixVerse和剪映做成第一条AI片子。他说，使用PixVerse的过程中让他享受了创作的愉悦，并且跟我们分享了一些他的故事。这是意料之外的感动。我们看到自己的产品不仅有导演、专业创作者用起来，普通用户也能受益。