100年前的北京&人工智能的浪漫
B站160万 的播放、人民日报抖音号转发、微博热搜......这个由人工智能“填色”的100年前北京视频,成功破圈。
折叠宇宙采访了视频的制作人大谷Spitzer
这个在B站、抖音、微博成功破圈的视频
其实是大谷自学人工智能的“学习笔记”
https://www.bilibili.com/video/BV1dQ4y1N73A?from=search&seid=9426087068717440198
折叠宇宙:大神,是什么让你这么强!
大谷Spitzer:没有没有,我也只是个人工智能的初学者!我只是把自己的学习过程分享给大家。
我是一个独立游戏开发者,做游戏是希望所有人一起加入进来,一起创作,做社区一样的感觉,一起搭建一个世界。
小时候会一点点画画,一点点编程,一点点音乐,我想了想,我能做啥呀?最后发现,是独立游戏。
初中开始做游戏的,当时做了各种flash小游戏,做动画就需要配乐嘛,网上找的我觉得不太合适,当时我灵机一动,用步步高复读机小话筒放在钢琴旁边,边播动画,边用钢琴弹即兴配乐。
久而久之......就习惯了,大一开始用水果机做电子音乐。
大谷Spitzer的音乐专辑https://music.163.com/#/artist/album?id=12280033
折叠宇宙:大神,小时候的你做了什么游戏?
大谷Spitzer:高三的时候做了个游戏叫“Eddy紫~”,上了游戏平台Steam。
“Eddy紫~”是一款基于DreamPunk和PostcyberPunk的动作游戏,用了两年时间开发。大谷Spitzer独立完成了游戏设计的所有部分,包括30幅游戏原画。
折叠宇宙:高三?高三??高三???
大谷Spitzer:后来给东方同人游戏《永远消失的幻想乡》做了游戏配乐。在Steam上也有。
《永远消失的幻想乡》是一款中国同人社团MyACG Studio制作的"东方Project"二次同人游戏,原创"弹幕射击ARPG"玩法,结合弹幕特色和动作游戏的爽快感。
大谷参与制作配乐的游戏《永远消失的幻想乡》
大谷参与制作配乐的游戏《永远消失的幻想乡》
折叠宇宙:最近做了什么新游戏?
大谷Spitzer:最近做的游戏叫“漫展模拟器”,玩家可以扮演一个漫展的主办方。
《漫展模拟器》中的游客都和现实中一样,有各种各样的偏好诉求,会因为买到自己本命的签售本子高兴一整天,也会由于找不到厕所怒给差评。
会因为仅仅在现场吃到新鲜的小食而重燃逛展的兴趣,也会马虎地遇到小偷愤而离开;更有粗(bieyou)心(yongxin)的主办方,总是让携带大量现金的游客“意外”遭遇事故交待在展会现场,再由展场的NPC清洁工悄悄洗地收钱......
大谷制作的游戏《漫展模拟器》 由bilibili发行
折叠宇宙:人工智能有这么简单吗?!
大谷Spitzer:人工智能方面,我自己的定义是,我自己在入门阶段,我希望能把我学习的过程分享给大家。
其实人工智能是大家都可以学的,没有编程基础也可以跟着一步一步学,我想做的就是一个普及的性质。我也是一个入门阶段,大家应该也是能看懂的,它不是一个高大上的,它其实是一个在现实生活中可以有很多应用的技术。
我用的工具也都是GitHub开源社区里大家公开分享的小工具。
接下来,跟着大谷Spitzer
一起学人工智能
第一步:补帧
工具:DAIN
DAIN操作界面截图,大谷Spitzer提供
大家都知道,老电影由于当年的技术原因,一般是加速播放才有动态。画面动起来,人都是这种“老电影”style的动态。
大谷Spitzer着色前,原视频的动态效果
如果是用现在的电影技术标准调整老电影里的人物活动速度,会发现,这个老视频里基本上只有6-10帧/秒,那这就不足以形成连贯的动态画面。
DAIN的工作就是把把这个老视频里不稳定的帧数:6-10帧/秒,都修成60帧/秒。
这个过程其实跟人类脑补很像,比如人类的视觉残像效果,那个影响了电影发展的马的运动照片。
人工智能跟人类大脑处理影像画面是是很相似的,比如老视频里,第一帧里手臂的角度是10度,第二帧里变成了30度。人工智能就能“想象”中间缺少的那20度变化过程。
根据你的参数设置,人工智能负责“脑补”,把中间的15度,25度都画出来,或者根据你的要求把11度、12度、13度......全部画出来。
因为在老视频里,虽然有动态画面,其实里面人、物的总体在前后两帧里产生的位移是很有限的,人工智能可以因此创造人工智能的“记忆点”,产生相关联的一个逻辑分析。
人工智能可以判断:什么部分发生了动态、哪些动态是前后连贯的,并根据这种逻辑分析,去填补中间缺少的帧数。
大谷Spitzer制作的视频
人物动作变得连贯流畅,符合当下观看习惯
第二步:分辨率
工具:ESRGAN
ESRGAN操作界面截图,大谷Spitzer提供
分辨率扩增就是把“渣画质”变成“高清”。用ESRGAN把关键帧、封面和一些其他重要画面的分辨率细节,从原来的老旧画质扩增到4k-8k的水准。
这也是人工智能做的脑补,把原来模糊的画面变成更清晰的画面。人工智能能够分析出,画面中的哪些模糊部分是由于画质过低造成的,然后去完成优化。
第三步:上色
工具:DeOldify
DeOldify操作界面截图,大谷Spitzer提供
在这个小工具里,可以设置分辨率、颜色的饱和度、画面视觉风格等等。
这个人工智能依赖一个数据集,人工智能有能力对比黑白电影和彩色电影的差异。通过观看4-6万张图/短片形成这种能力,这个人工智能大约花了半年到一年时间。
人工智能“学会了”人的脸上是肉色的,天空是蓝天的,植物基本上是哪一种绿色。当它学了足够多以后,它就能根据画面形状分辨出这是什么东西,它会分析:这是人、这是马车、这是蓝天——然后完成填色。
实际上,人工智能的数据集也决定了它的“知识储备”,比如这个人工智能对中国历史的了解很有限,虽然基本颜色看起来很“正常”,但是实际上并不精确。
人工智能完成的填色效果
人工智能完成的填色效果
相对来说,这个填色效果会比较浅,历史上也不一定这个颜色。比如服装肯定不是这样的颜色,可能也有红色、绿色、和其他颜色。
目前人工智能做到的是一个视觉上成立、能够信服的效果。基本上是合理的,但是无法准确复原。
人工智能完成的填色效果
人工智能会停留在经验上,它的经验就是它的数据集。所以,如果有更多基于中国文化的数据集加入进去,比如是经过史学家考据过的分析结果加入到数据集里,那么这个人工智能就能更好复原中国的历史,更接近100年前真实的北京。
折叠宇宙:为什么会想修复这个视频?
大谷Spitzer:当里面的人也看着镜头,我也看着影片里的人,那一瞬间有种历史时空的交流。老片子画质低,帧数低,我就想修复成60帧/秒,修复成当代的效果,有种古今对话的风格。
在人民日报YouTube上的这个14分钟视频,来自加拿大图书馆和档案馆。(加拿大国家电影局基金,1990-0347, IDC:164831)
大谷Spitzer:黑白画质还不错,有一定的黑白老电影的闪烁问题通过一个插件就可以修复,有些镜头很有感觉,我剪成了一个10分钟的短片,花了一周时间完成渲染。
折叠宇宙:原来人工智能可以帮人类填脑洞!
大谷Spitzer:比如有个程序员自己做的业余项目Artbreeder,人工智能做的事情,其实是帮人类实现脑补。比如我们生活里,会去想象一个不存在的人脸,人工智能这时候就负责帮助我们“脑补”,直接把这个画出来。
有的时候会产生一些故障画面,但是经过调试都是可以实现的。生成结果都可以商用,如果艺术家用这种工具进行创作,其实节约了很多时间。
Artbreeder上人工智能帮助人类实现的“脑洞”
比如如果你想创作出一个像狗的金鱼、或者像金鱼的狗,人工智能可以帮你画这个不可名状的东西,而且这些作品都可以画出来在画廊展出。
Artbreeder上人工智能帮助人类实现的“脑洞”
折叠宇宙:那插画师的工作不是被抢了?
大谷Spitzer:人工智能会帮助插画师节省很多工作量。比如Nvidia(英伟达)推出的人工智能辅助绘画功能,创作者只要粗略地示意出云、山、水,人工智能会自动完成剩下的创作。
作为插画师,如果有了这样的帮助,就可以“我要一座山”,就得到了一座山。明暗交界、颜色饱和度渐变,直接告诉人工智能,让人工智能去画。很多游戏原画师用这些做背景,然后自己专注画机甲部分。
以后印象派画家保罗·高更(Paul Gauguin)的名字命名的GauGAN项目,通过分割图创建逼真的图像,分割图被标记为草图,描绘了场景的布局。
艺术家可以使用画笔和油漆桶工具来设计自己的带有河流、岩石和云等标签的景观。算法也允许创作者应用滤镜将白天场景更改为日落,或将逼真的图像更改为绘画。用户甚至可以上传自己的滤镜以叠加到作品上。
在自己的照片或风景照上应用“深度学习”。研究人员开发了最先进的图像重建技术,该技术可将经过训练的模型生成的新像素填充到图像的缺失部分中。
在选好的照片里随意擦除(比如前任),然后新像素会非常巧妙地自动把空白处填充完。
采访中,大谷Spitzer好几次提到开源社区中彼此分享、在前人的收获中继续探索并反馈社群的快乐。也反复说到他自己仍然只是“初学者”,最近在学Python辅助游戏开发。
这大概是这个视频火出圈的真正原因吧!
对历史和对文化的敏锐,思想和思想交流中的相互启发、和我们大脑无边的想象力,最终经由技术之手实现。
探索更多精彩,还原关注【折叠宇宙】公众号
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved