腾讯技术新突破，用AI与王俊凯创作儿歌，未来加入王者荣耀解说（AI艾灵）

文/超脑智能

今天中午又被阿里巴巴刷屏了，具体情况是阿里云智能总裁张建峰透露，阿里云今年再招5000人，大规模引进顶级科技人才，重点吸引服务器、网络、芯片、数据库、人工智能等核心技术领域的攻坚人才。要沿着飞天云操作系统向下延伸定义硬件，把2000亿用在芯片、服务器、交换机、网络等领域的自研力度。

其实到现在很多非专业人士以及吃瓜群众都会觉得阿里巴巴的技术能力强于腾讯，这也是因为阿里巴巴近3年在技术投入、技术宣传上的加大，以至于很多人认为腾讯是一家没有技术能力的公司，为此给腾讯扣的帽子是“只会赚小学生的钱”。

其实腾讯技术并没有那么不堪，腾讯既然能够成为中国最大的互联网公司之一，除产品、业务能力外，有很多技术储备，只是“游戏与社交掩盖了腾讯技术的光芒”，从今天起，超脑智能将为大家分享一些腾讯在不同技术领域上的创新，包括人工智能、数据库、量子信息等。

在今年六一儿童节，腾讯联合青年歌手演员王俊凯与雄安孩子，通过腾讯AI机器人“艾灵”共同演绎了一首儿童歌曲《点亮》。

TFboys成员之一王俊凯

在H5互动里，每个人都可以轻松召唤AI艾灵，给几个关键词，艾灵就能创作歌词。

超脑智能了解到，该歌曲采用了AI融合技术，包括了NLP、语音、计算机视觉等。

AI艾灵机器人

AI 艾灵使用了基于数据依赖型的深度学习方法，现在还只能生成基础歌词和合成歌曲，无法实现完全自由的创作。项目的目标是把计算机视觉、语音/歌声合成和转换、图像/视频合成和迁移、自然语言理解等多模态 AI 能力与技术深度融合，生成清晰、流畅、高质的可交互内容，打造高拟人度的智能数字人，推进 AI 在虚拟偶像、虚拟助理、在线教育、数字内容生成等领域的应用。

DurIAN个性化歌声合成

早期的自动合成语音听书软件，是直接将各个字词的发音生硬地拼接到一起，没有人类在自然说话和唱歌时自然起伏的韵律。很多电影也采用了人们对机器合成语音的这种典型印象来塑造机器人或 AI 角色，而且这类声音也是著名物理学家斯蒂芬·霍金偏爱的音色。

但是，随着近些年机器学习技术的发展，合成语音在拟真度方面已经取得了长足的进步，机器声再也不只是人类印象中那种一板一眼的刻板模样了，现在的 AI 甚至还能学会像人类一样情感充沛地歌唱！

AI艾灵的歌声即来源于这样的 AI 技术。首先，研究者以音素为基本发音单元将任意歌曲描述为一连串音素的序列；然后通过分析歌谱，从文字、旋律、节奏等多个维度分别提取和预测词曲中每个音素的发音、时长、停顿、音高、风格和演唱技巧等特征；最后使用由真人（中国网络声优龟娘）演唱的歌声训练得到的深度神经网络声学模型和声码器模型，合成出与真人声线高度相似歌声音频。

AI歌声合成的模型架构

不同于“初音未来”等虚拟歌姬的“机器合成人工调教”模式，使用了基于DurIAN声学模型的AI艾灵无须经过人工调教就能得到非常自然和拟真的歌声。

DurIAN-singing synthesis的声学模型结构

腾讯的工程师在端到端语音合成模型DurIAN的基础上进行修改，加入基频信息、说话人信息和语言信息来进行歌声合成的声学模型建模。该模型不仅可以从人的说话数据直接训练出唱歌模型，还可以实现跨语种歌声合成，比如用英文说话人的声音合成中文歌声。

声学模型的编码器采用音素序列作为输入，编码器的输出经过一个对抗训练的说话人分类器以减少输入文本与说话人的相关度，提高最终合成音频的说话人相似度。与此同时，编码器的输出根据输入的唱腔时长信息沿时间轴展开，与输入的基频、说话人向量、语言向量进行拼接，作为解码器的输入，精准控制合成歌声的韵律、音调和音色。

解码器采用自回归模型预测梅尔频谱。多频段同步式 WaveRNN 模型用作声码器从生成的梅尔频谱合成音频。这项技术已经可以在适当的硬件成本下实现实时歌曲合成。在互动中，AI艾灵可以快速地为千万用户输入的歌谱合成出对应的歌声。

多频段同步式 WaveRNN：首先把语音信息分频段，每一步用同一个声码器模型同时预测多个频段的值，如果分成 4 个频段，则每一步可以计算 4 个值，计算次数就是原来的四分之一。在合成过程中，声码器预测多频段的值后，通过上采样和专门的滤波器设计就能保证恢复没有失真的原始信号。

这项技术可以用于降低歌曲制作过程中录音环节的成本，更可以用于打造虚拟偶像，成为广大专业和社区音乐人创作不可多得的制作工具。

腾讯AI Lab歌词创作模型SongNet：让用户为自己写歌

AI艾灵的歌词生成方案基于腾讯 AI Lab 最新研发的歌词创作模型SongNet。该深度学习模型最大的特点就是可以给定任意格式和模板来生成相契合的文本。在前文的H5里面，AI艾灵的"命题作词“技能就来源于此。

例如，给定《十年》这首歌词的格式，通过SongNet重新进行配词，并保证格式不变，可以根据原来的曲谱进行演唱：

原歌词：十年之前/我不认识你/你不属于我/我们还是一样/陪在一个陌生人左右/走过渐渐熟悉的街头

新配词：夜深人静/思念你模样/多少次孤单/想伴在你身旁/是什么让我如此幻想/为何会对你那般痴狂

SongNet 模型框架

该任务的挑战在于既要生成跟格式一致的文本，又要保证句子的整体性，还要有歌词的韵律以及美感。所以工程师设计了SongNet模型来尝试一次性解决所提到的问题。SongNet模型的基本骨架是一个基于Transformer的自回归语言模型，工程师针对格式、韵律、句子完整性设计了特殊的符号来进行标识和建模。通过局部和全局两种注意力机制达到了对上下文语义和格式同时建模的目的。

SongNet模型兼有全局生成和局部精修两种功能，通过主题和类型控制全局生成整段歌词之后，由于模型的局限性，总会有差强人意的部分。这时工程师就可以和模型进行交互，将质量不高的词句抹掉让模型局部重新生成补全以达到精修的目的。词粒度和句粒度的MASKing训练策略可以进一步增强模型给定上下文补全缺失内容的能力。

此外，SongNet 也采用了类似于 BERT 和 GPT 的预训练和微调范式，通过在大规模文本语料的预训练和歌词语料的微调过程，可以进一步提升模型生成歌词的质量。