国内首个音乐版"ChatGPT"来了！Sora同款架构，唱作技巧全面发展（周五夜放克传说之下版）

允中发自凹非寺
量子位 | 公众号 QbitAI

AI音乐大模型最近有多火，不用多介绍了吧？（doge）

不过，海外版应用别的先不说，奇奇怪怪的中文AI发音就能把人难受死……

好在卷应用嘛，国产大模型厂商没在怕的，这不，国产版音乐“ChatGPT”这就来了~

话不多说，先听效果：

这情感表现力，是有那么点竞争短视频神曲的潜质了。

如此作品，背后作者正是刚刚开放邀测的国产AI音乐生成大模型「天工SkyMusic」。

4月2日，昆仑万维官宣，「天工SkyMusic」基于昆仑万维「天工3.0」超级大模型打造，即日起面向社会开启免费邀测。

本轮测试已开放1000个免费名额，面向行业媒体、专家，以及感兴趣的音乐从业者开放。

据官方消息称，昆仑万维「天工SkyMusic」首日预约申请已有几十万。

「天工SkyMusic」也是目前国内唯一公开可用的AI音乐生成大模型。

昆仑万维工程师透露，「天工SkyMusic」是昆仑万维情感AGI研究方向上的重要成果：

智力固然重要，但情感是我们能够被称之为人的关键。
我们发现相比文本和图片，音频内容是理解人类情感最好的方式，而音乐又是人类情感表达最充沛、最不受地域和文化限制的内容载体。

采用自研类Sora模型架构

来看具体技术细节。

「天工SkyMusic」采用音乐音频领域类Sora模型架构：

Large-scale Transformer 负责谱曲，来学习 Music Patches 的上下文依赖关系，同时完成音乐可控性；

Diffusion Transformer 负责演唱，通过LDM让Music Patches被还原成高质量音频，使得「天工SkyMusic」能够支持生成80秒44100Hz 采样率双声道立体声歌曲。

这套模型架构在处理视频、音频和音乐领域效果极佳。昆仑万维团队还计划在后续逐步迭代和添加新的能力，让模型具备多模态的情感理解与表达能力。

「天工SkyMusic」具有以下五大特点：

高质量AI音乐

「天工SkyMusic」能够生成80秒44100Hz采样率双声道立体声AI歌曲，并可根据用户输入的歌词风格生成对应歌曲风格。

人声以假乱真

人声合成是AI音乐生成中最重要、最能体现生成效果和品质的维度。「天工SkyMusic」的AI人声合成能够达到业内顶尖的SOTA水平，尤其是中文发音清晰、无异响，演唱效果显著好于国外产品。

歌词段落控制

「天工SkyMusic」能够通过歌词来控制歌曲，让生成的歌曲可以明确分辨出不同歌词段落的情绪变化，体现出主歌和副歌、前奏和主歌的段落差异。

多种音乐风格

「天工SkyMusic」支持说唱、民谣、放克、古风、电子等多种音乐风格，用户在创作音乐时，可以通过参考音频制定想要的音乐风格。

比如说唱风格，效果如下：

come on man,量子位,15秒

音乐智能表达：歌唱技巧学习

「天工SkyMusic」同时能够学习如颤音、歌剧、吟唱、男女对唱，自动和声等多种歌唱技巧，让用户创作的歌曲得到更恰当的情感表达。

Call of Silence,量子位,23秒

基于「天工3.0」大模型打造

在「天工SkyMusic」背后，有一点值得关注的是，昆仑万维同时剧透了自家MoE大模型「天工3.0」的最新信息：

4月17日，「天工3.0」将正式开启公测，并同步开源。

「天工3.0」是4000亿级参数MoE混合专家模型，是全球模型参数最大、性能最强的MoE模型之一。

官方表示，相较于上一代「天工2.0」MoE大模型，「天工3.0」在模型语义理解、逻辑推理、以及通用性、泛化性、不确定性知识、学习能力等领域都拥有显著的性能提升，其模型技术知识能力提升超过20%，数学/推理/代码/文创能力提升超过30%。

同时，「天工3.0」新增了搜索增强、研究模式、调用代码及绘制图表、多次调用联网搜索等能力，并针对性地训练了模型的Agent能力，使得「天工3.0」能够独立完成规划、调用、组合外部工具及信息，以精准高效地完成产业分析、产品对比等各类复杂需求。

「天工3.0」也是全球首个多模态“超级模型”（Super Model），集成了AI搜索、AI写作、AI长文本阅读、AI对话、AI语音合成、AI图片生成、AI漫画创作、AI图片识别、AI音乐生成、AI代码写作、AI表格生成等多项能力，堪称大模型时代的“超级应用”。

更多剧透，我们分成四个方面来看：

逻辑推理能力更强

逻辑推理能力的提升对于大模型解决复杂问题至关重要，「天工3.0」的数学与推理能力均提升超过30%，强大的逻辑推理能力使其能够在实际应用中更加准确和高效地处理信息。

例如，在「天工3.0」AI搜索的研究模式中，模型能够围绕用户的某个简单指令进行相关问题的延伸，并实时判断该段落信息是否需要联网搜索，能够实现如对某个行业进行细致的拆解分析，总结相关事件、拆解产业链地图等复杂功能，并以结构化或思维导图的形式进行最终展示，让模型更“聪明”。

语义理解能力更强

「天工3.0」能够更好地理解和处理用户自然语言Query中的复杂语义信息，包括隐喻、多义词等。

例如，在「天工3.0」AI搜索的增强搜索中，模型能够针对用户的复杂Query进行拆解、细化、并进行追问、信息理解与补全，使其在自然语义理解方面性能更强，面对不确定性知识时表现更好，能够更精准、高效地满足用户需求。

专项Agent训练，应对复杂需求能力更强

大模型时代，AI Agent（智能体）已经成为大模型技术的主流落地方向。

「天工3.0」针对模型独立规划、调用、组合外部工具及信息的能力进行了专项训练，使其能够独立生成并调用代码，完成包括产业研究、产品横评、信息分析、图片生成、图表绘制等多种复杂用户需求，并成为具备多个领域专业知识和能力的全能专家，以强大的语义理解及逻辑推理能力对用户需求进行深度理解，并把任务拆解成细分环节，发到不同的最优模型去处理，最大程度提升模型性能。

同时，针对B端用户，「天工3.0」也在知识库能力、任意工具调用能力、复杂角色指令追寻能力等领域进行了全面升级，企业用户可以通过上传知识文档构建专属知识库及Agent，并实现自动调用制定工具、完成复杂指令遵循Agent构建等实用能力。

内容创作能力全面升级

内容创作能力一直是「天工」系列大模型的强项，在上一代「天工2.0」大模型的基础上，「天工3.0」更是进行了全面的内容创作能力升级，其不仅能实现AI音乐生成、AI语音、AI对话、AI二次元漫画生成等强大的内容创作能力，更是通过专项Agent训练实现了在对话中结合文本需求实时生成图片、结合文本需求实时内容分析及图表构建等能力，成为真正能搜、能写、能读、能聊、能听、能说、能画、能看、能唱的超级模型。

昆仑万维董事长兼CEO方汉对此表示，“超级模型”是大模型时代发展的必然，未来，行业内将出现不止一个“超级模型”，昆仑万维也将持续朝着这一方向不断努力，持续为用户提供更智能、更高效、更可靠的人工智能服务。