Meta发表音乐生成模型MusicGen

2023-06-16分类：元宇宙阅读（）

Meta AI于上周发表了音乐生成模型MusicGen，并透过GitHub开源了Audiocraft，Audiocraft为一针对声音生成而打造的PyTorch深度学习函式库，提供程式码及模型予MusicGen，允许使用者透过文字或辅以既有的音乐片段来创造自己的音乐。

MusicGen是个一次到位（One Stage）的自我回归（Autoregression）Transformer模型，它在一个32kHz的EnCodec分词器上进行训练，使用了4个以50 Hz采样的码书（Codebook）。

Meta AI团队说明，与Google音乐AI工具MusicLM不同，MusicGen不需要自我监督的语义表示，代表它在生成音乐时不必预先训练一个模型来理解音乐的语义，同时它一次就可生成4个码书，藉由在码书之间导入小延迟，以并行预测这些码书，使其每秒音频仅需进行50步的自我回归预测。

另一个不同则是Meta开源了Audiocraft/MusicGen，但Google尚未打算开放一般用户使用MusicLM。

Meta AI团队使用了2万小时的授权音乐来训练MusicGen，包括1万小时的内部音乐资料集，以及来自ShutterStock与Pond5的音乐资料。

使用者可藉由API存取Meta AI团队预先训练的4个模型，这些模型的规模不同，包括具备3亿参数的小模型、拥有15亿参数的中等模型，拥有15亿参数且可同时输入文字与音乐的旋律模型，以及具备33亿参数的大模型。其中，除了旋律模型之外，其它模型都只能输入文字来产生音乐。此外，该团队发现，中型与旋律模型在运算及品质上可取得最佳平衡。

Meta AI的研究科学家Alexandre Défossez比较了4个音乐生成模型的不同，涵盖MusicGen、MusicLM、Riffusion与Musai等，赋予它们同样的描述，并观察它们的生成结果。

Nvidia的AI科学家Jim Fan表示，Meta在开源上取得了连胜，MusicGen替音乐AI创造了另一个LLaMA时刻。

要在自己的系统上试用Audiocraft/MusicGen必须安装Python 3.9与PyTorch 2.0.0，以及至少具备16GB记忆体的GPU。

Tags：

本栏推荐

宇宙房地产投资篇︱5分钟入门买地攻略

Meta发表音乐生成模型MusicGen

相关文章

本栏推荐

标签云