Meta发表音乐生成模型MusicGen

2023-06-16分类:元宇宙 阅读(


Meta AI于上周发表了音乐生成模型MusicGen,并透过GitHub开源了Audiocraft,Audiocraft为一针对声音生成而打造的PyTorch深度学习函式库,提供程式码及模型予MusicGen,允许使用者透过文字或辅以既有的音乐片段来创造自己的音乐。

MusicGen是个一次到位(One Stage)的自我回归(Autoregression)Transformer模型,它在一个32kHz的EnCodec分词器上进行训练,使用了4个以50 Hz采样的码书(Codebook)。

Meta AI团队说明,与Google音乐AI工具MusicLM不同,MusicGen不需要自我监督的语义表示,代表它在生成音乐时不必预先训练一个模型来理解音乐的语义,同时它一次就可生成4个码书,藉由在码书之间导入小延迟,以并行预测这些码书,使其每秒音频仅需进行50步的自我回归预测。

另一个不同则是Meta开源了Audiocraft/MusicGen,但Google尚未打算开放一般用户使用MusicLM。

Meta AI团队使用了2万小时的授权音乐来训练MusicGen,包括1万小时的内部音乐资料集,以及来自ShutterStock与Pond5的音乐资料。

使用者可藉由API存取Meta AI团队预先训练的4个模型,这些模型的规模不同,包括具备3亿参数的小模型、拥有15亿参数的中等模型,拥有15亿参数且可同时输入文字与音乐的旋律模型,以及具备33亿参数的大模型。其中,除了旋律模型之外,其它模型都只能输入文字来产生音乐。此外,该团队发现,中型与旋律模型在运算及品质上可取得最佳平衡。

Meta AI的研究科学家Alexandre Défossez比较了4个音乐生成模型的不同,涵盖MusicGen、MusicLM、Riffusion与Musai等,赋予它们同样的描述,并观察它们的生成结果。

Nvidia的AI科学家Jim Fan表示,Meta在开源上取得了连胜,MusicGen替音乐AI创造了另一个LLaMA时刻。

要在自己的系统上试用Audiocraft/MusicGen必须安装Python 3.9与PyTorch 2.0.0,以及至少具备16GB记忆体的GPU。

Tags: