Meta发表音乐生成模型MusicGen
2023-06-16分类:元宇宙 阅读()
Meta AI于上周发表了音乐生成模型MusicGen,并透过GitHub开源了Audiocraft,Audiocraft为一针对声音生成而打造的PyTorch深度学习函式库,提供程式码及模型予MusicGen,允许使用者透过文字或辅以既有的音乐片段来创造自己的音乐。
MusicGen是个一次到位(One Stage)的自我回归(Autoregression)Transformer模型,它在一个32kHz的EnCodec分词器上进行训练,使用了4个以50 Hz采样的码书(Codebook)。
Meta AI团队说明,与Google音乐AI工具MusicLM不同,MusicGen不需要自我监督的语义表示,代表它在生成音乐时不必预先训练一个模型来理解音乐的语义,同时它一次就可生成4个码书,藉由在码书之间导入小延迟,以并行预测这些码书,使其每秒音频仅需进行50步的自我回归预测。
另一个不同则是Meta开源了Audiocraft/MusicGen,但Google尚未打算开放一般用户使用MusicLM。
Meta AI团队使用了2万小时的授权音乐来训练MusicGen,包括1万小时的内部音乐资料集,以及来自ShutterStock与Pond5的音乐资料。
使用者可藉由API存取Meta AI团队预先训练的4个模型,这些模型的规模不同,包括具备3亿参数的小模型、拥有15亿参数的中等模型,拥有15亿参数且可同时输入文字与音乐的旋律模型,以及具备33亿参数的大模型。其中,除了旋律模型之外,其它模型都只能输入文字来产生音乐。此外,该团队发现,中型与旋律模型在运算及品质上可取得最佳平衡。
Meta AI的研究科学家Alexandre Défossez比较了4个音乐生成模型的不同,涵盖MusicGen、MusicLM、Riffusion与Musai等,赋予它们同样的描述,并观察它们的生成结果。
Nvidia的AI科学家Jim Fan表示,Meta在开源上取得了连胜,MusicGen替音乐AI创造了另一个LLaMA时刻。
要在自己的系统上试用Audiocraft/MusicGen必须安装Python 3.9与PyTorch 2.0.0,以及至少具备16GB记忆体的GPU。
Tags:
本栏推荐
标签云
-
CoinMarketCap 炒币 币圈 Rust MOVE IFO filecoin GRT near AAVE DAI Ethereum TVL 加密钱包 ERC20 区块链应用 零知识证明 区块链公司 什么是DeFi BOBA 区块链游戏 DePIN 比特币是什么 加密货币钱包 加密货币 FIL 比特币ETF 比特币挖矿 比特币减半 虚拟货币 比特币交易 加密货币投资 比特币投资 Coinw 数字货币交易所 区块链交易所 区块链开发 矿机 BitMEX OKCoin 比特币钱包 狗狗币怎么买 以太币 虚拟货币交易所 加密货币诈骗 中本聪 加密货币挖矿 BitoPro 什么是区块链 SHIB