Meta发表音乐生成模型MusicGen
2023-06-16分类:元宇宙 阅读()
Meta AI于上周发表了音乐生成模型MusicGen,并透过GitHub开源了Audiocraft,Audiocraft为一针对声音生成而打造的PyTorch深度学习函式库,提供程式码及模型予MusicGen,允许使用者透过文字或辅以既有的音乐片段来创造自己的音乐。
MusicGen是个一次到位(One Stage)的自我回归(Autoregression)Transformer模型,它在一个32kHz的EnCodec分词器上进行训练,使用了4个以50 Hz采样的码书(Codebook)。
Meta AI团队说明,与Google音乐AI工具MusicLM不同,MusicGen不需要自我监督的语义表示,代表它在生成音乐时不必预先训练一个模型来理解音乐的语义,同时它一次就可生成4个码书,藉由在码书之间导入小延迟,以并行预测这些码书,使其每秒音频仅需进行50步的自我回归预测。
另一个不同则是Meta开源了Audiocraft/MusicGen,但Google尚未打算开放一般用户使用MusicLM。
Meta AI团队使用了2万小时的授权音乐来训练MusicGen,包括1万小时的内部音乐资料集,以及来自ShutterStock与Pond5的音乐资料。
使用者可藉由API存取Meta AI团队预先训练的4个模型,这些模型的规模不同,包括具备3亿参数的小模型、拥有15亿参数的中等模型,拥有15亿参数且可同时输入文字与音乐的旋律模型,以及具备33亿参数的大模型。其中,除了旋律模型之外,其它模型都只能输入文字来产生音乐。此外,该团队发现,中型与旋律模型在运算及品质上可取得最佳平衡。
Meta AI的研究科学家Alexandre Défossez比较了4个音乐生成模型的不同,涵盖MusicGen、MusicLM、Riffusion与Musai等,赋予它们同样的描述,并观察它们的生成结果。
Nvidia的AI科学家Jim Fan表示,Meta在开源上取得了连胜,MusicGen替音乐AI创造了另一个LLaMA时刻。
要在自己的系统上试用Audiocraft/MusicGen必须安装Python 3.9与PyTorch 2.0.0,以及至少具备16GB记忆体的GPU。
Tags:
标签云
-
Binance OKx 虚拟货币交易所 USDT 模因币 BRC20 TRC20 Staking 虚拟货币 ARB Sol gamefi 小狐狸钱包 DAO web3.0 流动性挖矿 什么是DeFi ICO 什么是NFT 什么是稳定币 SHIB 虚拟货币钱包 加密货币交易所 加密货币 什么是加密货币 GST 资金费率 MAX 区块链技术 区块链投资 区块链是什么 Coinw BingX Gate.io Bitfinex MEXC BITGET BitMEX Kucoin pionex Bybit BitMart KYC 网格交易 LTC Litecoin PI 什么是狗狗币 LUNA USDC