开源文本生成音乐AI Meta AudioCraft 将文字转化为和声 (开源文本生成模型)

admin 2025-01-10 次阅读

Meta开源了它的 Text-to-Music 生成式人工智能AudioCraft，供研究人员和从业者训练他们自己的模型，并帮助推动前沿技术的发展。

AudioCraft 包含三个不同的模型：能够根据文本提示生成音乐；能够产生环境声音；是一个由 AI 驱动的编码器/量化器/解码器。

据 Meta 介绍，AudioCraft 能够使用自然界面生成高质量的音频。此外，他们还说，AudioCraft 利用一种新方法简化了音频生成领域最先进的设计。

具体来说，AudioCraft 使用 EnCodec 神经音频编解码器从原始信号中学习 Audio Token。这一步从音乐样本创建出了固定“词汇表”（Audio Token），并随后将其传递给自回归语言模型。这个模型训练了一个新的音频语言模型，利用 Token 的内部结构来捕捉它们的长程依赖关系，这对音乐生成至关重要。最后，这个新模型基于文本描述生成新的 Token，并将其反馈到编解码器的解码器以合成声音和音乐。

如前所述，AudioCraft 是开源的，Meta 希望能够帮助研究社区以它为基础做进一步地构建：

虽然 AudioCraft 的大部分是开源的，但是他们为模型权重选择了CC-BY-NC许可。Hacker News 上有用户指出，该许可限制较多，并不算完全开源。

具体来说，非商业性使用条款违背了开源倡议对开源的定义中的第六点，这很可能是因为 Meta 使用了 Meta 拥有并特别授权的音乐来计算这些权重。其余组件将在MIT许可下发布。

原文链接：