一个生成式 AI 研究团队创造了一把如同瑞士军刀般多功能的声音工具,支持用户只需使用文本就能控制输出的音频。
虽然一些 AI 模型可以谱曲或修音,但没有一个能在灵活性上媲美这个新模型。
根据由任意的文本和音频文件组合所构成的提示词,这个名为 Fugatto (Foundational Generative Audio Transformer Opus 1 的缩写) 的模型,可以生成或转换由任意的音乐、人声和声音所构成的作品。
例如,它可以根据文本提示创作音乐片段、在现有歌曲中删除或添加乐器、改变人声的口音或情绪,甚至让人们发出从未听过的声音。
One Take Audio 公司是 NVIDIA 初创加速计划的成员。该公司的联合创始人、曾推出过多张白金唱片的制作人兼词曲创作人 Ido Zmishlany 表示:“这太疯狂了!声音是我的灵感源泉,是我创作音乐的原动力。我可以在录音室里随心所欲地创造出全新的声音,这完全突破了人们的想象。”
准确掌控音频
NVIDIA 应用音频研究经理 Rafael Valle 表示:“我们希望创建一个能够像人类一样理解和创作声音的模型。”Rafael Valle 是 Fugatto 背后的十几个开发者之一,同时也是一位管弦乐指挥家和作曲家。
Fugatto 可支持众多音频生成和转换任务,是首个展现了新能力 (即各种经过训练的能力相互作用所产生的新能力) 并能够整合自由格式指令的基础性生成式 AI 模型。
Valle 说:“Fugatto 是我们迈向未来的第一步。未来,音频合成与转换中的无监督多任务学习将从数据和模型规模中产生。”
使用场景示例
例如,音乐制作人可以使用 Fugatto 来快速地制作歌曲原型或编辑歌曲创意,尝试不同的风格、人声和乐器。他们还可以添加音效,提高现有曲目的整体音质。
Zmishlany 说:“音乐发展史也是一部技术发展史。电吉他为我们带来了摇滚乐。采样器的出现催生了嘻哈音乐。AI 正在开启音乐的新篇章。这个新的音乐创作工具令人超级兴奋。”
广告公司可以使用 Fugatto,针对多个地区或多种情形快速地修改现有的营销活动素材,在配音中采用不同的口音和情感。
通过使用说话者所选择的任何人声,语言学习工具可以实现个性化。试想一下,在线课程以某个家庭成员或朋友的特定声音进行。
电子游戏开发人员可以使用该模型来修改游戏中预先录制的音频资料,以适应用户玩游戏时不断变化的行为。或者,他们可以根据文字说明和可选的音频输入来即时地创建新的音频资料。
制造令人喜悦的声音
Valle 说道:“在该模型中,特别让我们引以为豪的是一个称之为‘鳄梨椅’的功能。”鳄梨椅是一个由针对成像的生成式 AI 模型所创建的新颖的视觉效果。
例如,Fugatto 可以让小号发出“汪汪”的狗叫声,或者让萨克斯管发出“喵喵”的猫叫声。只要用户能描述出来,该模型就能创造出来。
研究人员发现,只需微调和少量歌唱数据,它就可以处理未经预训练的任务,比如根据文本提示来生成高质量的歌声。
用户获得艺术控制权
除了这些新颖之处,Fugatto 还添加了多项功能。
在推理过程中,该模型使用一种名为 ComposableART 的技术,将训练过程中只能单独看到的指令组合在一起。例如,一组提示词可以要求它用法语口音说出带有悲伤情绪的文字。
该模型能够在指令之间插入内容,这让用户能够精细地控制文本指令。在这种情况下,用户可以控制口音的轻重或悲伤的程度。
为该模型设计了相关功能的 AI 研究员 Rohan Badlani 表示:“我想让用户可以以主观或艺术化的方式整合各种属性,并能够选择他们对每个属性的侧重点。”
Badlani 说:“在我进行的测试中,结果常常出人意料,让我觉得自己有点像艺术家,尽管我是一名计算机专家。”Badlani 拥有斯坦福大学计算机科学硕士学位,主攻人工智能。
这个模型还能生成随着时间的推移而不断变化的声音,他把这种功能称为时间插值。例如,它可以产生暴雨经过某个区域的声音,雷声逐渐增大,然后慢慢地消失在远方。它还能让用户精细地控制声景的演变。
此外,大多数模型只能重现它们所接触过的训练数据,而 Fugatto 则不同,它让用户能够创建从未见过的声景,例如雷雨随着黎明的来临逐渐停歇并伴随着鸟鸣声。
内在机理
Fugatto 是一个基础性生成式 Transformer 模型,其源自该团队之前在诸多领域的研究成果,例如语音建模、音频声音编码和音频理解等。
模型的完整版使用了 25 亿个参数,并在一系列配备 32 块 NVIDIA Hopper Tensor Core GPU 的 NVIDIA DGX 系统上进行了训练。
Fugatto 是由一群来自印度、巴西、中国、约旦和韩国等世界各地的人员共同开发的。他们的通力合作使 Fugatto 的多口音和多语言功能更加强大。
在开发该模型的过程中,其中一项最困难的工作是生成一个混合数据集,该数据集包含了数百万个用于训练的音频样本。在生成数据和指令时,该团队采用了多方面的策略,这大大地扩展了模型可执行的任务范围,同时实现了更精准的性能,并且无需额外数据即可完成新任务。
这些开发人员还仔细地研究了现有数据集,以揭示数据之间的新关系。整个工作持续了一年多。
Valle 提到了两个重要时刻,它们让团队意识到自己走在正确的路上。他说:“它第一次根据提示词成功地生成音乐时,我们都惊呆了。”
后来,团队演示了 Fugatto 根据提示词而创作出电子音乐,其中的狗叫声实现了与节拍同步。
“当大家捧腹大笑时,我的心里真的感到很温暖。”
来听听 Fugatto 的杰作: