Nvidia、Meta、OpenAI联合发布新一代音乐模型Fugatto，能生成“前所未有的声音”

作者： CBISMB

责任编辑：邹大斌

来源： ISMB

时间： 2024-11-26 10:55

点赞： 23

收藏： 5

英伟达公司日前与Meta、OpenAI和Runway AI等公司一起发布了一款生成人工智能模型，可以通过人类语言提示创建“新”音乐和音频。

据芯片制造商介绍，这款名为Fugatto的新模型具有独特的能力，可以修改人声并创造其他模型无法产生的“新颖声音”。

英伟达以制造为AI模型提供动力的强大图形处理单元而闻名，但由于安全问题，该公司尚未公开发布该模型。

该公司表示，Fugatto与其他音乐和音频生成模型不同，因为它能够吸收和修改现有的声音。例如，它可以听钢琴演奏的音乐片段，并将声音转换为由人声或小提琴等替代乐器演唱的音符。它还可以录制人声，并改变歌唱中表达的口音和情绪。

说Fugatto的声音完全新颖不太准确，因为像所有人工智能模型一样，输出来自一种算法，该算法使用现有的数据源来尝试创建满足用户提示请求的东西。即便如此，英伟达表示，Fugatto能够通过叠加两种不同的音频效果来创造原创的东西，从而“创造出前所未有的音乐”。

在YouTube上发布的一段视频中，该公司展示了Fugatto如何产生火车的声音，慢慢变成管弦乐表演，将快乐的声音变成愤怒的声音等。

英伟达称，此前的音频生成模型都不具有这样的能力。此外，除了基本的提示工程之外，Fugatto还为用户提供了更精细的控件来编辑他们创建的音乐。

英伟达应用深度学习研究副总裁Bryan Catanzaro告诉路透社，生成式人工智能有可能像电子合成器一样影响音乐制作。

他说：“如果我们想想过去50年的合成音频，由于电脑的存在，现在的音乐听起来不同了。生成式人工智能将为音乐、视频游戏和想要创造东西的普通人带来新的功能。”

英伟达并不是第一家尝试生成AI音乐创作的公司。上个月，Meta推出了一种名为Movie Gen的新模型，该模型可以为其生成的短片创建视频和声音场景。

英伟达没有过多提及用于训练Fugatto的数据，除了它是来自开源数据的“数百万个音频样本”。该公司还证实，目前还没有任何计划向人工智能开发人员提供Fugatto，Meta是如此。据Catazaro说，他的团队仍在讨论如何安全地向公众发布该模型。

他说：“任何生成技术都会带来一些风险，因为人们可能会用它来生成我们不希望他们生成的东西。我们需要小心这一点，这就是为什么我们没有立即发布这一消息的计划。”

除了安全问题，英伟达无疑也注意到了潜在的版权问题。6月，代表索尼音乐娱乐、华纳音乐和环球音乐等原告的唱片公司对人工智能音乐初创公司Suno股份有限公司和Uncharted Labs股份有限公司提起诉讼，指控它们以“几乎难以想象的规模”“广泛侵犯”受版权保护的录音制品。

人工智能和好莱坞之间的关系同样紧张。虽然一些人工智能公司，如OpenAI，正试图与好莱坞电影公司就其数据的使用进行谈判，但女演员斯嘉丽·约翰逊公开指责OpenAI克隆了她的声音，并威胁要对该公司采取法律行动。

©本站发布的所有内容，包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等，除特别标明外，均来源于网络或用户投稿，版权归原作者或原出处所有。我们致力于保护原作者版权，若涉及版权问题，请及时联系我们进行处理。

相关推荐