Nvidia、Meta、OpenAI联合发布新一代音乐模型Fugatto,能生成“前所未有的声音”
作者: CBISMB
责任编辑: 邹大斌
来源: ISMB
时间: 2024-11-26 10:55
关键字: 英伟达,大模型
浏览: 0
点赞: 0
收藏: 0
英伟达公司日前与Meta、OpenAI和Runway AI等公司一起发布了一款生成人工智能模型,可以通过人类语言提示创建“新”音乐和音频。
据芯片制造商介绍,这款名为Fugatto的新模型具有独特的能力,可以修改人声并创造其他模型无法产生的“新颖声音”。
英伟达以制造为AI模型提供动力的强大图形处理单元而闻名,但由于安全问题,该公司尚未公开发布该模型。
该公司表示,Fugatto与其他音乐和音频生成模型不同,因为它能够吸收和修改现有的声音。例如,它可以听钢琴演奏的音乐片段,并将声音转换为由人声或小提琴等替代乐器演唱的音符。它还可以录制人声,并改变歌唱中表达的口音和情绪。
说Fugatto的声音完全新颖不太准确,因为像所有人工智能模型一样,输出来自一种算法,该算法使用现有的数据源来尝试创建满足用户提示请求的东西。即便如此,英伟达表示,Fugatto能够通过叠加两种不同的音频效果来创造原创的东西,从而“创造出前所未有的音乐”。
在YouTube上发布的一段视频中,该公司展示了Fugatto如何产生火车的声音,慢慢变成管弦乐表演,将快乐的声音变成愤怒的声音等。
英伟达称,此前的音频生成模型都不具有这样的能力。此外,除了基本的提示工程之外,Fugatto还为用户提供了更精细的控件来编辑他们创建的音乐。
英伟达应用深度学习研究副总裁Bryan Catanzaro告诉路透社,生成式人工智能有可能像电子合成器一样影响音乐制作。
他说:“如果我们想想过去50年的合成音频,由于电脑的存在,现在的音乐听起来不同了。生成式人工智能将为音乐、视频游戏和想要创造东西的普通人带来新的功能。”
英伟达并不是第一家尝试生成AI音乐创作的公司。上个月,Meta推出了一种名为Movie Gen的新模型,该模型可以为其生成的短片创建视频和声音场景。
英伟达没有过多提及用于训练Fugatto的数据,除了它是来自开源数据的“数百万个音频样本”。该公司还证实,目前还没有任何计划向人工智能开发人员提供Fugatto,Meta是如此。据Catazaro说,他的团队仍在讨论如何安全地向公众发布该模型。
他说:“任何生成技术都会带来一些风险,因为人们可能会用它来生成我们不希望他们生成的东西。我们需要小心这一点,这就是为什么我们没有立即发布这一消息的计划。”
除了安全问题,英伟达无疑也注意到了潜在的版权问题。6月,代表索尼音乐娱乐、华纳音乐和环球音乐等原告的唱片公司对人工智能音乐初创公司Suno股份有限公司和Uncharted Labs股份有限公司提起诉讼,指控它们以“几乎难以想象的规模”“广泛侵犯”受版权保护的录音制品。
人工智能和好莱坞之间的关系同样紧张。虽然一些人工智能公司,如OpenAI,正试图与好莱坞电影公司就其数据的使用进行谈判,但女演员斯嘉丽·约翰逊公开指责OpenAI克隆了她的声音,并威胁要对该公司采取法律行动。