修正 - 51今日吃瓜网

英伟达携全新AI模型“推翻”音频界：可创造音乐、修正人声

liukang20242个月前 (05-06)546

这个模型被命名为Fugatto，即Foundational Generative Audio Transformer Opus 1，是一个研讨项目。英伟达表明，它不会宣告任何发布这项技能的方案，但它可能会对从音乐、娱乐到翻译服务等职业发生广泛的影响。

英伟达运用深度学习研讨副总裁Bryan Catanzaro在承受采访时表明：“Fugatto最令人兴奋的当地在于，它具有一个模型，你能够要求它以某种方法宣布声响，这真的打开了你对它运用规模的幻想。”

他进一步解说说，市场上的其他模型，有些能够组成语音，有些能够为音乐增加音效，但Fugatto悉数都能够做到。Catanzaro说，能够将其视为视频和图画生成模型（如Stability AI的Stable Video Diffusion或OpenAI的Sora）的一种弥补。

明亮的英伟达携全新AI模型“颠覆”音频界：可创作音乐、修改人声的插图

“这儿最基本的改善是……咱们能够运用言语组成音频，我以为，这为人们能够用来发明惊人音频的东西拓荒了新的远景。”他弥补说。

依据英伟达的说法，Fugatto是第一个具有缩短特性的根底模型，这意味着它能够混合经过训练的元素，并遵从“自在方式的指令”。

详细而言，该模型能够经过规范的文字提示生成音频，也能够处理您上传的音频文件。所以，假如你有一个人说话的文件，你能够把那个人的话翻译成另一种言语，一起让它听起来像他的声响。你也能够挑选一个简略的曲调，让它听起来像管弦乐扮演，或许在音乐中增加不同的节拍。

经典的英伟达携全新AI模型“颠覆”音频界：可创作音乐、修改人声的图片

此外，你也能够上传一个文档，让模型用你喜爱的任何声响朗诵。更重要的是，你能够告知模型宣布带有情感重量的声响。

不过，Catanzaro也弥补说，这种模型并不总是完美的。并且，就像生成图画和视频的模型相同，Fugatto也会催生艺术家、音响工程师和相关范畴人员的忧虑。但Catanzaro指出，他的原意是期望这项技能能协助音乐家。

“我期望这是艺术家探究的新东西。”“我以为音频一直是一个富有成效的探究范畴。你知道，当咱们取得新的音频东西时，有时咱们会取得新的音乐方式。”他说。

财联社11月26日讯（修改黄君芝）据报道，英伟达（Nvidia）开发了一种新式人工智能（AI）模型，能够发明声响作用，改动人的发音方法，并运用自然言语提示生成音乐。这个模型被命名为Fugatto，即...

友情链接：