这个模型被命名为Fugatto,即Foundational Generative Audio Transformer Opus 1,是一个研讨项目。英伟达表明,它不会宣告任何发布这项技能的方案,但它可能会对从音乐、娱乐到翻译服务等职业发生广泛的影响。
英伟达运用深度学习研讨副总裁Bryan Catanzaro在承受采访时表明:“Fugatto最令人兴奋的当地在于,它具有一个模型,你能够要求它以某种方法宣布声响,这真的打开了你对它运用规模的幻想。”
他进一步解说说,市场上的其他模型,有些能够组成语音,有些能够为音乐增加音效,但Fugatto悉数都能够做到。Catanzaro说,能够将其视为视频和图画生成模型(如Stability AI的Stable Video Diffusion或OpenAI的Sora)的一种弥补。
“这儿最基本的改善是……咱们能够运用言语组成音频,我以为,这为人们能够用来发明惊人音频的东西拓荒了新的远景。”他弥补说。
依据英伟达的说法,Fugatto是第一个具有缩短特性的根底模型,这意味着它能够混合经过训练的元素,并遵从“自在方式的指令”。
详细而言,该模型能够经过规范的文字提示生成音频,也能够处理您上传的音频文件。所以,假如你有一个人说话的文件,你能够把那个人的话翻译成另一种言语,一起让它听起来像他的声响。你也能够挑选一个简略的曲调,让它听起来像管弦乐扮演,或许在音乐中增加不同的节拍。
此外,你也能够上传一个文档,让模型用你喜爱的任何声响朗诵。更重要的是,你能够告知模型宣布带有情感重量的声响。
不过,Catanzaro也弥补说,这种模型并不总是完美的。并且,就像生成图画和视频的模型相同,Fugatto也会催生艺术家、音响工程师和相关范畴人员的忧虑。但Catanzaro指出,他的原意是期望这项技能能协助音乐家。
“我期望这是艺术家探究的新东西。”“我以为音频一直是一个富有成效的探究范畴。你知道,当咱们取得新的音频东西时,有时咱们会取得新的音乐方式。”他说。