英伟达携全新AI模型“推翻”音频界:可创造音乐、修正人声

liukang202415小时前正能量吃瓜516

财联社11月26日讯(修改 黄君芝)据报道,英伟达(Nvidia)开发了一种新式人工智能(AI)模型,能够发明声响作用,改动人的发音方法,并运用自然言语提示生成音乐。

真实的英伟达携全新AI模型“颠覆”音频界:可创作音乐、修改人声的图片

这个模型被命名为Fugatto,即Foundational Generative Audio Transformer Opus 1,是一个研讨项目。英伟达表明,它不会宣告任何发布这项技能的方案,但它可能会对从音乐、娱乐到翻译服务等职业发生广泛的影响。

英伟达运用深度学习研讨副总裁Bryan Catanzaro在承受采访时表明:“Fugatto最令人兴奋的当地在于,它具有一个模型,你能够要求它以某种方法宣布声响,这真的打开了你对它运用规模的幻想。”

他进一步解说说,市场上的其他模型,有些能够组成语音,有些能够为音乐增加音效,但Fugatto悉数都能够做到。Catanzaro说,能够将其视为视频和图画生成模型(如Stability AI的Stable Video Diffusion或OpenAI的Sora)的一种弥补。

明亮的英伟达携全新AI模型“颠覆”音频界:可创作音乐、修改人声的插图

“这儿最基本的改善是……咱们能够运用言语组成音频,我以为,这为人们能够用来发明惊人音频的东西拓荒了新的远景。”他弥补说。

依据英伟达的说法,Fugatto是第一个具有缩短特性的根底模型,这意味着它能够混合经过训练的元素,并遵从“自在方式的指令”。

详细而言,该模型能够经过规范的文字提示生成音频,也能够处理您上传的音频文件。所以,假如你有一个人说话的文件,你能够把那个人的话翻译成另一种言语,一起让它听起来像他的声响。你也能够挑选一个简略的曲调,让它听起来像管弦乐扮演,或许在音乐中增加不同的节拍。

经典的英伟达携全新AI模型“颠覆”音频界:可创作音乐、修改人声的图片

此外,你也能够上传一个文档,让模型用你喜爱的任何声响朗诵。更重要的是,你能够告知模型宣布带有情感重量的声响。

不过,Catanzaro也弥补说,这种模型并不总是完美的。并且,就像生成图画和视频的模型相同,Fugatto也会催生艺术家、音响工程师和相关范畴人员的忧虑。但Catanzaro指出,他的原意是期望这项技能能协助音乐家。

“我期望这是艺术家探究的新东西。”“我以为音频一直是一个富有成效的探究范畴。你知道,当咱们取得新的音频东西时,有时咱们会取得新的音乐方式。”他说。

告发/反应

相关文章

英伟达生成式AI超级电脑发布:AI功能进步1.7倍 仅249美元

快科技12月18日音讯,据报道,英伟达推出一款名为“Jetson Orin Nano Super”的生成式人工智能 (AI) 超级电脑。英伟达CEO黄仁勋表明,这款专为开发者规划的套件经过软件晋级完成...

AI 数学推理新王:英伟达发布两款 OpenMath-Nemotron 模型

IT之家 4 月 25 日音讯,科技媒体 marktechpost 今日(4 月 25 日)发布博文,报导称英伟达专为数学推理规划,发布 OpenMath-Nemotron-32B 和 OpenMa...

英特尔多年收买折戟后 方案以自主研制应战英伟达AI霸权

  新任CEO陈立武在其首个英特尔财报电话会议上向分析师勾勒了公司的战略蓝图,一起正告称:“这并非一蹴即至的解决方案。”  他表明将全面报导英特尔现有产品,针对机器人、用户使命署理等AI自卖自夸缩短趋...

岳阴文旅玩出新高度,熊猫会说话了!湖南首款AI文旅互动玩偶今天诞生

1月20日,“湖南首款AI文旅互动玩偶——AI熊猫龙宝产品发布会”在岳阳中华大熊猫苑成功举办。红网时间新闻1月20日讯(记者 罗玲)1月20日,“湖南首款AI文旅互动玩偶——AI熊猫龙宝产品发布会”在...

谷歌AI芯片打平英伟达,最高配每秒42500000000000000000次运算

梦晨 发自 凹非寺量子位 | 大众号 QbitAI谷歌首款AI推理特化版TPU芯片来了,专为深度考虑模型打造。代号Ironwood,也便是TPU v7,FP8峰值算力4614TFlops,功能是201...

友情链接: