关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro2026-04-22 12:00:01159人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

国资46%股权成控制娃哈哈关键 宗馥莉杜建英均欲接盘

金融界 浏览 1520 07-18

港股阿里美团京东齐涨,平均涨幅超过2%

三言科技 浏览 3134 07-21

一家三口在广西北海被海浪卷走:父亲遇难儿子还在ICU

红星新闻 浏览 1892 08-05

现在的AIPC除了能多收你钱,真没什么用

差评XPIN 浏览 507 08-19

苹果公开反对,欧盟委员会强硬回应

第一财经资讯 浏览 414 09-26

首搭量产半固态电池 全新MG4预售7.38万元起

网易汽车 浏览 9808 08-06

FIFA列决赛关键对位:维蒂尼亚对决恩佐、登贝莱vs查洛巴

直播吧 浏览 7113 07-14

为应付卫星执法 农村给屋顶盖绿布模仿农田

中国新闻周刊 浏览 520 09-07

官方:亚特兰大25岁后卫巴克在训练中遭遇十字韧带断裂,周一手术

直播吧 浏览 9925 07-26

沙溢胡可水晶婚:从“女强男弱”到如今,这才是婚姻最好的模样!

娱乐白名单 浏览 8401 07-14

美股芯片股深夜狂飙,英伟达涨超6%,ARM、美光科技、闪迪创新高

21世纪经济报道 浏览 63 06-02

美海军"林肯"号航母打击群抵达中东地区

环球网资讯 浏览 284 01-28

湾区晚会近百万明星亮相!造型一个比一个认真,单依纯高定抢镜

萌神木木 浏览 328 09-29

太二不做酸菜鱼了?告别酸菜鱼的太二想干啥?

江瀚视野 浏览 314 01-18

李若彤、郑秀文低能量时期的“处方”!停滞时不妨试试它

黎贝卡的异想世界 浏览 1581 07-05

赵丽颖好事将近?闺蜜给她的生日祝福好微妙,被怀疑恋情有新进展

萌神木木 浏览 355 10-17

白色灵动岛:消息称努比亚手机也将“上岛”,可自行选择开关

IT之家 浏览 265 12-21

顺丰科技梁博:打造安全运营驾驶舱为业务保驾护航

网易科技报道 浏览 496 08-23

邓莎每个月生活费曝光,路行一个字都没有说错

贵州小娟 浏览 365 10-25

杜兰特谈28年洛杉矶奥运会:很乐意参加,必须保持高水平状态

懂球帝 浏览 255 02-24

记者:在对阵多特的欧冠比赛中,热刺将缺阵15人

懂球帝 浏览 302 01-20
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11