关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro2026-04-22 12:00:0138人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

女生显土的4种穿搭,真的不好看!

Yuki女人故事 浏览 246 10-17

百亿主动权益选手半年盘点:谁是崛起的黑马

智谷趋势 浏览 2991 07-18

无尾翼无人战机亮相九三阅兵

南方都市报 浏览 344 09-04

从灶台到屏幕:一位餐饮老炮的抖音破局之路

餐饮老板内参 浏览 451 08-26

克罗宁:看利拉德身穿别队球衣时 我总感觉不太对劲

直播吧 浏览 4111 07-22

霍夫曼:如果阿隆索留任我就将考虑转会,我本希望能和他坦诚沟通

直播吧 浏览 4467 07-22

贺炜:洪水虽然可以漫过村超的草皮,但热爱永不沉没

懂球帝 浏览 5140 07-27

特朗普竞选新策略:硅谷大佬成关键助力

浏览 6129 07-14

图多尔:在维罗纳执教的那一年很美好 小孔塞桑踢不满90分钟

直播吧 浏览 325 09-21

特朗普:乌表示随时准备签署美乌矿产协议

浏览 10631 07-14

还没结束!全智贤巨幅海报还挂着

萌神木木 浏览 312 09-21

天空体育:40岁阿什利-扬完成加盟伊普斯维奇体检,几小时内官宣

直播吧 浏览 8606 07-24

美方在公海海域扣押悬挂俄罗斯国旗的油轮 外交部回应

澎湃新闻 浏览 184 01-09

“豆腐靴”火了! 比马丁靴还好看, 早冬必穿!

Yuki女人故事 浏览 126 01-11

马斯克3小时高能量访谈,信息量大到爆炸

深蓝财经 浏览 209 01-13

冰玉白新色/可免费选装 极氪009光辉售78.90万元起

网易汽车 浏览 8518 08-06

加拿大球员今年齐迎井喷,小黑沙波的大师赛冠军还远吗?

网球之家 浏览 451 08-12

断崖领先,罗塞尼尔执教白堡同期使用U21球员时间五大联赛第1

懂球帝 浏览 194 01-07

斯托伊科维奇:不会专人盯防凯恩;为什么不能赢下英格兰?

懂球帝 浏览 363 09-09

曝许凯长期聚众赌博,和许荔莎转账记录曝光,十几分钟赢下8000元

扒虾侃娱 浏览 345 09-08

程思韵获批出任汇丰人寿董事长,公司刚获股东增资3.62亿元

蓝鲸Insurance 浏览 648 08-14
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11