参考指南

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

全球首款！支...

鸿蒙智行享界...

特朗普与拜登...

43岁阮经天...

研选行业丨全...

受强对流天气...

欧塞尔青训总监：中国球员过于循规蹈矩，缺乏一些自主创造力

已攻入24球，广西恒宸费尔南多打破中乙球员单赛季进球纪录

峰值 4000 尼特与全屏 10000 尼特，尊正展示超高亮度显示产品

女生显土的4种穿搭，真的不好看！

百亿主动权益选手半年盘点：谁是崛起的黑马

无尾翼无人战机亮相九三阅兵

从灶台到屏幕：一位餐饮老炮的抖音破局之路

克罗宁：看利拉德身穿别队球衣时我总感觉不太对劲

霍夫曼：如果阿隆索留任我就将考虑转会，我本希望能和他坦诚沟通

贺炜：洪水虽然可以漫过村超的草皮，但热爱永不沉没

特朗普竞选新策略：硅谷大佬成关键助力

图多尔：在维罗纳执教的那一年很美好小孔塞桑踢不满90分钟

特朗普：乌表示随时准备签署美乌矿产协议

还没结束！全智贤巨幅海报还挂着

天空体育：40岁阿什利-扬完成加盟伊普斯维奇体检，几小时内官宣

美方在公海海域扣押悬挂俄罗斯国旗的油轮外交部回应

“豆腐靴”火了! 比马丁靴还好看, 早冬必穿!

马斯克3小时高能量访谈，信息量大到爆炸

冰玉白新色/可免费选装极氪009光辉售78.90万元起

加拿大球员今年齐迎井喷，小黑沙波的大师赛冠军还远吗？

断崖领先，罗塞尼尔执教白堡同期使用U21球员时间五大联赛第1

斯托伊科维奇：不会专人盯防凯恩；为什么不能赢下英格兰？

曝许凯长期聚众赌博，和许荔莎转账记录曝光，十几分钟赢下8000元

程思韵获批出任汇丰人寿董事长，公司刚获股东增资3.62亿元