参考指南

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

赴港IPO生...

丰田bZ4X...

赵露思：罢工...

专家:若特朗...

今年13.5...

被翻盘，冰岛...

60岁温碧霞和同龄人聚会，活成了“小公主”

赵露思控诉前东家：巨额财产被转走、解约遭威逼，这谁扛得住？

李在明表态：韩国站美国一边但要妥善处理对华关系

国资46%股权成控制娃哈哈关键宗馥莉杜建英均欲接盘

港股阿里美团京东齐涨，平均涨幅超过2%

一家三口在广西北海被海浪卷走：父亲遇难儿子还在ICU

现在的AIPC除了能多收你钱，真没什么用

苹果公开反对，欧盟委员会强硬回应

首搭量产半固态电池全新MG4预售7.38万元起

FIFA列决赛关键对位：维蒂尼亚对决恩佐、登贝莱vs查洛巴

为应付卫星执法农村给屋顶盖绿布模仿农田

官方：亚特兰大25岁后卫巴克在训练中遭遇十字韧带断裂，周一手术

沙溢胡可水晶婚：从“女强男弱”到如今，这才是婚姻最好的模样！

美股芯片股深夜狂飙，英伟达涨超6%，ARM、美光科技、闪迪创新高

美海军＂林肯＂号航母打击群抵达中东地区

湾区晚会近百万明星亮相！造型一个比一个认真，单依纯高定抢镜

太二不做酸菜鱼了？告别酸菜鱼的太二想干啥？

李若彤、郑秀文低能量时期的“处方”！停滞时不妨试试它

赵丽颖好事将近？闺蜜给她的生日祝福好微妙，被怀疑恋情有新进展

白色灵动岛：消息称努比亚手机也将“上岛”，可自行选择开关

顺丰科技梁博：打造安全运营驾驶舱为业务保驾护航

邓莎每个月生活费曝光，路行一个字都没有说错

杜兰特谈28年洛杉矶奥运会：很乐意参加，必须保持高水平状态

记者：在对阵多特的欧冠比赛中，热刺将缺阵15人