参考指南

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

超420只债...

苹果欲推首款...

看足协杯上直...

谷歌开源AI...

张嘉译西安别...

东部战区发布...

德天空：若无法签下埃德森，加拉塔萨雷将转攻迪奥戈-科斯塔

为下一站做准备！威少更新社媒转发一组今日的训练照

消息称高通将旗舰芯片转向 Arm 新架构，与苹果、联发科竞争加剧

彭昱畅恋上经纪人！堪称娱乐圈职场恋天花板

多个高铁站商店停售泡面＂高铁上能否吃泡面＂引热议

迪萨西：我曾希望切尔西能找到解决方案，让我租借加盟摩纳哥

尾号7个0手机号法拍:要预存100万话费每月最低消费5千

近7场1胜6负，河床近期战绩非常糟糕

俄大使：美袭击时委防空系统远程预警站通信出问题

刘嘉玲的老公梁朝伟还能继续救她吗？

德雷珀：因手臂伤势将缺席2025年余下的比赛

泡泡玛特大跌，大摩“力挺”：“二手市场价格”可能误导

深度揭秘OpenAI如何让GPT-5「技术性」超越Claude：悄悄跳过最难的23道题

德总理披露：普京同意两周内与泽连斯基会晤

被奔驰逼停摩托车主：不追究了太折腾照程序走就行了

50+女人要想穿得好看，不靠“装嫩”靠这3招！越老越简约得体

挥别日上免税市场洗牌

人民日报钟声：秉持诚意和原则，推动中美经贸相向而行

复婚无望！baby黄晓明陪小海绵零交流

澎湃读报丨央媒刊文追忆杨振宁先生：心系家国，功在世界

乔布斯27岁女儿将办婚礼男方是奥运冠军政要名流齐聚

美媒：特朗普倾向于乌克兰割让领土而非停火

饿了么原CEO韩鎏被警方带走调查

匹克被指大幅降薪员工：发薪日前4天才知道