关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro2026-04-22 12:00:0141人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

康龙化成两员工在实验室内死亡,多名管理人员被罚,曾因员工实验室互殴引关注

红星资本局 浏览 334 09-21

5亿美元,重塑莲花跑车

经济观察报 浏览 399 09-01

六旬女子做痔疮手术9天后突然去世 当地卫健委介入

极目新闻 浏览 181 12-23

IM2025|AIGC单元评委公布:AI赋能,启幕新光影

东南卫视 浏览 3931 08-09

偶像的力量!锡安:普尔最爱艾弗森 他的突破有AI的影子

仰卧撑FTUer 浏览 276 10-24

秦国文任河南省委常委、省纪委书记

北京日报客户端 浏览 400 08-23

到了中年,夏天穿裤子最好避开这两种,选对了气质立马不一样

静儿时尚达人 浏览 10571 07-24

媒体:中美外长会面 鲁比奥仍被中方制裁无法踏入中国

新民周刊 浏览 5706 07-12

预售32.99万元起 猛士M817将于8月17日上市

车质网 浏览 3628 08-13

这些韩系穿搭最适合普通人!多穿深色、衣服基础,简洁耐看

静儿时尚达人 浏览 173 01-26

大众中国市场2025年交付269.38万辆,同比减少8%

IT之家 浏览 199 01-13

今夏第一双凉鞋,求你买这4双!巨火巨显腿长!

Yuki女人故事 浏览 6539 06-17

下周,A股还能不能修复?分析来了

每经牛眼 浏览 222 10-19

印度未发现波音787机队有重大缺陷

界面新闻 浏览 9209 06-19

下赛季将在西班牙打球!程帅澎社媒送别余嘉豪:追梦成功

直播吧 浏览 424 08-25

两次延期后回复上交所问询!综艺股份拟2.2亿入局功率芯片公司,转型还是保壳?

时代周报 浏览 4359 07-26

谁在买尊界S800?

Daily每日财报 浏览 2434 07-26

欧洲多方:乌克兰获得安全保障才能实现持久和平

国际在线 浏览 453 08-17

菲领导人称若台海发生战争菲将不得不介入 外交部回应

新京报 浏览 3428 08-08

博主称火锅店存在阴阳菜单后收到威胁短信 目前已搬家

上游新闻 浏览 2308 08-05

陈冰挺孕肚陪男友逛街,陈牧驰一脸络腮胡

黄谋仕 浏览 201 01-09
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11