关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro2026-04-22 12:00:0146人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特朗普:南非对白人搞"屠杀" G20峰会美国不去了

澎湃新闻 浏览 224 11-09

卡拉格:曼城表现得很好,阿森纳会在英超冠军争夺中感到紧张

懂球帝 浏览 289 11-10

记者:国米并没有考虑尼古拉斯-冈萨雷斯作为卢克曼的替代者

懂球帝 浏览 6909 07-30

AI时代,汽车行业需要一个什么样的“家”?

雪豹财经社 浏览 432 08-20

抗战烽火中的跨国特殊情谊

浏览 207 11-25

贾永婕说小S越来越像大S,两人早已融为一体,过度消费大S惹争议

萌神木木 浏览 267 10-20

美国教授:印度该醒醒了 跟着美国对抗中国捞不着好

澎湃新闻 浏览 552 08-11

比亚迪海洋网在河南再添两款新车型!

大象新闻 浏览 8516 07-14

315风波后续来了!鹿哈取消直播被追着维权

萌神木木 浏览 114 03-17

阿根廷航空节期间一轻型飞机坠毁 至少2人死亡

极目新闻 浏览 314 09-15

马筱梅与玥儿姐弟相处好,却打脸其表演型人格?

二月侃事 浏览 2992 07-10

女子转院在黑救护车上死亡 家属维权遭死亡威胁后报警

大风新闻 浏览 5704 07-13

爱丽舍宫驳斥马克龙访乌“涉毒”传闻

环球时报国际 浏览 5726 05-15

指责俄侵犯领空 北约考虑降低开火门槛

新京报 浏览 300 10-12

AMD ROCm 软件堆栈更新至 7.0.2 版本,支持 Radeon RX 9060 显卡

IT之家 浏览 300 10-13

柳岩们,不用再笑着咽下“玩笑”

时尚COSMO 浏览 3724 08-02

夏天穿衣越简单越省力!这27套日常穿搭不容错过,显瘦又舒适

静儿时尚达人 浏览 6206 07-19

44岁网红"包公"离世:拎着线修漏电冰柜 厨房可能有水

极目新闻 浏览 7194 08-10

杨采钰男友社交账号曝光,晒二人合影秀幸福,在夜空下看无人机秀

扒虾侃娱 浏览 403 09-01

起拍价618万 抗日将领李默庵故居以2913万落槌成交

封面新闻 浏览 547 08-12

从“陀枪师姐”到豪门太太:滕丽名两遇渣男被小三,今成人生赢家

娱乐白名单 浏览 7795 07-22
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11