关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro2026-04-22 12:00:01154人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

彭昱畅恋上经纪人!堪称娱乐圈职场恋天花板

小椰的奶奶 浏览 80 05-28

多个高铁站商店停售泡面 "高铁上能否吃泡面"引热议

大风新闻 浏览 516 08-15

迪萨西:我曾希望切尔西能找到解决方案,让我租借加盟摩纳哥

直播吧 浏览 462 09-11

尾号7个0手机号法拍:要预存100万话费每月最低消费5千

红星新闻 浏览 10277 07-24

近7场1胜6负,河床近期战绩非常糟糕

懂球帝 浏览 361 10-13

俄大使:美袭击时 委防空系统远程预警站通信出问题

参考消息 浏览 276 01-13

刘嘉玲的老公梁朝伟还能继续救她吗?

桑启红原 浏览 467 09-02

德雷珀:因手臂伤势将缺席2025年余下的比赛

懂球帝 浏览 434 09-09

泡泡玛特大跌,大摩“力挺”:“二手市场价格”可能误导

华尔街见闻官方 浏览 439 09-09

深度揭秘OpenAI如何让GPT-5「技术性」超越Claude:悄悄跳过最难的23道题

新智元 浏览 517 08-20

德总理披露:普京同意两周内与泽连斯基会晤

环球网资讯 浏览 585 08-19

被奔驰逼停摩托车主:不追究了太折腾 照程序走就行了

大象新闻 浏览 9223 08-06

50+女人要想穿得好看,不靠“装嫩”靠这3招!越老越简约得体

静儿时尚达人 浏览 413 09-05

挥别日上 免税市场洗牌

北京商报 浏览 277 12-29

人民日报钟声:秉持诚意和原则,推动中美经贸相向而行

人民网 浏览 7007 07-27

复婚无望!baby黄晓明陪小海绵零交流

八卦王者 浏览 136 04-22

澎湃读报丨央媒刊文追忆杨振宁先生:心系家国,功在世界

澎湃新闻 浏览 372 10-19

乔布斯27岁女儿将办婚礼男方是奥运冠军 政要名流齐聚

每日经济新闻 浏览 10538 07-24

美媒:特朗普倾向于乌克兰割让领土 而非停火

鲁中晨报 浏览 521 08-18

饿了么原CEO韩鎏被警方带走调查

界面新闻 浏览 1300 06-21

匹克被指大幅降薪 员工:发薪日前4天才知道

每日经济新闻 浏览 441 09-18
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11