关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro2026-04-22 12:00:01157人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

加沙停火协议生效后的48小时:人质释放、民众返乡

澎湃新闻 浏览 411 10-14

泽连斯基称将启动对乌军的改革:前线人员大幅涨薪

上观新闻 浏览 134 05-02

多名高官遭以军“斩首” 胡塞动手报复

极目新闻 浏览 461 09-02

撒贝宁随李白回加拿大探亲,俩人带着龙凤胎闲逛

二妹扯娱 浏览 395 10-18

腾讯“AI全家桶”集中亮相世界人工智能大会

观察者网 浏览 6852 07-27

中国首型,海上发射成功!

观察者网 浏览 8148 08-09

爸爸极限冲刺救女儿获数十万点赞 本人发声

极目新闻 浏览 535 09-08

万科:董事长辛杰辞职

网易财经 浏览 280 10-13

林心如曝霍建华消费观

科学发掘 浏览 299 11-03

俄失事客机上有一名中国公民 飞机失事原因披露

上观新闻 浏览 7756 07-25

原来他们是夫妻,演完《生万物》终于红了

星说影视时光 浏览 545 08-16

夫妻持股泰凯英近八成,无自主生产,主要代工厂账务违约

权衡财经 浏览 453 09-10

“无药检”增强型运动会起诉世界反兴奋剂组织,要求赔偿8亿美元

懂球帝 浏览 495 08-29

杰克逊霍尔开幕:鲍威尔讲话在即,地区联储主席忙打“预防针”?

第一财经资讯 浏览 556 08-22

85后腾讯T4“技术大牛”创业,年收5亿冲刺IPO

21世纪经济报道 浏览 481 09-02

冬季易发脑卒中 谨记"120口诀"快速识别

人民网 浏览 8084 12-10

54岁古天乐国外隐婚?王晶又曝大瓜

聚合大娱 浏览 4172 07-10

定位5座SUV/有望9月发布 理想i6谍照曝光

车质网 浏览 467 06-16

闪电快讯|魏牌高山7预售启动,售价28.98万元

电厂 浏览 448 09-11

侵犯华为芯片技术,14名“内鬼”被判刑!涉案估值超3亿元

每日经济新闻 浏览 492 08-28

埃迪-豪7次面对伯恩茅斯场均积分0.7分,仅比对阵曼城、红军更多

直播吧 浏览 382 09-22
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11