关闭广告

媒体播放器通用框架 FFmpeg 推出 AI 语音识别功能

IT之家2025-08-14 00:00:013498人阅读

IT之家 8 月 13 日消息,FFmpeg 是一个流行的开源媒体播放器通用框架,现在包含了一个新的 af_whisper 音频工具,可以直接在 FFmpeg 生态系统中实现自动语音识别(ASR)。


该工具使用了 whisper.cpp 库,为媒体处理工作流程添加了一个 AI 模型,允许进行灵活的音频转译文本,包括选择 AI 模型、指定语言以及设置输出格式,如文本、SRT 或 JSON

该工具可以处理预录制的文件和实时音频流,用户还可以使用语音激活检测(VAD)来提高转写的准确性和效率。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

“送AI进企业”服务数千名职工,破解培训最后一公里难题

南方都市报 浏览 5231 07-28

市值暴涨千亿,这泼天富贵终于轮到百度了

首席商业评论 浏览 328 09-26

2025秋冬一定要拥有的4款包包,怎么搭都好看

Yuki女人故事 浏览 209 11-01

伊朗外长:战争结束取决于确保不再发生“侵略”

极目新闻 浏览 109 03-17

哈里斯宣布不竞选加州州长

环球网资讯 浏览 2032 08-01

Robotaxi 能否筑起特斯拉护城河?

BusinessCar 浏览 7881 06-26

李玟账号被异常登陆!最新解读

环球网资讯 浏览 224 10-12

恩里克:萨福诺夫是我执教过的最擅长点球预判的门将

懂球帝 浏览 154 02-02

仅买10天的哈弗大狗高速上突发变速箱故障 车主后怕

大风新闻 浏览 143 03-11

韩国客机空难致179死 最新报告发布

环球网资讯 浏览 10256 07-22

百度发放开工红包:最高可得2026元

三言科技 浏览 137 02-24

7年联姻终止!蔚来合资公司注销

敖博管理 浏览 336 09-17

利率退潮,普通人如何做好长钱规划?

博闻财经 浏览 420 08-22

当下的银行股处在什么热度

证券市场周刊 浏览 1151 07-18

科技巨头“挖人战”白热化!谷歌、Meta同日出手扩张AI版图

财联社 浏览 10142 07-13

披着“仙侠”皮的《现代牛马生存记》

时尚COSMO 浏览 395 08-19

惨!著名导演自掏腰包花583万拍新片,被雪藏5年,票房仅50万

靠谱电影君 浏览 3560 08-13

杜锋:希望大家能保持整场的强度,为年轻球员登场争取机会

懂球帝 浏览 175 01-29

联合国对达成加沙地带停火协议表示欢迎

极目新闻 浏览 285 10-09

实探2025世界机器人大会:踢球、格斗、跳舞、做冰淇淋……人形机器人忙翻天

中国商报 浏览 5418 08-10

魅族22手机三证齐全:80W快充+1.2mm四等边小直屏,特殊版带有UWB

IT之家 浏览 413 08-19
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11