关闭广告

媒体播放器通用框架 FFmpeg 推出 AI 语音识别功能

IT之家2025-08-14 00:00:013499人阅读

IT之家 8 月 13 日消息,FFmpeg 是一个流行的开源媒体播放器通用框架,现在包含了一个新的 af_whisper 音频工具,可以直接在 FFmpeg 生态系统中实现自动语音识别(ASR)。


该工具使用了 whisper.cpp 库,为媒体处理工作流程添加了一个 AI 模型,允许进行灵活的音频转译文本,包括选择 AI 模型、指定语言以及设置输出格式,如文本、SRT 或 JSON

该工具可以处理预录制的文件和实时音频流,用户还可以使用语音激活检测(VAD)来提高转写的准确性和效率。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

全新蔚来ES8采用NT3平台 尺寸接近5.3米

网易汽车 浏览 7624 06-24

世界排名升至第2!莫雷加德创生涯新高,力压林诗栋雨果张本智和

乒谈 浏览 144 03-03

极氪9X豪华SUV官宣配备Naim车载音响:宾利飞驰、欧陆GT都在用

IT之家 浏览 357 08-20

百亿大佬、重生、复仇!私募跨界短剧,火了

中国基金报 浏览 804 08-10

仅10%援助卡车获准进入 加沙地带饥荒危机加剧

极目新闻 浏览 255 10-03

萨拉赫还是萨卡?墨菲:萨拉赫,他总能进些不可思议的球

懂球帝 浏览 197 11-17

产业协同提速,中国智能汽车迈向“认知驱动”新时代

钛媒体APP 浏览 1657 07-24

媒体人:怀特塞德昨晚抵达日本 会代表上海男篮出战两场热身赛

直播吧 浏览 371 09-09

睿昂基因董事长熊慧辞职,因涉嫌诈骗被批捕,缺席6月股东会

红星资本局 浏览 348 09-10

别克至境 L7 外观首发:定位 30 万级豪华轿车,搭载增程动力

IT之家 浏览 2621 07-17

意大利比萨大学:让AI神经网络高效处理信息的新技术ParalESN

科技行者 浏览 166 02-05

59岁温碧霞美到认不出!3岁差点被卖,嫁入豪门婚后被宠成公主

娱乐白名单 浏览 9960 08-10

全球股市最强风口,彻底拦不住了?

财经锐眼 浏览 158 02-04

外资公募绩优产品持仓曝光!

券商中国 浏览 275 11-03

残疾人专座被卖给普通旅客 大爷称在过道坐4小时轮椅

潇湘晨报 浏览 6996 08-05

花5亿美元买个安心:苹果押注美国本土稀土

网易科技报道 浏览 1666 07-16

反中乱港分子许智峰获澳政治庇护 外交部表态

北京日报客户端 浏览 423 08-19

演员阚清子晒孕照官宣怀孕:最好的礼物

红星新闻 浏览 8852 07-25

中国姆巴佩?20岁混血天才连过5人破门+打爆领头羊 16岁亮相中超

我爱英超 浏览 10283 08-10

下周,A股还能不能修复?分析来了

每经牛眼 浏览 222 10-19

ReelShort被点众、听花岛指控抄袭,短剧平台应该如何维权?

深眸财经 浏览 1546 07-31
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11