关闭广告

商汤科技发布万字长文:多模态是通往AGI必经之路

网易科技报道2025-08-13 12:00:017841人阅读

本文信息:作者为科技联合创始人、执行董事、首席科学家林达华,题目为《迈向多通用智能:商汤的思考》。以下为正文:

AI 是一场长跑。从大语言模型(LLM)的兴起到真正意义的通用人工智能(AGI),还有很多开放性的问题有待解决。我们认为,多模态是从 LLM 到 AGI 的必经之路。

围绕多模态,从智能演进、学习范式、数据和模型架构都面临诸多挑战,也有很大的创新空间;在组织和战略层面也有很多值得思考的问题。在本文中,我先整体回顾一下商汤的多模态之路,然后就其中的关键问题谈一下我们的思考。

1、商汤多模态之路概览

商汤是从计算机视觉技术出发,在人工智能变革浪潮中发展起来的企业。在发展之初,商汤基于深度学习在视觉领域的运用,在人脸识别、画质处理、智能驾驶等多个应用方向突破了工业红线,推动了 AI 技术在行业的落地应用。

早在2019年,商汤就基于自身的技术判断,开始在视觉模型上进行尺度定律的探索,在业内率先推出百亿参数的视觉大模型,在视觉识别上突破了多项性能纪录。这一前瞻性的技术观察,也是推动商汤较早就进行大规模 AI 算力投入的重要原因。

2022年底,OpenAI 推出 ChatGPT,掀起了全球范围的大模型浪潮,AI 进入了2.0时代。对于商汤来说,这是一次重要的机遇。我们当时开始思考,当视觉模型和语言模型在尺度定律上相会,会给我们带来什么?

在2023年3月,商汤和上海人工智能实验室合作研发,推出了我国首个多模态通用大模型“书生2.5” 并开源。这个30亿参数的大模型刷新了包括 ImageNet 和 COCO 在内的多个视觉任务的纪录,并且初步展示了通用图文问答能力。在6个月之后,Open

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

理想汽车服务网点总数达 642 家、覆盖城市 225 个

IT之家 浏览 2758 07-13

净利润大跌47%!华润三九,业绩失速

侃见财经 浏览 453 08-19

重磅!日产总部大楼被中国企业拿下!

电动知家 浏览 217 11-07

CBA常规赛第26轮最佳阵:周琦阿不都沙拉木领衔,姜伟泽在列

懂球帝 浏览 98 03-17

村中花230万建公厕有的从未开过 村干部:村民素质太低

央视财经 浏览 4254 07-21

73岁的唐国强就因一条动态,实现了“口碑暴涨”

大龄女一晓彤 浏览 369 09-11

配1.5T插混 奔腾悦意07上市限时优惠价9.98万起

网易汽车 浏览 440 05-28

打开战略空间 中芯国际市值万亿新逻辑

21世纪经济报道 浏览 344 09-20

狂揽43亿资本,李东生谋局面板扩张

21财闻汇 浏览 445 08-22

爱泼斯坦曾参加特朗普婚礼照公开 特朗普挂断采访电话

环球网资讯 浏览 7400 07-24

水果贵族进10元档 街头低至1元/斤高端超市卖99元/盒

时代财经 浏览 571 08-25

人走茶凉?王腾刚被辞退,母校就撤掉校友资料页面

YOUNG财经 浏览 379 09-10

唐国强也没想到,前妻让两个残疾儿子承受恶意

石场阿鑫 浏览 6018 08-10

广东千亿城商行香港子行开业倒计时,首任董事长、行长正式敲定

湘财Plus 浏览 428 08-11

盲人因带导盲犬爬泰山被骂"虐狗":不想连累老板已辞职

新京报 浏览 390 10-01

赛季首胜!切尔西5-1大胜西汉姆联 佩德罗1射2传恩佐&凯塞多建功

直播吧 浏览 385 08-23

投资铜条1公斤280元 网友再也不敢叫"破铜烂铁"了

北京商报 浏览 188 01-20

唯一一家!华硕公布RTX 50笔记本TGP完整规格

快科技 浏览 2197 07-28

苹果折叠屏iPhone Fold细节曝光:钛合金机身,售价超2000美元

IT之家 浏览 322 09-22

汽车行驶时都有哪些盲区?一起来看看

粤通卡 浏览 441 05-15

Meta出走华人创业团队,种子轮800万美元,要打造视觉AI记忆大脑

机器之心Pro 浏览 7769 07-25
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11