关闭广告

商汤科技发布万字长文:多模态是通往AGI必经之路

网易科技报道2025-08-13 12:00:017838人阅读

本文信息:作者为科技联合创始人、执行董事、首席科学家林达华,题目为《迈向多通用智能:商汤的思考》。以下为正文:

AI 是一场长跑。从大语言模型(LLM)的兴起到真正意义的通用人工智能(AGI),还有很多开放性的问题有待解决。我们认为,多模态是从 LLM 到 AGI 的必经之路。

围绕多模态,从智能演进、学习范式、数据和模型架构都面临诸多挑战,也有很大的创新空间;在组织和战略层面也有很多值得思考的问题。在本文中,我先整体回顾一下商汤的多模态之路,然后就其中的关键问题谈一下我们的思考。

1、商汤多模态之路概览

商汤是从计算机视觉技术出发,在人工智能变革浪潮中发展起来的企业。在发展之初,商汤基于深度学习在视觉领域的运用,在人脸识别、画质处理、智能驾驶等多个应用方向突破了工业红线,推动了 AI 技术在行业的落地应用。

早在2019年,商汤就基于自身的技术判断,开始在视觉模型上进行尺度定律的探索,在业内率先推出百亿参数的视觉大模型,在视觉识别上突破了多项性能纪录。这一前瞻性的技术观察,也是推动商汤较早就进行大规模 AI 算力投入的重要原因。

2022年底,OpenAI 推出 ChatGPT,掀起了全球范围的大模型浪潮,AI 进入了2.0时代。对于商汤来说,这是一次重要的机遇。我们当时开始思考,当视觉模型和语言模型在尺度定律上相会,会给我们带来什么?

在2023年3月,商汤和上海人工智能实验室合作研发,推出了我国首个多模态通用大模型“书生2.5” 并开源。这个30亿参数的大模型刷新了包括 ImageNet 和 COCO 在内的多个视觉任务的纪录,并且初步展示了通用图文问答能力。在6个月之后,Open

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特朗普称已收到访华邀请可能会访问中国 外交部回应

外交部网站 浏览 1574 07-30

伊朗"蚊子舰队"披露:被美方视为霍尔木兹海峡的主要威胁

扬子晚报 浏览 39 04-22

恒丰银行重庆分行被罚260万元,3名责任人被警告

派财经 浏览 432 08-22

英伟达再发声!不存在后门、终止开关和监控软件

网易科技报道 浏览 4094 08-06

特朗普宣称中方在他任内不会对台采取行动 外交部回应

外交部网站 浏览 524 08-19

中国机器人组团出征CES,加速进化首日售出数十台,魔法原子海外收入占比过半

红星资本局 浏览 202 01-08

特朗普:将取消一些制裁 以平抑国际油价

环球网资讯 浏览 122 03-11

毫无底线!博主到大S墓地直播

失宠的小野猪 浏览 3795 08-07

美日印澳4国大使北京会谈 不到24小时印度向中国示好

南宫一二 浏览 184 01-02

今年春天的半裙,很“牛”!

Yuki女人故事 浏览 123 03-03

土耳其直接下场参战死磕以色列 叙反对派:戏都懒得演

科技有趣事 浏览 2579 07-21

特朗普政府的关税官司远未了结

浏览 99341 10-13

魅族22手机三证齐全:80W快充+1.2mm四等边小直屏,特殊版带有UWB

IT之家 浏览 410 08-19

春天第一条裙子,这么穿!

黎贝卡的异想世界 浏览 131 03-08

从IMO「抢跑」到AI「幻觉」:技术狂欢下的认知陷阱

深眸财经 浏览 7133 07-31

特朗普:美将向乌克兰提供"爱国者"导弹 欧盟承担费用

财联社 浏览 812 07-15

押注2家低分红上市银行,弘康人寿打的什么算盘?

独角金融 浏览 411 09-01

“清华火神队”为何能斩获机器人足球赛世界冠军?

新华社 浏览 429 08-19

51岁卡纳瓦罗报名竞聘国足主帅 曾在广州和天津执教

天津广播 浏览 365 09-10

破案了!逼得赵本山退出央视春晚的不是宋丹丹

兴史兴谈 浏览 434 08-17

傅利叶顾捷:人形机器人是能够满足多场景最大公约数的产品

网易科技报道 浏览 6305 08-07
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11