关闭广告

商汤科技发布万字长文:多模态是通往AGI必经之路

网易科技报道2025-08-13 12:00:017669人阅读

本文信息:作者为科技联合创始人、执行董事、首席科学家林达华,题目为《迈向多通用智能:商汤的思考》。以下为正文:

AI 是一场长跑。从大语言模型(LLM)的兴起到真正意义的通用人工智能(AGI),还有很多开放性的问题有待解决。我们认为,多模态是从 LLM 到 AGI 的必经之路。

围绕多模态,从智能演进、学习范式、数据和模型架构都面临诸多挑战,也有很大的创新空间;在组织和战略层面也有很多值得思考的问题。在本文中,我先整体回顾一下商汤的多模态之路,然后就其中的关键问题谈一下我们的思考。

1、商汤多模态之路概览

商汤是从计算机视觉技术出发,在人工智能变革浪潮中发展起来的企业。在发展之初,商汤基于深度学习在视觉领域的运用,在人脸识别、画质处理、智能驾驶等多个应用方向突破了工业红线,推动了 AI 技术在行业的落地应用。

早在2019年,商汤就基于自身的技术判断,开始在视觉模型上进行尺度定律的探索,在业内率先推出百亿参数的视觉大模型,在视觉识别上突破了多项性能纪录。这一前瞻性的技术观察,也是推动商汤较早就进行大规模 AI 算力投入的重要原因。

2022年底,OpenAI 推出 ChatGPT,掀起了全球范围的大模型浪潮,AI 进入了2.0时代。对于商汤来说,这是一次重要的机遇。我们当时开始思考,当视觉模型和语言模型在尺度定律上相会,会给我们带来什么?

在2023年3月,商汤和上海人工智能实验室合作研发,推出了我国首个多模态通用大模型“书生2.5” 并开源。这个30亿参数的大模型刷新了包括 ImageNet 和 COCO 在内的多个视觉任务的纪录,并且初步展示了通用图文问答能力。在6个月之后,Open

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

2025 款五菱星光 S 车型 8 月 15 日上市,可选 EV / PHEV 版本

IT之家 浏览 1998 08-09

丹朱马:很高兴加盟伟大的瓦伦西亚,我是看着球队夺冠长大的

懂球帝 浏览 299 08-11

法兰克福左后卫布朗:我们依靠整体防守萨拉赫,而不是我单防

懂球帝 浏览 80 10-22

歌手杨宗纬意外摔下2米高台后,发文首报平安

晴晴的娱乐日记 浏览 256 08-24

宁德时代与海辰储能之战幕后:不怕老外,就怕老乡?

赶碳号 浏览 8731 08-07

复旦孙金云:内卷破局关键在于两条路径

网易财经 浏览 2743 08-07

AI文艺复兴:一场由大脚怪引发的内容革命

钛媒体APP 浏览 5275 07-13

工信部副部长:我国家电、家具等100多个品类产量全球第一

IT之家 浏览 28 11-27

作品全下架+严重车祸:陈学冬的逆袭何时到来?

Yuki女人故事 浏览 4311 06-18

泽连斯基签署法案:强制医学生军事培训 60岁以上可服役

环球网资讯 浏览 2543 07-31

云海肴创始人赵晗突发心梗去世 年仅40岁

界面新闻 浏览 181 09-20

3架飞机在俄罗斯被扣无法收回!山河智能公告:收到1.6亿元保险赔款

红星资本局 浏览 298 08-12

朱珠出差拎60万爱马仕住快捷酒店,该省省该花花

娱乐圈圈圆 浏览 147 09-21

法国队官方社媒晒姆巴佩各时期10号球衣照片:10号完美适合他!

直播吧 浏览 2103 07-25

明年上市 金标大众首款轿车 与众07申报信息发布

网易汽车 浏览 122 10-10

男生计划5万半年游遍中国:想在纸质火车票消失前完成

南国今报 浏览 212 09-02

美国政府此次"关门危机"不一样 金价应声大涨

红星新闻 浏览 177 10-01

41个榜单SOTA!智谱最新开源GLM-4.5V实测:看图猜地址、视频秒变代码

新智元 浏览 321 08-12

开拓者夏联主帅:杨瀚森优雅地应对了比赛,他是夏联最受欢迎的球员

懂球帝 浏览 5665 07-21

外资巨头高盛刷屏!再次上调寒武纪目标价至2104元,上半年“扫货”196只A股

红星资本局 浏览 244 09-02

暑假带娃体验“未来世界”!四川德阳市科技馆正式向公众免费开放

红星新闻 浏览 8758 07-30
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11