关闭广告

多模态大模型学会回头「看」:中科院自动化所提出GThinker模型

机器之心Pro2025-07-21 12:00:029886人阅读



尽管多模态大模型在数学、科学等结构化任务中取得了长足进步,但在需要灵活解读视觉信息的通用场景下,其性能提升瓶颈依然显著。现有模型普遍依赖基于知识的思维模式,却缺乏对视觉线索的深度校验与再思考能力,导致在复杂场景下频繁出错。

为解决这一难题,来自中科院自动化研究所紫东太初大模型研究中心的研究者提出 GThinker,一个旨在实现通用多模态推理的新型多模态大模型。

GThinker 的核心在于其创新的「线索引导式反思(Cue-Guided Rethinking)」模式,它赋予了模型在推理过程中主动校验、修正视觉理解的能力。

通过精心设计的两阶段训练流程,GThinker 在极具挑战性的 M³CoT 综合推理基准上取得了超越了最新的 O4-mini 模型,并在多个数学及知识推理榜单上展现出 SOTA 性能,证明了该方法的有效性和泛化能力。目前,论文、数据及模型均已开源。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

“豪宅教父”黄其森被留置,千亿泰禾爆雷6年想上岸更难了

密探财经 浏览 495 08-23

上海最大原拆原建小区回搬:始建于1958年 有94种户型

每日经济新闻 浏览 2674 07-17

若羽臣:抖音已成为公司重要渠道之一

北京商报 浏览 293 01-21

男子涉刑案被撤销后申请国赔 派出所所长个人转2.3万

澎湃新闻 浏览 511 09-21

套现约455亿,李嘉诚又卖了

第一财经资讯 浏览 129 05-06

马塞洛:当年觉得皮克是个自以为是的蠢货,太烦人了

懂球帝 浏览 372 10-16

1-8月酒饮料茶行业利润增速19.9%,白酒行业迎来困境反转了吗?

郭施亮 浏览 362 09-29

费迪南德:裁判罚下卡塞米罗的判罚有些严厉

懂球帝 浏览 414 09-21

特朗普批普京“在玩火”

浏览 10896 07-21

蔚来全新 ES8 开启试驾后排到凌晨,今晚起全国门店推迟闭店时间

IT之家 浏览 452 09-11

里瓦尔多:拉什福德难以取代拉菲的主力位置,后者目前是世界前五

直播吧 浏览 10245 07-26

中科时代张松:工智机打破PLC旧秩序,国产“算控一体”重塑工厂

创业邦 浏览 430 09-09

两种外观套件选择 一汽奥迪A5 L申报图曝光

网易汽车 浏览 5242 06-24

郎酒9月发布的会员尊享酒,为何成懂酒人的优选?

金角财经 浏览 353 10-21

伊能静回应婚变4个月,强捧儿子又遭“反噬”?

林轻吟 浏览 510 08-17

乐道推出L90等车积分:若28天内未能提车,次日起每天送500积分

IT之家 浏览 9823 08-13

杭州,居然是一个巨大的真人寻宝游戏!

时尚COSMO 浏览 368 09-21

佩通坦摊牌,开始强烈反击,一场生死较量展开

浏览 5274 07-14

特朗普致电莫迪并祝其生日快乐 此前连打4次电话被拒

红星新闻 浏览 508 09-18

新形态!李想:理想i6是为年轻人打造的“独一无二的作品”

丫好车 浏览 384 09-30

法比尼奥:我本不想离开利物浦,与克洛普的谈话让我决定去沙特

直播吧 浏览 735 08-10
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11