关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2025-10-25 00:00:01359人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

印尼国脚小赖因德斯:这段旅程始于梦想,如今却以痛苦告终

懂球帝 浏览 355 10-13

郑丽文赴美前表态:不当"麻烦制造者" 不会拖美国下水

海峡导报社 浏览 91 05-28

马克龙宣布将正式承认巴勒斯坦国 鲁比奥:美强烈反对

扬子晚报 浏览 10882 07-26

队报:多纳鲁马很可能没有机会再为大巴黎正式出场

懂球帝 浏览 8633 08-12

朱茵:始终在追一道光

时尚COSMO 浏览 8406 06-05

港媒曝光何超莲家中资产分配,签不签婚前协议,窦骁都捞不到好处

萌神木木 浏览 260 10-23

鸿蒙智行问界 M8 纯电版汽车前备箱业界首次采用视觉防夹

IT之家 浏览 526 08-20

杨洋《凡人修仙传》开播差评一片?理由出奇一致

娱乐圈笔娱君 浏览 7229 07-29

国产恐怖片也就网大能看,妥妥的“阴间狠货”,人心远比鬼怪可怕

最爱酷影视 浏览 2782 07-16

起步即四驱 领克10 EM-P限时16.38万起

网易汽车 浏览 433 09-10

起底被制裁的8家台湾地区企业:均涉及台关键军工项目

环球网资讯 浏览 9945 07-10

记者:博洛尼亚100万欧租借费+700万买断报价米兰中场波贝加

懂球帝 浏览 1324 07-18

宇树科技王兴兴等民营企业家将亮相中外记者见面会

网易财经 浏览 9719 07-14

男子索要股份被拒纠集他人入户抢劫致1死 被核准死刑

红星新闻 浏览 510 08-21

专家:特朗普在台湾问题上出奇沉默 这份沉默震耳欲聋

澎湃新闻 浏览 7539 08-05

23岁美国女孩寻中国亲生父母 志愿者找到当年的孤儿院

封面新闻 浏览 311 10-29

朱丹怎么又因为说话被骂了?

伊周潮流 浏览 9833 06-21

从车展到海外市场,成都车企跑出“全球加速度”

红星新闻 浏览 457 09-02

女性更容易后悔?新研究揭示大脑决策机制

澎湃新闻 浏览 8277 07-21

全国基本养老保险参保人数达10.72亿人

新华社 浏览 352 09-26

王兴兴等5位民营企业代表走进国新办发布会,谈了什么?

国是直通车 浏览 3599 07-16
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11