关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2025-10-25 00:00:01270人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

欧盟官员终于警觉:特朗普借中国设局 好像算计了我们

观察者网 浏览 396 09-18

一代SUV霸主宣布破产

华尔街见闻官方 浏览 1820 07-14

男网又一35岁老将退役,德约科维奇动情告别老友

网球之家 浏览 9486 07-29

伤愈复出,卡瓦尼时隔两个月再次代表博卡出场并打进一粒点球

懂球帝 浏览 209 11-17

恭喜,今年暑期档最大赢家,终于出现了

独立鱼 浏览 447 08-20

俄乌冲突以来首次 乌克兰多地爆发大规模反政府抗议

红星新闻 浏览 9410 07-24

603825,突发利空,将被ST!下周31股面临解禁

数据宝 浏览 409 08-23

又一部国产剧,靠「擦边」火出圈了

独立鱼 浏览 163 02-05

新鹏城主帅佩普:不太明白为什么韦斯利的第一个进球被判无效

懂球帝 浏览 2452 07-27

宁愿净身出户与闫妮离婚,邹伟现在怎么样了?

洲洲影视娱评 浏览 280 10-14

扎克伯格,也顶不住了

极客公园 浏览 452 08-23

场内配资风云再起:3300亿元增量资金入场,逾25万新融资客加仓A股

华夏时报 浏览 3669 07-17

下半场7中0背锅?威少8+10+7吞三连败 美记:本有机会染指最佳PG

颜小白的篮球梦 浏览 187 12-15

攒到77万,就能「提前退休」?

简七理财 浏览 7540 07-12

7月17日外媒科学网站摘要:新型移植技术让心脏停跳后仍可移植

网易科技报道 浏览 3075 07-18

种种迹象表明,越南被美国暗算了

牛弹琴 浏览 7649 07-12

印欧达成自由贸易协定

国际金融报 浏览 176 01-29

马斯克对全球宅男下手:AI女友谈恋爱 讲话"少儿不宜"

每日经济新闻 浏览 4716 07-17

博时资本红利增强策略&波动增利策略:一边收息一边薅波动

私募排排网 浏览 272 10-17

网传C罗见面会18万一位?王涛:这价格就是纯骗你,压根没见面会

直播吧 浏览 7153 08-10

伊朗代表:中俄坚定站在历史正确的一边

上观新闻 浏览 72 04-08
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11