关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2025-10-25 00:00:01268人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

叫中国名字娶日本妻子 5年没见的印度外长来了

上游新闻 浏览 1936 07-17

乌克兰称"首次"用无人潜航器击伤俄潜艇 俄罗斯回应

极目新闻 浏览 225 12-16

程强:外部冲击下市场波动加剧

首席经济学家论坛 浏览 224 10-15

东西卖出去钱却没进账 几个月后店长发现银行卡有问题

1818黄金眼 浏览 190 01-19

怒砸15亿,全明星阵容,年底压轴大片来了

独立鱼 浏览 129 12-23

绿地张玉良,失去一员“大将”

红星资本局 浏览 326 09-22

31省份“半年报”出炉!“中部一哥”被紧追,最大“逆袭者”是它!

国是直通车 浏览 4546 07-27

李在明:韩美联合演习无意加剧半岛紧张局势

环球网资讯 浏览 464 08-19

冲沙/漂移/浮水一站式 比亚迪全地形赛车场开业

网易汽车 浏览 437 08-15

小米高管:很多友商在拆解、研究小米,也有少数碰瓷甚至攻击我们

车宇世界 浏览 444 05-22

内马尔复出就绝杀!一头脏辫跪地庆祝,星二代首秀,亲爹入狱9年

念洲 浏览 1340 07-17

38岁前国脚:中国永远不可能出C罗梅西!能出范志毅孙继海就不错

念洲 浏览 7783 08-06

杜淳妻子谈名媛培训班,给黄晓明叶珂出了口气

界史 浏览 4578 07-22

消息称某厂工程机搭50MP三摄及雾面工艺,或为小米REDMI K90系列

IT之家 浏览 466 08-11

NBA战报:雷霆94-91险胜掘金,沃特森15分

懂球帝 浏览 289 10-18

E句话| 蔡天凤案有判决结果了?

仙女事件簿 浏览 208 10-29

企业用800吨鸭肉冒充牛羊肉骗贷 致银行损失近4000万

华夏时报 浏览 434 09-08

事实证明,被向太“戳破”婚变的窦骁,早就找好了退路

温柔娱公子 浏览 290 10-24

美军前官员称约500名美军人员在台湾活动 国防部回应

界面新闻 浏览 1090 06-10

牛弹琴:韩国在美遭受奇耻大辱 韩国媒体集体破防

大象新闻 浏览 464 09-08

杨幂孙俪已经认识20多年了,如今双“视后”

韩小娱 浏览 417 08-21
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11