关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2025-10-25 00:00:0181人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

开门红!皇马1-0奥萨苏纳 姆巴佩造点+点射马斯坦托诺首秀

直播吧 浏览 266 08-20

50、60岁的女人就要这么穿!自然老去,不扮嫩反而更美了

静儿时尚达人 浏览 103 10-18

张维伊对董璇,给自己找了个妈?

安海客 浏览 241 08-19

阿里系公司喜提IPO,前CFO却炮轰“上市圈钱”

财通社 浏览 241 08-24

身家10亿起的阿里码农,转投杭州科技新秀

21财闻汇 浏览 258 08-21

瑞流勇进 博世猛攻2030

网易汽车 浏览 300 05-11

汪峰森林北同游日本 各带各娃互不耽误

新金牌娱乐观察家 浏览 1609 07-24

尚界H5 到店 别盯着价格,看看优缺点有哪些!

Nice好车 浏览 181 09-19

“后高考时期”如何进行心理调适?

人民网 浏览 7911 06-20

杨帆谈进球无效:当时内心挺平静的,因为之前也有进球被吹的经历

直播吧 浏览 337 08-12

包凡“出来了”,但不再参与华兴资本日常管理

深蓝财经 浏览 4738 08-10

多国强烈谴责以军袭击卡塔尔 特朗普表态并下达指示

每日经济新闻 浏览 252 09-10

搭载雷神AI电混2.0技术 吉利银河星耀7申报信息发布

网易汽车 浏览 139 10-10

太原动物园马匹脸部血肉模糊 网友质疑被抽打虐待

潇湘晨报 浏览 1043 07-16

伊朗多名将领、核科学家遇袭身亡 身份披露

澎湃新闻 浏览 10298 06-14

海空砺剑 直击舰载机海上实战化训练

环球网资讯 浏览 3816 08-10

"坠楼医生"网暴者院门紧闭挂监控 疑家属大骂"给我滚"

大风新闻 浏览 6458 08-10

那英情路太坎坷!前任孕期劈腿,现任老公二度出轨,娇妻脑要不得

萌神木木 浏览 185 09-11

美官员形容内塔尼亚胡"像个不听话孩子":太具破坏性

环球网资讯 浏览 7068 07-22

暑期档最大黑马,搞笑又扎人,四个小妖怪给“边角料”们上了一课

最爱酷影视 浏览 1353 08-06

不吃辣不喝酒就不会得痔疮?

网易健康 浏览 8837 02-26
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11