关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2025-10-25 00:00:0183人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

许倬云去世:系王力宏舅爷爷 曾遗憾"但悲不见九州同"

鲁中晨报 浏览 2290 08-05

人工智能“入侵”人类新闻网站腹地

刺猬公社 浏览 243 08-20

知名量化私募陷“内斗风波”,招商证券被卷入其中

第一财经资讯 浏览 7196 08-09

好离谱,全网求他当男小三

衡南县融媒体中心 浏览 194 09-20

范曾去年宣布结婚今年失联 房屋大门紧闭被贴上封条

红星新闻 浏览 300 08-17

连马斯克都盯上了这块“肥肉”

汽车公社 浏览 45 11-11

多地宣布:汽车置换补贴即将暂停受理,车市如何挺过淡季?

车市红点 浏览 270 06-13

没想到啊,这姐竟然是个“恋爱脑”?

TVB的四小花 浏览 258 08-25

演习现场"机器狼"射击画面最新披露

环球网资讯 浏览 6807 08-07

清华女神要IPO了

投中网 浏览 4437 07-13

霍思燕骂、赵薇嫌,47岁黄奕被扒了个底朝天

火之文 浏览 3015 08-09

东华测试寻求打开机器人领域新空间

爱集微 浏览 98 10-23

7天吸金36亿,合肥冲击“新能源汽车之都”,汽车产业高速发展伴随“阵痛”

红星资本局 浏览 91 10-27

西班牙足协主席:我们会充分照顾球员利益,俱乐部可以放心

懂球帝 浏览 42 11-10

一波三连胜杀进四强,上周,尼敦坚赞创2025最佳战绩

网球之家 浏览 793 07-31

造车17年!又一合资工厂停止运营

汽车工程师 浏览 7452 07-12

雷军回应小米召回SU7

澎湃新闻 浏览 182 09-21

在景区遇害者系外交学院大一女生 同学称其被捅十多刀

澎湃新闻 浏览 5245 08-13

日本男篮39分大胜关岛锁定B组前2 确定不会和中国男篮1/4决赛遭遇

直播吧 浏览 9725 08-11

专家:俄乌走向取决于特朗普态度和美欧关系会否破裂

中国新闻周刊 浏览 4453 07-14

特斯拉的二季度,以“不及预期”告终

汽车公社 浏览 6182 07-10
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11