关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2025-10-25 00:00:01360人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

上周5“虎”被处理 夫妻双双落马的女副省长被公诉

鲁中晨报 浏览 2584 08-05

这件衣服太美了!今年流行的风格都离不开它

LinkFashion 浏览 15 06-15

抢占日本本土K-car市场 比亚迪Racco亮相

网易汽车 浏览 287 10-30

俄外长称俄正与北约和欧洲处于“真正的战争”之中

澎湃新闻 浏览 401 09-27

江西又有村行启动改革,将被母行收编、预计收购代价7100万

湘财Plus 浏览 9130 08-07

一汽入股零跑?官方回应:不予置评!双方首个合作车型项目已落地

车东西 浏览 423 08-21

金莎小17岁男友孙丞潇,竟走上了贾冰的老路

阿废冷眼观察所 浏览 312 09-18

怕停产系列|| 从2016年买到现在,我的心头好竟然破价了

黎贝卡的异想世界 浏览 5762 07-25

ChatGPT还没学会打电话,谷歌搜索AI已经替你电话约服务,还会谈价砍单!

新智元 浏览 4370 07-18

云南哀牢山发现西南地区"最大天牛" 体长可达80毫米

红星新闻 浏览 3665 08-04

特朗普:伊朗即使放弃高浓缩铀也无法获得解除制裁

央视新闻客户端 浏览 79 05-28

别克至境 L7 外观首发:定位 30 万级豪华轿车,搭载增程动力

IT之家 浏览 2661 07-17

6月规模以上工业企业利润同比下降4.3%

国家统计局网站 浏览 8425 07-27

轻断食:迈向健康减肥的新路径

浏览 1699 07-14

媒体:美军现大规模"异动" 被指是明确的战略准备信号

每日经济新闻 浏览 8918 06-18

黄金突破3700美元,金价再次大涨的底层逻辑是什么?

郭施亮 浏览 436 09-10

演唱会市场升温 上市公司多措并举抢抓机遇

商业观察杂志社 浏览 916 07-15

赖斯谈引援:上赛季我们受困于伤病,而现在有了轮换阵容

懂球帝 浏览 9108 07-29

晚点独家丨理想调整基座模型业务:詹锟接手,VLA 研发整合

晚点LatePost 浏览 283 01-15

特斯拉是赢了,但不是真相的全部

虎嗅APP 浏览 4868 07-27

开源版Genie 3世界模型:实时+长时间交互,单卡可跑,国内公司出品

机器之心Pro 浏览 512 08-19
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11