关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2025-10-25 00:00:01267人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

豪车税新规来了保时捷掀抢购潮 销售:晚买1天贵十几万

每日经济新闻 浏览 5000 07-19

央视王炸定档!1月13日50集历史大剧开播

观察鉴娱 浏览 183 01-06

大型SUV“搅局者”:奇瑞风云T11叫板头部玩家

一品汽车 浏览 245 11-02

沃尔13年NBA生涯总薪资达2.76亿美元 签过最大合同为4年1.71亿

直播吧 浏览 431 08-20

国家卫健委禁止两项手术 涉阿尔茨海默病、糖尿病治疗

上观新闻 浏览 9960 07-10

三耐环保北交所“突围”告败,终止上市议案“先斩后奏”?

叩叩财讯 浏览 371 09-20

野果大王,要IPO了

投资家 浏览 429 08-21

新增哨兵模式等,比亚迪腾势 N8 迎来 OTA 升级

IT之家 浏览 975 08-10

"女老虎"被控与省税务局长丈夫合伙敛财 数额特别巨大

极目新闻 浏览 4528 07-31

首发搭Momenta最强模型 上汽大众ID.ERA 9X突围9系红海

上海汽车报 浏览 105 03-17

意外吗?英伟达是“最被低配”的大盘科技美股

华尔街见闻官方 浏览 459 08-20

深挖|辛芷蕾:她的野心人尽皆知,多好

锋哥与八卦哥 浏览 366 09-09

双曲线一号遥十运载火箭发射成功

上观新闻 浏览 10242 07-31

因球队体育总监是巴萨球迷,瑞士第四级别球队穿巴萨球衣比赛

懂球帝 浏览 414 08-27

机器人“扎堆”上春晚,谁将成为下一个“顶流”?

雷达财经 浏览 173 01-28

马力破千匹 宝马纯电M3官方谍照发布

车质网 浏览 183 01-20

白百何七百字长文控诉导演

不八卦会死星人 浏览 215 11-12

香港住宅史最大亏损纪录:9年前买入 已亏13亿港元

每日经济新闻 浏览 496 08-22

哈马斯外交领域官员从暗杀中幸存 两个儿子已先后遇害

红星新闻 浏览 391 09-11

7月份各线城市商品住宅销售价格环比下降 上海涨0.3%

界面新闻 浏览 443 08-15

蜜雪冰城多地门店柠檬水断货 回应:将很快恢复供货

红星资本局 浏览 369 09-18
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11