关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2025-10-25 00:00:01269人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

安德森:我们目前备战情况非常好,希望能在足协杯战胜广州豹

懂球帝 浏览 4041 07-21

6岁女童练习"下腰"致截瘫 经营者曾因逃避执行被刑拘

红星新闻 浏览 194 01-02

美澳签85亿矿产大单 特朗普对澳大使说"我不喜欢你"

红星新闻 浏览 268 10-22

蔚来:完成股权增发融资,总额10亿美元

红星资本局 浏览 354 09-11

首回合告负!穆帅:在这个球场我从未赢过,但我总能淘汰费耶诺德

直播吧 浏览 5330 08-07

王思聪罗马机场被拍!自己背包牵女友

娱不咸 浏览 7926 07-12

加速进化抢单“双11”

北京商报 浏览 263 10-28

为何文班亚马选择前往少林寺?揭秘联盟新星的非传统成长哲学

直播吧 浏览 1098 07-31

张兰端菜不给儿媳,念叨心急吃不了热豆腐

娱乐官已上任 浏览 445 08-29

以色列民众反对进攻加沙 民意与政府撕裂加剧

海外网 浏览 352 09-24

网传毛晓彤陈晓已领证结婚,毛晓彤回应了

阿伧说事 浏览 365 08-21

熊园:“十五五”大方向已定,如何跟踪?

首席经济学家论坛 浏览 271 10-28

牛弹琴:2025年最后1个月大戏上演 印度迎最重要客人

北京日报客户端 浏览 296 12-05

CES 2026|禾赛“牵手”英伟达 共同推动L4级车队规模化部署

财闻 浏览 185 01-06

已攻入24球,广西恒宸费尔南多打破中乙球员单赛季进球纪录

懂球帝 浏览 288 10-21

入秋一定要拥有的衣服:衬衫裙,气质又松弛

LinkFashion 浏览 2858 08-13

关于过敏的6个问题,有你关心的吗?

人民网 浏览 4605 07-08

有望年内上市,新款沃尔沃S90官图发布,行政范十足!

汽车焦点 浏览 420 05-15

美团在上海开了场外卖行业恳谈会,内容讲了什么?

第一财经资讯 浏览 5781 07-25

白俄方队现身俄红场阅兵 卢卡申科站起来微笑并挥拳

参考消息 浏览 5385 05-10

拜登为何卸任前如此“恶毒”?

浏览 7046 07-14
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11