关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2025-10-25 00:00:01361人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

卖爆了!谁在“抄底”深圳

博闻财经 浏览 395 09-21

600288!徐翔母亲退出后,拟6亿砸向半导体!

证券时报e公司 浏览 474 09-10

剑指16亿!黄渤提前出局,大鹏追不上了,2025年暑期档冠军定了

靠谱电影君 浏览 6481 07-27

法国学者五味杂陈:法国技术明珠要被中国摘了

澎湃新闻 浏览 2478 07-12

董宇辉出走后东方甄选营收跌了21亿元 俞敏洪发声

21世纪经济报道 浏览 617 08-25

47岁渐冻症网红老贺去世:被妻子抛弃 几天前刚过生日

180视角 浏览 467 09-16

美考虑援乌射程1000公里的导弹 特朗普:莫斯科不能打

文汇报 浏览 4904 07-17

23.59万起预售!上汽奥迪首款纯电发布,全域NOA+800V架构上车

车东西 浏览 477 08-19

口子窖实控人四度减持套现超10亿,员工薪酬排行业尾部

Daily每日财报 浏览 8621 07-29

脱贫3年的县花715万建牛郎织女雕塑 调查近2年无结果

极目新闻 浏览 8715 07-12

奥运冠军安赛龙官宣:与相恋14年未婚妻分手 将共同守护两女儿

醉卧浮生 浏览 432 08-20

ByteDance最新发布:一个能从任意数量图像重建3D世界的神奇模型

科技行者 浏览 286 01-23

中国保险汽车安全指数(C-IASI)2024年测评车型第三次结果发布

网易汽车 浏览 10128 07-30

虚增营收近200亿 *ST高鸿将被强制退市

财联社 浏览 9776 08-10

英媒:英超目前无意举办海外赛,他们的收益和关注度已经很高了

直播吧 浏览 1641 08-14

萨莫拉诺:巴萨必须引导好亚马尔,从没听过梅西说皇马偷窃

懂球帝 浏览 302 11-06

综艺感对明星有多重要?看《花少7》里的那英和陈数就知道

娱乐圈笔娱君 浏览 387 09-09

宁波银行上半年营收净利双增,个贷不良率上涨成隐忧

独角兽挖掘机 浏览 426 09-11

起拍价5.14亿 长沙一五星级酒店将被拍卖

潇湘晨报 浏览 8539 08-06

特朗普:将在"适当时机"结束对伊朗军事行动

界面新闻 浏览 238 03-10

美英科技协议价值几何

中国经济网 浏览 395 09-29
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11