用心打造
VPS知识分享网站

RAGEN:AI框架解决LLM代理不稳定性问题

研究人员推出了 RAGEN,这是一个旨在应对 LLM 代理在处理复杂情况时的不稳定性问题的 AI 框架。

训练这些 AI 代理面临着巨大的挑战,尤其是在决策跨越多个步骤且涉及不可预测的环境反馈时。虽然强化学习 (RL) 在解决数学问题或生成代码等静态任务中展现出良好的前景,但它在动态、多轮代理训练中的应用却鲜有探索。   

RAGEN:AI框架解决LLM代理不稳定性问题

为了解决这一差距,来自西北大学斯坦福大学微软纽约大学等机构的合作团队提出了 StarPO(状态-思考-行动-奖励策略优化)。

StarPO 为在轨迹级别训练代理提供了一种通用方法(即,它优化了整个交互序列,而不仅仅是单个动作。)

与之配套的是 RAGEN,一个为实现 StarPO 而构建的模块化系统。它能够训练和评估 LLM 代理,尤其关注其在强化学习 (RL) 下的推理能力。RAGEN 为多轮随机(随机确定)环境中的部署、奖励分配和优化提供了必要的基础设施。

极简环境,最大洞察力

为了将核心学习挑战与大量已有知识或特定任务工程等混杂因素区分开来,研究人员在三个刻意简化、可控的符号游戏环境中使用 RAGEN 测试了 LLM:   

  1. Bandit:一项单回合随机任务,测试风险敏感的符号推理能力。智能体会在不同的选项(例如“凤凰”或“龙”的武器)之间进行选择,这些选项最初是未知的奖励配置。
  2. 推箱子:一种多回合、确定性的谜题,需要预见和规划,因为动作(推箱子)是不可逆的。
  3. 冰冻湖:一项多转弯、随机网格导航任务,其中移动尝试可能会随机失败,需要在不确定性下进行规划。

这些环境可以清楚地分析代理如何纯粹通过交互来学习决策策略。   

主要发现:稳定性、推广和推理

该研究得出了有关自我进化的 LLM 代理训练的三个重要发现:

“回声陷阱”与稳定的需求

在多轮强化学习训练中观察到的一个反复出现的问题被称为“回声陷阱”。智能体最初会有所进步,但随后会遭遇性能崩溃,过度拟合局部奖励推理模式。 

其特征是奖励方差崩溃、熵(随机性/探索性的度量)下降以及梯度突然飙升(表明训练不稳定)。早期迹象包括奖励标准差和输出熵的下降。   

为了解决这个问题,该团队开发了 StarPO-S,这是该框架的稳定版本。StarPO-S 包含:   

  • 基于方差的轨迹过滤:将训练重点放在代理行为表现出较高不确定性(奖励方差较高)的任务实例上,丢弃方差较低、信息量较少的部署。这提高了稳定性和效率。   
  • 批评家融入:使用 PPO(近端策略优化)等方法,采用“批评家”来估计价值,在大多数测试中通常比 GRPO(群体相对策略优化)等无批评家方法表现出更好的稳定性。   
  • 解耦剪辑和 KL 移除:改编自其他研究(DAPO)的技术涉及不对称剪辑(允许从正奖励中进行更积极的学习)和消除 KL 发散惩罚(鼓励探索),进一步提高了稳定性和性能。   

与原版 StarPO 相比,StarPO-S 持续延迟崩溃并提高最终任务性能。   

推出质量至关重要

“滚动”(用于培训的模拟交互轨迹)的特性对学习有显著影响。已确定的关键因素包括:   

  • 任务多样性:使用一组多样化的初始状态(提示)进行训练,但每个提示会生成多个响应,这有助于泛化。最佳点似乎是适度的多样性,能够对比相似场景下的不同结果。   
  • 交互粒度:允许每回合执行多个动作(大约 5-6 个动作被证明是最佳的)可以在固定的回合限制内实现更好的规划,而不会引入与过长的动作序列相关的噪音。   
  • 部署频率:使用能够反映代理当前策略的最新部署至关重要。更频繁的采样(接近“在线”设置)可以减少策略数据不匹配,从而加快收敛速度​​并提高泛化能力。

保持新鲜感、适当的行动预算和任务多样性是稳定训练的关键。   

推理需要精心的奖励设计

仅仅促使模型“思考”并不能保证产生有意义的推理,尤其是在多轮任务中。研究发现:

  • 即使象征性线索与奖励相冲突,推理痕迹也有助于在更简单的单轮 Bandit 任务中进行概括。   
  • 在像推箱子这样的多回合任务中,推理优势有限,“思考”环节的长度在训练过程中持续下降。如果奖励仅与任务成功率挂钩,智能体通常会退回到直接行动选择,或产生“幻觉推理”,这表明“思维与环境状态不匹配”。

这表明标准轨迹级奖励(通常稀疏且基于结果)是不够的。 

“如果没有细粒度的、推理感知的奖励信号,代理推理就很难通过多轮 RL 出现。”

研究人员建议,未来的工作应该探索明确评估中间推理步骤质量的奖励,或许使用基于格式的惩罚或奖励解释质量,而不仅仅是最终结果。   

RAGEN 和 StarPO:迈向自我进化 AI 的一步

RAGEN 系统和 StarPO 框架代表着朝着训练 LLM 代理迈出了一步,这些代理可以通过在复杂、不可预测的环境中交互进行推理和适应。

这项研究凸显了多轮强化学习带来的独特稳定性挑战,并提出了具体的策略(例如 StarPO-S 的过滤和稳定技术)来缓解这些挑战。研究还强调了推出生成策略的关键作用,以及需要更复杂的奖励机制来培养真正的推理能力,而不是肤浅的策略或幻觉。

尽管承认存在局限性——包括需要在更大的模型上进行测试,并针对没有易于验证的奖励的领域进行优化——但这项工作在需要复杂交互和可验证结果的领域(如定理证明、软件工程和科学发现)开辟了“构建人工智能系统的可扩展且有原则的道路”。

赞(0)
未经允许不得转载;国外VPS测评网 » RAGEN:AI框架解决LLM代理不稳定性问题
分享到