现有视觉语言大模型(VLMs)在多模态感知和推理任务上仍存在明显短板:1. 对图像中的细粒度视觉信息理解有限,视觉感知和推理能力未被充分激发;2. 强化学习虽能带来改进,但缺乏高质量、易扩展的 RL 数据。
AGILE 提出一种全新的自监督学习范式,将「智能体交互」迁移至多模态大模型的强化学习训练中,通过「模型生成动作代码 + 视觉环境反馈」的循环式交互过程,让模型像人一样边观察、边推理、边学习,从而显著提升模型视觉感知与逻辑推理能力。

现有视觉语言大模型(VLMs)在多模态感知和推理任务上仍存在明显短板:1. 对图像中的细粒度视觉信息理解有限,视觉感知和推理能力未被充分激发;2. 强化学习虽能带来改进,但缺乏高质量、易扩展的 RL 数据。
AGILE 提出一种全新的自监督学习范式,将「智能体交互」迁移至多模态大模型的强化学习训练中,通过「模型生成动作代码 + 视觉环境反馈」的循环式交互过程,让模型像人一样边观察、边推理、边学习,从而显著提升模型视觉感知与逻辑推理能力。
