SEAgent：开启从实战经验中自我进化的GUI智能体新纪元

8483点击 2025-08-18 10:58

当前计算机使用智能体（CUA）的发展，主要依赖于大量昂贵的人工标注数据。这极大地限制了它们在缺少现成数据的新颖或专业软件中的应用能力。为了打破这一瓶颈，来自上海交通大学和香港中文大学的学者们提出了 SEAgent，一个全新的、无需任何人类干预，即可通过与环境交互来自主学习和进化的智能体框架。

SEAgent 的核心创新在于其闭环的自主进化框架、一个经过深度优化的评判模型，以及一套高效的 「专才 - 通才」融合策略。

论文链接: https://arxiv.org/abs/2508.04700v1

代码链接: https://github.com/SunzeY/SEAgent

SEAgent 的核心：三位一体的自主进化框架

SEAgent：开启从实战经验中自我进化的GUI智能体新纪元

图 2. 总体算法概览

SEAgent 的自主进化能力，源于其内部三大核心组件的协同工作，形成了一个可持续的、自我驱动的学习闭环。

课程生成器 (Curriculum Generator)：扮演「导师」的角色。它能根据智能体当前的能力，自动生成难度循序渐进的探索任务。它还会维护并更新一本「软件指南」，记录智能体在探索中发现的新功能，从而提出更具多样性和挑战性的新任务。

执行者 - 智能体 (Actor-CUA)：即智能体本身，它根据「导师」生成的任务，在软件环境中进行实际操作和探索。

评判者 - 世界状态模型 (World State Model)：作为框架的「裁判」，它负责评估智能体执行任务的每一步表现。它的精准评判，为智能体的学习提供了最关键的反馈信号，并帮助「导师」了解智能体的最新能力，从而形成一个完整的进化闭环。

SEAgent：开启从实战经验中自我进化的GUI智能体新纪元

图 3：自动课程学习构建细节

构建更好的「裁判」：世界状态模型的优化之路

一个精准的「裁判」是自主进化的基石。我们发现，现有的开源大视觉语言模型在评判智能体长序列操作时能力不足，当输入过多的历史截图时，其判断准确率甚至会下降。为了解决这一核心问题，我们着手构建了一个更强大的评判模型 ——

世界状态模型 (World State Model)。

我们的优化策略主要有两点：

革新评判范式：我们摒弃了只看最终结果的传统方式，而是让模型学会分析整个交互轨迹 。通过对所有历史状态进行细致的、一步步的推理，模型能够更精准地捕捉到关键的成败节点，从而提供高质量的步骤级奖励信号。

高质量数据蒸馏：我们使用 GPT-4o 在 OSWorld 的 Chrome 环境中生成了包含 860 条高质量评判的轨迹数据，并利用这些数据对 Qwen2.5-VL-7B 模型进行微调。同时，我们创新性地引入了截图变化描述（Screenshot Change Description）的协同训练任务，这显著增强了模型对 GUI 微小变化的感知能力，进一步提升了评判的准确性。

经过优化，我们的世界状态模型在性能上大幅缩小了与 GPT-4o 等商业模型的差距，为 SEAgent 框架提供了可靠、稳定的评判能力。

SEAgent：开启从实战经验中自我进化的GUI智能体新纪元

图 4：算法流程伪代码

「专才 - 通才」融合：超越个体极限的训练策略

在单个智能体的进化之上，我们探索了如何构建一个能操作多种软件的「通才」模型。我们发现，直接在多软件环境中训练一个「通才」，效果并不理想，其性能甚至不如在单一软件上训练的「专才」模型。

为此，我们提出了一套高效的 「专才到通才」（Specialist-to-Generalist）融合策略。该策略分为三步：

培养专才：首先，我们使用 SEAgent 框架，在五款不同的专业软件上分别训练出五个独立的「专才」智能体。

知识蒸馏：然后，我们收集这些「专才」模型执行成功任务的 3500 条轨迹数据，通过监督式微调（SFT）的方式，将它们的综合知识「蒸馏」到一个全新的通用模型中。

通才进化：最后，将这个已经具备了良好基础的「通才」模型，再次置于 SEAgent 框架中，在所有五种软件上进行最终的强化学习和进化。

SEAgent：开启从实战经验中自我进化的GUI智能体新纪元

图 5：主要实验结果与多轮训练提升

实验结果证明，这一策略取得了巨大的成功。最终得到的「通才」智能体，其综合成功率达到了 34.5%，不仅远超直接训练的通才模型（30.6%），甚至超越了所有「专才」模型的性能总和（32.2%），展示了「先专后通，融合进化」的强大潜力。

系统赋能与实证

严谨的消融实验证明了这套算法设计的必要性。结果显示，高质量的 世界状态模型 是有效学习的前提；基于探索的 强化学习（GRPO） 显著优于单纯模仿；而能够从错误中学习的 对抗性模仿 机制则带来了关键的性能提升。

这套核心算法被置于一个更大的系统框架中，由 课程生成器 提供循序渐进的任务，并通过「从专家到通才」 的策略，将多个单一软件的「专家」能力融合成一个更强大的「通才」模型。最终，SEAgent 在 OSWorld 基准测试中取得了显著的性能飞跃，将基线模型的成功率大幅提升，充分验证了其算法框架的先进性与有效性。

文章来自于微信公众号“机器之心”。

关键词: AI , GUI , SEAgent , 模型训练

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

SEAgent：开启从实战经验中自我进化的GUI智能体新纪元

SEAgent 的核心：三位一体的自主进化框架

构建更好的 「裁判」：世界状态模型的优化之路

「专才 - 通才」 融合：超越个体极限的训练策略

系统赋能与实证

构建更好的「裁判」：世界状态模型的优化之路

「专才 - 通才」融合：超越个体极限的训练策略