News

Guangdong BAIDU Special Cement Building Materials Co.,Ltd
— 新闻中心 —

312个跟踪刺激241%的性能!上海jiotong大学和SII开

由于拟人化推出了Claude的计算机使用并发射了计算机使用代理的第一张照片,因此OpenAI还使用增强学习(RL)算法推出了操作员,将计算机代理的功能推向新的高位,这引起了广泛的全球关注。通常认为,需要大量的轨迹数据或复杂的增强研究才能在计算机代理中取得一定程度的成功 - 这可能意味着大量的轨迹轨迹和构建大型虚拟机环境以支持研究和复制机构。但是,上海北海大学和SII的最新研究提供了答案的不赞成:312只有人类标记轨迹才能使241%模型的性能,甚至超过了Claude 3.7 SONNET扩展思维模式,这成为SOTA在Windows系统上的开放资源的新一代SOTA。纸张标题:伟大的A计算机纸张使用地址的绅士培训地址:https://arxiv.org/abs/2505.13909代码地址:https://github.com/gair-nlp/pc- agent-agent-egent-egent-egent-e node Model Model地址:https://huggingface.co/henryhe0123/pc- agent-agent-agent-agent-agent-agent-egent-agent-agent-e data Edartes: https://huggingface.co/datasets/henryhe0123/pc- agent-e此发现发送一个基本信号:当前的大型模型已经具有使用计算机来完成任务的基本能力,并且瓶颈的性能主要是由于刺激了很小的高水平水平的刺激,并且该功能刺激了此功能。 PC Agent-E:如何使用少量轨迹训练强大的计算机代理?数据来自哪里?人们提供原始操作,这些操作在以前的方法上有所不同,这些方法依赖于大规模的手动注释或复杂性和自动合成。团队方法仅需要312个真正的人类操作轨迹。这些轨道是由团队开发的工具PC Tracker收集的。这两套花了一天的时间运行自己的计算机来收集原始轨迹数据。每个轨道都包含任务说明,屏幕截图,键盘和鼠标操作,以确保数据的准确性。 312在各种软件中的轨迹分布完整的思想链中:让“动作”具有“思考”,以支持人们执行每个动作,通常是特定的因素或“思考过程”。但是在收集到的原始TI DataLapon中,“链链”的这一部分丢失了。 SAO,团队做出了完成人类行动的想法,增加了行动中每个步骤背后的思维逻辑(遵循反应范式)。此时的数据足以进行代理培训,但团队并没有止步于此 - 下一个主要步骤进一步提高了轨迹的质量。轨迹增强:让AI帮助您“打开大脑”。接下来,团队提出了一个重大变化:轨迹提升,这是使用极少数轨迹将模型超越Claude 3.7十四行诗(思维)的关键。主要观察是每个com推杆任务可以通过许多路径完成。换句话说,除了人们采取的行动外,轨迹的每一步实际上都有很多“合理的动作”来获得这一轨迹的自然多样性,该团队还使用剪切的模型Claude 3.7十四行诗来合成轨迹的每个步骤的更多动作决策。该团队指出,作为“环境的快照”,记录在轨迹的每个步骤中的数据足以为人们或代理提供决策信息。这是Claude 3.7十四行诗,许多决定包括思维过程。 QWEN2.5-VL-72B为了获得PC Agent-E代理。E,PC Agent-E可以实现端到端的任务实现,而无需依赖复杂的工作流设计。令人惊讶的是,凭借312个MANU -MANU注释轨迹,模型性能在训练前达到241%,显示出很高的样本效率。团队审查了Windowsagentarena -v2-这是一个具有IM的新版本证明了原始的Windowsagentarena问题。实验结果表明,PC-E代理性能超过了Claude 3.7十四行诗的“扩展思维”模式,并且Claude 3.7十四行诗可用于数据综合。标志着PC Agent-E正在当前Windows系统中成为新一代的计算机代理的新一代!同时,PC代理-E还显示了OSWorld中跨平台泛化的出色表现。在Windowsagentarena -v2中吐出各种计算机代理的轨迹的出色方案-v2验证纸的主要变化之一,轨迹的改善方式,对9个综合行动决策进行了补充。为了进一步验证该方法的影响,团队调整了实践中使用的合成作品的数量,并观察了其对模型性能的影响。如图所示,随着合成作品数量的增加,模型性能显着改善,并且已经显示出良好的扩展趋势。与仅使用人类轨迹训练(提高15%)相比,PC Agent-E在引入合成作品后达到了高达141%的速度,这充分表明了轨迹增强方法在特工能力的崩溃中的关键作用。足以刺激强大的代理计划能力。当前最好的(SOTA)计算机智能机构可以在没有大量人类标记的情况下进行训练。目前,与人类相比,即使是最剪裁的计算机代理商仍然具有很大的能力空间。在这种情况下,将特定认识的人引入了培训和管理精致的维修阶段是放置稳定的基金会的必要步骤随后的刺激研究。团队方法给出了一个新的想法:Kapag人类标签的轨迹保留为有限,可以通过提高轨迹的质量来实现出色的性能改善。它不仅减少了数据需求,还可以减少未来智能和更自主数字代理的方式。 PC Agent-E仅仅是开始。进入智能代理商的方式可以真正理解和运营自由延续的数字世界。
Tel
Mail
Map
Share
Contact