
港大联手月之暗面等开源OpenCUA:人人可造专属电脑智能体
港大联手月之暗面等开源OpenCUA:人人可造专属电脑智能体刚刚,一篇来自香港大学 XLANG Lab 和月之暗面等多家机构的论文上线了 arXiv,其中提出了一个用于构建和扩展 CUA(使用计算机的智能体)的完全开源的框架。 使用该框架,他们还构建了一个旗舰模型 OpenCUA-32B,其在 OSWorld-Verified 上达到了 34.8% 的成功率,创下了新的开源 SOTA,甚至在这个基准测试中超越了 GPT-4o。
刚刚,一篇来自香港大学 XLANG Lab 和月之暗面等多家机构的论文上线了 arXiv,其中提出了一个用于构建和扩展 CUA(使用计算机的智能体)的完全开源的框架。 使用该框架,他们还构建了一个旗舰模型 OpenCUA-32B,其在 OSWorld-Verified 上达到了 34.8% 的成功率,创下了新的开源 SOTA,甚至在这个基准测试中超越了 GPT-4o。
GUI 智能体正以前所未有的速度崛起,有望彻底改变人机交互的方式。然而,这一领域的进展正面临瓶颈:现有数据集大多聚焦于 10 步以内的短程交互,且仅验证最终结果,无法有效评估和训练智能体在真实世界中的长时程规划与执行能力。
大家好,我是歸藏(guizang),今天给大家带来昨天探索的 AI 许愿祈福壁纸教程。昨天做了几张 AI 玄学的那种祈福壁纸,除了常见的文字花纹还加上了对应的神仙和一些现代化的处理。
本文第一作者唐飞,浙江大学硕士生,研究方向是 GUI Agent、多模态推理等。
现有的方法对大语言模型(LLM)「越狱」攻击评估存在误判和不一致问题。港科大团队提出了GuidedBench评估框架,通过为每个有害问题制定详细评分指南,显著降低了误判率,揭示了越狱攻击的真实成功率远低于此前估计,并为未来研究提供了更可靠的评估标准。
大家好,我是歸藏(guizang),给大家带来肝了两天的用 Trickle AI 进行一些高级 Vibe Coding 的保姆级教程。
多模态大模型 (MLLM) 驱动的 OS 智能体在单屏动作落实(如 ScreenSpot)、短链操作任务(如 AndroidControl)上展现出突出的表现,标志着端侧任务自动化的初步成熟。
大家好,我是歸藏(guizang),今天给大家带来 Lovart 的正式版一手介绍和体验。Lovart 我们介绍过很多次了,但是每次都会有新东西。 昨晚看到他们的推特,发现发了正式版,就赶紧试了一下。 今天这个设计 Agent 终于变成了一个完全体,而且这次的更新依然非常牛批。
现有Mobile/APP Agent的工作可以适应实时环境,并执行动作,但由于它们大部分都仅依赖于动作级奖励(SFT或RL)。
大家好我是歸藏(guizang),今天给大家带来秘塔深度研究的体验。