AI资讯新闻榜单内容搜索-GUI

性能逼近闭源最强，通义实验室开源Mobile-Agent-v3刷新10项GUI基准SOTA

覆盖桌面、移动和 Web，7B 模型超越同类开源选手，32B 模型挑战 GPT-4o 与 Claude 3.7，通义实验室全新 Mobile-Agent-v3 现已开源。

来自主题: AI技术研报

7921 点击 2025-09-03 10:47

大家好，我是歸藏（guizang），今天教大家解决 Nana Banana 出图最大的问题。 Nano Banana 已经非常强了，但是最近大家普遍用的时候两个问题非常影响可用性

来自主题: AI技术研报

8631 点击 2025-09-02 15:26

最新开源多模态智能体，能自动操作手机、电脑、浏览器的那种！开源评测榜单和中文场景交互成绩全面提升。

来自主题: AI技术研报

8740 点击 2025-09-01 10:55

最近，a16z的合伙人们发布了一篇深度分析文章，系统梳理了Computer Use（计算机使用）技术的发展现状和未来前景。他们认为，这项技术正在将AI agent从概念推向现实，让AI真正具备了处理端到端数字工作流的能力。

来自主题: AI资讯

7287 点击 2025-08-30 11:17

大家好，这里是歸藏（guizang），今天教大家如何最大程度发掘最强图片编辑模型 Nano Banana 的潜力。

来自主题: AI资讯

8675 点击 2025-08-27 18:06

AI作画、生视频，可以「自己救自己」了？！当大家还在为CFG（无分类器引导）的参数搞到头秃，却依然得到一堆“塑料感”废片而发愁时，来自清华大学、阿里巴巴AMAP（高德地图）、中国科学院自动化研究所的研究团队，推出全新方法S²-Guidance (Stochastic Self-Guidance)。

来自主题: AI技术研报

6762 点击 2025-08-23 16:04

大家好，我是歸藏（guizang）谷歌昨晚举行了他们的 2025 年硬件发布会，早上起来回顾和总结一下。

来自主题: AI资讯

7374 点击 2025-08-21 16:34

进入 2025 年，GUI Agent 赛道热度逐渐抬升 —— OpenAI 推出 Operator 并发布了 ChatGPT Agent，字节则发布了 UI-TARS-1.5 定位 GUI 开源方案。但大多数产品依然依赖本地执行，难以 24h 稳定运行。

来自主题: AI产品测评

9571 点击 2025-08-21 14:29

当前计算机使用智能体（CUA）的发展，主要依赖于大量昂贵的人工标注数据。这极大地限制了它们在缺少现成数据的新颖或专业软件中的应用能力。为了打破这一瓶颈，来自上海交通大学和香港中文大学的学者们提出了 SEAgent，一个全新的、无需任何人类干预，即可通过与环境交互来自主学习和进化的智能体框架。

来自主题: AI技术研报

7843 点击 2025-08-18 10:58