面对 Agent 红海,依旧有惊喜|Kimi OK Computer 实测

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
面对 Agent 红海,依旧有惊喜|Kimi OK Computer 实测
8763点击    2025-10-06 19:14

近日 Kimi 也开始小规模内测一个 Agent 新品,名称在一众 Agent 友商中,很有人文味与自信,


叫做:「OK Computer」


面对 Agent 红海,依旧有惊喜|Kimi OK Computer 实测


不同于此前 Kimi 发布的 Researcher 专精 Deep Research 任务,「OK Computer」则是Kimi 模型的通用 Agent 模式,配备了单独虚拟电脑,支持更多工具调用,能够完成 网站开发、PPT 设计、数据可视化分析、深度研究、方案策划 等任务。


自然,从 25 年 3 月 Manus 发布以来,我们已经见过了层出不穷的通用 Agent 产品,如 Claude Code、扣子空间、Skywork、Lovable 等等……


阅尽千帆,本文仍想通过一系列典型 Agent 任务实测,为你解析 Kimi OK Computer 的真实水平。


我也会将它的表现,和过往深度体验的 Manus 等顶尖 Agent 进行参照,


来看这个以 90 年代最伟大的摇滚专辑之一命名的 Agent,能否如其名般地带来惊喜


📬 写在测试之前


与先前已发布的 Kimi Researcher 一脉相承,OK Computer 与已有通用 Agent 产品不同,继续延续了端到端强化学习的训练路线:模型即 Agent


为了能够更好地真实探究 OK Computer 的水平,我已将测试设计为三部分:


1.网页应用开发:从 0-1 设计、开发 Html 宝可梦养成与对战游戏,考察 Agent 自主深度规划与长程执行


2.复杂数据可视化:给定数千条表格数据,呈现可视化分析


3.其他 case 展示,包括绘制 AI PPT、制作个人博客等


并适当选择同类任务下备受用户好评的友商 Agent 进行参照,校准它当下的行业身位。


你可以带着对 Kimi Agent 的好奇,在实测中找到答案。


文末我将向你分享我理解的,OK Computer 对于 Kimi 的特殊意义。


👉 真实实测表现


1️⃣ 网页应用开发:宝可梦网页游戏


要测试一个 Agent 的极限,比较好的方式就是给它足够复杂、多步骤、开放式的项目。


我选择让 Agent 从 0-1 自主设计 Html 版宝可梦养成对战游戏,并选择了擅长构建 Web 应用的 Manus、Lovable 作为参照对比。


此题难度在于,考验 Agent 的 Coding 能力外,更考验 Agent 自主规划的完整性,以及长程任务中的 推理-执行-反馈 的循环质量。


测试 Prompt 如下:


我想做一个 Html 版宝可梦养成与对战游戏,能够基于宝可梦游戏的主要玩法,设计一套完整、适合在 Html 游玩的游戏内容,请仔细推敲游戏玩法,使用合适的像素风格宝可梦素材,设计对应游戏 UI 与内容,并完成开发上线。要求实现移动端兼容。


我录了一下各个 Agent 生成的网页游戏的效果,你可以自行来看看效果:


1)Kimi - OK Computer:

面对 Agent 红海,依旧有惊喜|Kimi OK Computer 实测


OK Computer 独立设计了一个适配 Web 玩法的全新 UI。生成的游戏系统更为完整,比起 Manus、Lovable,多了大厅、宝可梦图鉴,物品背包界面。


对战系统基本实现,但不能更换上阵宝可梦。另外还能查看宝可梦的详细属性,有丰富的疗伤物品、精灵球等不同物品的管理系统


不过,虽然规划了区域探索、商店、成就系统的功能入口,但并没有一次完成开发,还是有些遗憾。


应用整体无恶性 bug,作为 one prompt 结果相当完整与稳定,在游戏方案的规划上给出了惊喜


2)Manus:

面对 Agent 红海,依旧有惊喜|Kimi OK Computer 实测


Manus 作为我的老朋友厂商,表现一如既往的亮眼。虽然首页略微粗糙,但整个游戏的加载过场却是最为接近原版。


另外,Manus 唯一实现了地图探险功能(但地图显示有明显显示 Bug)


不过你可以看到随着我点击方向键,是能触发出“草丛遇怪”的逻辑。也是唯一一个直接使用了外网宝可梦图像资源,作为游戏贴图的 Agent。


但比起 Kimi,其游戏性功能的实现熟练就少了许多,没有实现背包,也没有宝可梦栏管理等,算是各有侧重。


3)Lovable:

面对 Agent 红海,依旧有惊喜|Kimi OK Computer 实测


Lovable 在初始界面上给到了最风格化的效果。


但整体实现的玩法实现的是三者最少:仅支持选择宝可梦进行战斗。


战斗系统,比起其他家,还少了道具使用、逃跑等基础功能。从这次测试来看,Agent 可能存在规划不足,执行轮次过少的问题。


另外,下图为移动端兼容效果对比:


面对 Agent 红海,依旧有惊喜|Kimi OK Computer 实测


BTW:关于各家选择的 UI 风格,我倒是觉得不算决定性差异,因为也没有规定 UI 风格要求 100% 复刻原版游戏,只要 UI 与玩法系统自洽,能稳定运行即可。


综合列出效果对比如下:


面对 Agent 红海,依旧有惊喜|Kimi OK Computer 实测


不难看出 OK Computer 继承了 K2 模型的优秀 Coding 能力,在另外两家使用 Claude 模型的情况下,仅凭自有国产模型,网页开发效果不弱下风。


另外,可能是得益于端到端强化学习路线,Kimi 也确实展现出 One prompt 下,极为优秀的 Agent 自主规划与多轮执行能力,以及熟练使用图片生成等工具能力


2️⃣ 复杂数据可视化:洞察数千条 IMDB 剧集数据


在 OK Computer 的宣传视频中,着重宣传了支持海量数据上传,单次处理百万行数据的可视化分析能力


为了能够测试 Agent 的复杂数据的关联洞察效果,我选择了让 AI 们,来尝试处理来自 IMDb 的数据集,每个数据表包含上千条电影和电视剧数据。


测试 Prompt 如下:


请基于我提供的5份IMDb数据(涵盖电影、电视剧与电子游戏),交付一份独立的HTML深度可视化分析报告。你的任务是超越数据本身,洞察其背后反映的文化趋势和社会现象,并形成一套完整、深刻的分析结论。请自主设计分析框架,运用具有顶级美感的多维信息图表,构建出逻辑清晰的报告结构和解读,最终呈现一份兼具专业深度与视觉冲击力的作品。


共找了 5 份数据集:


面对 Agent 红海,依旧有惊喜|Kimi OK Computer 实测


每一份数据表内容大概是这样的,以独立剧集的最小粒度数据组成:


面对 Agent 红海,依旧有惊喜|Kimi OK Computer 实测


在接到任务后,Kimi 首先规划了任务执行的环节:


面对 Agent 红海,依旧有惊喜|Kimi OK Computer 实测


随后,自行编写了 python 脚本,对数据进行清洗和处理(嗯,不是直接用 LLM 文本能力读取,有效避免幻觉问题,还是很聪明的)


面对 Agent 红海,依旧有惊喜|Kimi OK Computer 实测


在自主连续运行长达 31 步子任务后,OK Computer 输出了以下可视化数据分析页面:

面对 Agent 红海,依旧有惊喜|Kimi OK Computer 实测


能够看出分析维度非常多元。


特别棒的是, OK Computer 能够根据分析数据的类型,自主选择太阳图、雷达图、三维散点图、小提琴图等不同合适的图表,来展项数据趋势。


这一点倒是在用过的 Agent 里,会更具有主动性。


面对 Agent 红海,依旧有惊喜|Kimi OK Computer 实测


另外,这是同提示下 Manus 的效果:

面对 Agent 红海,依旧有惊喜|Kimi OK Computer 实测


必须声明,Manus 在同类产品中,产出的质量已经是大幅领先。


但仅论可视化的数据呈现,Kimi OK Computer 明显在该类任务中,能够提供更加复杂、多维的效果。


值得一提的是,在测试本轮任务中,我发现不同 Agent 产品对上传文件数量有着不同的控制


实测中 Kimi、Manus、Skywork 没有限制文件上传数量,而 Minimax Agent、扣子空间 均限制上传数量为 10 个以内。


这项区别也会影响部分用户的选择。


💡 其他的一些 Case


另外也跑了一些零散、但效果都挺不错的 Case,与你分享 Kimi OK Computer 的各项表现:


1)PPT 设计,样式美观,自由编辑


基于上面的 IMDb 剧集数据,我又新开对话,让其生成主题数据洞察 PPT。


阅读附件中的5份IMDb数据(涵盖电影、电视剧与电子游戏),洞察这些数据背后反映的文化趋势与大众品味的变迁,设计一份 20 页的汇报 PPT。要求:1. 只允许使用附件中的数据,不得胡编乱造。2. 尽可能呈现 PPT 的全部要点、关键数据3. 使用 chart 呈现图表,不要用 AI 图片生成来呈现图表4. PPT 美观有设计感


OK Computer 效果如下:


面对 Agent 红海,依旧有惊喜|Kimi OK Computer 实测


整体来说,OK Computer 所输出的 PPT 设计不错,图文并茂,设计符合主题风格。部分元素会超出页面,需要和 Agent 沟通修改要求后,进行一次修复。


同 Prompt 任务下,对比精通 PPT 的 Skywork 的效果:


面对 Agent 红海,依旧有惊喜|Kimi OK Computer 实测


结论是,从设计角度来看 Kimi 胜出,幻灯片高度更一致,适合演讲呈现;


而内容丰富度 Skywork 则更胜一筹,更适合内部汇报。


强调一个特别好用的点,对于用户真实使用时,OK Computer 还支持了高自由度的编辑,不仅是文本替换,还支持更改格式、添加图片、流程图、新幻灯片,基本与完整 Office 功能等同。这一点在其他友商 Agent 中格外少见。


面对 Agent 红海,依旧有惊喜|Kimi OK Computer 实测


导出到本地后,样式与网页 Html 版 PPT 基本一致,不会产生常见的排版变形问题。


面对 Agent 红海,依旧有惊喜|Kimi OK Computer 实测


2)个人博客开发,设计效果非常 ok


面对 Agent 红海,依旧有惊喜|Kimi OK Computer 实测


请为我的个人博客「一泽的沉思录」创建一个三栏式布局的网站原型。风格: 我想要一种极简、沉静的黑白风格,字体要优雅。内容:左栏是导航,包含 首页、文章、关于我;中栏是文章列表;右栏放一张能体现‘思考与科技’的黑白摄影风格的图片,请你帮我生成。请确保整个网站的视觉风格高度统一。


诚然在测试过程中,我还是能观察到 OK Computer 待改进的一些问题。


譬如:


暂时还不支持用户接管 Browser,所以无法让 Kimi 替自己调研一些需要登录的网站内容;


在给 PPT 配图时,有时也会过度依赖 AI 生图,而不是正确使用网页图表组件,创建数据图。


这些问题我也一一反馈给了在 Kimi 的朋友,期待他们的改进。


但我们回过头来不能忽略的一点是:


与全球化 Agent 产品不同,Kimi OK Computer 始终使用的都只是 Kimi K2 这款自研 LLM 模型


不依靠 Claude 的 Coding 能力、不使用 Gemini 的分析规划能力,OK Computer 在众多友商 Agent 之中,依然能展示出其独到的优势。


不得不说,在测试过程中,还是令我感到诧异与惊喜,也值得国内用户试用。


🎐 写在最后:OK Computer 于 Kimi 的特殊意义


此前,Kimi 早就发布了 Researcher 产品。


当时我就评论,Kimi Researcher 达到了国内最佳的 Deep Research 效果(非常长且细致的研究过程,以及相对可控的幻觉水平,时常能关联分析出意外的好观点)


将其大量推荐给了我所认识的 AI 从业者、投资人、学生朋友:


“如果对国外资料检索没有诉求,Kimi Researcher 很可能就是国内研究质量最佳,分析结论常有意外惊喜的 Deep Research 产品”


面对 Agent 红海,依旧有惊喜|Kimi OK Computer 实测


⬆️ 余杭水质问题发生时,曾用 Researcher 进行事件分析,体感效果仅次于 Gemini DR,为国内最佳


月之暗面研究员 @冯一尘 此前在知乎,公开分享了内部洞察:


Researcher 研发过程中,Kimi 团队内部对于 Agent 保持了两个关键信念,一是要做“能长思考”的Agent,二要用端到端强化学习


他们认为,区别于传统 Agent 的 Workflow 拼装 或 SFT 训练方案, Kimi 通过端到端 RL 所训练的 Agent 模型,能够挣脱“固定提示”的束缚,更加灵活通用,具备更好的主动反思,多轮行动的积极效果。


(此文不论两种技术线路的终局优劣,但这条路线下的 Kimi Researcher,也确实在用户群体中备受好评)


时至今日,Kimi 推出的「OK Computer」新 Agent 模式,依然遵循着这些理念


借助端到端强化学习技术,将 Kimi K2 模型训练为原生 Agent,让模型学会了 文件系统、浏览器、终端、代码/图片/音频生成 等 20 多种工具的使用方式,自然涌现出「完成一项复杂 Agent 任务」的内在知识。


实测下来,OK Computer 也确实兼具了 K2 模型与模型即 Agent 路线的优势,包括:


面对 Agent 红海,依旧有惊喜|Kimi OK Computer 实测


1. 继承 K2 的优秀 Coding 能力:生成具备强美观度的前端产物(网页、PPT 等)


2. One prompt 下更好的规划执行:发挥端到端强化学习的优势,在单一提示下,实现更多、更全面的推理,执行轮次更多、报错更少


3. 丰富的工具能力:图片、音频生成;浏览器使用;使用虚拟电脑作为响应环境等


但,如果仅仅将这三点看作孤立的优势,我们就错过了 OK Computer 真正想讲述的故事。


这个故事的核心,是 Kimi 对模型智能的又一次扩展


从文本模型,扩展为能「拆解目标、规划长程任务、通过行动-反馈达成更优结果」的全能型 Agent。


又名——模型即 Agent。


对于我们用户,尤其是非技术的普通 AI 使用者而言,


则是国内多了一个在轻量网页开发、PPT 设计、数据分析等复杂任务中,表现都相当不错的,全新的全栈 AI 助理。


希望一泽的文章对你有所启发。


如果觉得这波内容不错,希望帮忙点个赞,分享给你身边有趣的朋友们~


Ref:冯一尘,知乎下的 Kimi Researcher 回答:https://www.zhihu.com/question/1919712376204256921/answer/1920925901035644513



文章来自于微信公众号 “一泽Eze”,作者 “一泽Eze”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。

项目地址:GitHub:https://github.com/camel-ai/owl

2
OpenManus

【开源免费】OpenManus 目前支持在你的电脑上完成很多任务,包括网页浏览,文件操作,写代码等。OpenManus 使用了传统的 ReAct 的模式,这样的优势是基于当前的状态进行决策,上下文和记忆方便管理,无需单独处理。需要注意,Manus 有使用 Plan 进行规划。

项目地址:https://github.com/mannaandpoem/OpenManus


3
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

4
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

5
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0