千元横测GPT、DeepSeek、Xiaomi、MiniMax的最强模型,我找到了跟Agent们的绝配
千元横测GPT、DeepSeek、Xiaomi、MiniMax的最强模型,我找到了跟Agent们的绝配上周太集中发的后果就是光在用GPT -5.5了,小米的Mimo-V2.5-Pro,DeepSeek V4 Pro还没有放在Agent的场景上测。所以我跟钱包一拍即合,复制了4个一模一样的Hermes Agent,记忆一样,skill一样,系统设置一样,能调用的工具也一样。
搜索
上周太集中发的后果就是光在用GPT -5.5了,小米的Mimo-V2.5-Pro,DeepSeek V4 Pro还没有放在Agent的场景上测。所以我跟钱包一拍即合,复制了4个一模一样的Hermes Agent,记忆一样,skill一样,系统设置一样,能调用的工具也一样。
OpenAI刚刚投下了一枚重磅炸弹:原本作为程序员「副驾驶」的Codex迎来史诗级更新,正式从代码工具进化为通用个人助理,奥特曼亲自下场带货。开发者实测后惊呼:Codex接管整台Mac,人类全程0操作围观,太炸裂了!
最近朋友推荐了 CodeBanana,说它跟之前用过的那些 AI 写代码的工具的体验感完全不同。我最近挑了几个真实工作场景跑了一遍,读项目、拆需求、写需求、生成测试用例、定时任务等等都和日常工作很贴近的任务进行了尝试。今天挑五个我自己觉得最值得讲的,跟你聊聊我的体验。
4 月 30 日,阿里发布全新 Agent 产品 QoderWake,定位是“生产可用、安全可控、自进化的数字员工”。它不是再做一个“更聪明的 AI 助手”,而是试图回答一个更难的问题:Agent 如何从工具变成岗位。
Helio.im创始人王文锋在即刻上发了一个内测帖,介绍了Sheet 0团队的新产品Helio,计划进行一场小范围的内部测试。结果第二天醒来,官网申请列表因访问量过大自动扩容了4次。整个周末,团队都被潮水般涌来的消息和几百条用户建议淹没了……
搭了个agent,结果该被记住的历史交互经验一点没记住,不该被记住的工具调用结果、过程输出被一股脑塞进上下文,导致输出质量下滑,类似的上下文失焦问题,这是多少人做agent时候的噩梦?
OpenAI工程师公开发帖承认:哪怕用的是Codex,一个人能有效监督的coding agent也就3到5个,再多生产率直接往下掉。更劲爆的是,OpenAI没有选择"让人盯更多屏幕",而是直接开源了Symphony——一套把人类从"实时盯盘"解放成"异步验收"的全新工作流系统。近40万人围观,近3000人收藏。
Claude Design前脚刚暴击完设计行业,结果后脚自己就被暴击了。出手的是来自中国的Kimi K2.6。什么??你跟我说小克专门为设计推出的工具,竟然没打过Kimi最新通用旗舰模型??
Anthropic今天宣布与Blender、Autodesk、Adobe、Ableton、Splice等多家合作伙伴联合推出一批连接器,涵盖了3D建模、平面设计、音乐制作和现场视觉等多个领域的创意工具,让Claude能够直接在创意专业人士日常使用的软件中运行。
红警不再只是童年游戏,而成了AI Agent的硬核训练场:OpenRA-RL把25Hz实时战场、50个工具调用和64局并发打包开源,让大模型第一次真正站上RTS战争迷雾里的公开考场。