人类秒懂,AI崩溃:一个简单测试,就让GPT-5、Gemini等顶级模型集体“翻车”
人类秒懂,AI崩溃:一个简单测试,就让GPT-5、Gemini等顶级模型集体“翻车”人类一眼就能看懂的文字,AI居然全军覆没。
人类一眼就能看懂的文字,AI居然全军覆没。
最近,朋友圈和抖音小红书几乎被 Nano Banana 刷屏了。这个香蕉模型似乎要让 P 图这个词消失,直接给 Gemini 带来了一千万的新用户,火得一塌糊涂。
当我了解到一群平均年龄只有21岁的年轻创业者,在短短几天内就从Y Combinator、General Catalyst等顶级投资机构手中拿到500万美元融资时,我意识到他们可能找到了一个真正的痛点。这家叫Human Behavior的公司,正试图用AI彻底改变企业理解用户行为的方式。他们的方法听起来简单得令人怀疑:让AI直接"观看"用户使用产品的录像,然后自动分析出用户的真实意图和行为模式。
自从 Claude code 上线 sub-agents 后,我一直对其抱很大的期待,每次做 case 都会搭建一支“AI coding 梦之队”。想象中,它们会在主 agent的协调下火力全开, 完成我超级复杂的需求。
过去几年,大语言模型(LLM)的训练大多依赖于基于人类或数据偏好的强化学习(Preference-based Reinforcement Fine-tuning, PBRFT):输入提示、输出文本、获得一个偏好分数。这一范式催生了 GPT-4、Llama-3 等成功的早期大模型,但局限也日益明显:缺乏长期规划、环境交互与持续学习能力。
今天吃到一个科技圈的瓜,主角是 77 岁的 AI 教父 Geoffrey Hinton,诺贝尔奖图灵奖得主。
你有没有想过,网站的时代真的结束了?我们正在目睹一场静悄悄的革命:AI agent 正在重新定义内容发现的游戏规则,而大多数企业甚至还没意识到自己的网站内容已经对AI"隐形"了。这不是什么遥远的未来预测,而是正在发生的现实。
Computer use是真正Agents的关键驱动力。它们的有效性取决于两个因素:能够接入多少工具,以及能否在这些工具之间进行推理。Computer use显著拓展了这两方面的能力——既赋予Agents使用任意软件的广度,也提升了它们将一系列动作串联成完整工作流的智能。
在多模态大模型的基座上,视觉 - 语言 - 动作(Visual-Language-Action, VLA)模型使用大量机器人操作数据进行预训练,有望实现通用的具身操作能力。
用模型学习模型,为企业主生产更容易被AI推荐的营销内容。