
刚刚,大模型棋王诞生!40轮血战,OpenAI o3豪夺第一,人类大师地位不保?
刚刚,大模型棋王诞生!40轮血战,OpenAI o3豪夺第一,人类大师地位不保?继Kaggle Game Arena的淘汰赛后,国际象棋积分赛成果出炉!OpenAI o3以人类等效Elo 1685分傲视群雄,而Grok 4和Gemini 2.5 Pro紧随其后。DeepSeek R1和GPT-4.1、Claude Sonnet-4、Claude Opus-4并列第五。
继Kaggle Game Arena的淘汰赛后,国际象棋积分赛成果出炉!OpenAI o3以人类等效Elo 1685分傲视群雄,而Grok 4和Gemini 2.5 Pro紧随其后。DeepSeek R1和GPT-4.1、Claude Sonnet-4、Claude Opus-4并列第五。
多模态的生成,是 AI 未来的方向。 最近,AI 领域的气氛正在发生微妙的变化。比如,刚刚推出了 Grok 4 的 xAI 却在重点宣传他们的视频生成模型 Grok Image。
Grok 又双叒叕捅娄子了。 在用户完全不知情的情况下,马斯克旗下 AI 聊天机器人 Grok 将数十万条用户聊天记录公开发布,并被 Google 等搜索引擎全网收录。
前沿 AI 模型真的能做到博士级推理吗? 前段时间,谷歌、OpenAI 的模型都在数学奥林匹克(IMO)水平测试中达到了金牌水准,这样的表现让人很容易联想到 LLM 是不是已经具备了解决博士级科研难题的推理能力?
思维链 (CoT) 提示技术常被认为是让大模型分步思考的关键手段,通过在输入中加入「Let’s think step by step」等提示,模型会生成类似人类的中间推理步骤,显著提升复杂任务的表现。然而,这些流畅的推理链条是否真的反映了模型的推理能力?
xAI又一位联创官宣离职了!AlphaStar之父Igor Babuschkin发长文告别,回忆曾带队爆肝120天造出全球最强超算,老马亲自下场致谢:没有你就没有xAI的今天。
强化学习(RL)是锻造当今顶尖大模型(如 OpenAI o 系列、DeepSeek-R1、Gemini 2.5、Grok 4、GPT-5)推理能力与对齐的核心 “武器”,但它也像一把双刃剑,常常导致模型行为脆弱、风格突变,甚至出现 “欺骗性对齐”、“失控” 等危险倾向。
奥特曼砍掉GPT-4o,防止用户沉迷;马斯克Grok 4限时免费,用「热辣模式」和拟人化角色留住用户。
刚刚,xAI 宣布,Grok 4 从现在起对全球所有用户免费开放!不是试用,不是限时,而是真正的免费。不再是鸽rok,而是Grok!使用 Auto 模式,系统会自动判断你的问题复杂度,把需要高级推理的查询路由到 Grok 4。如果你想要更多控制权,随时可以切换到 Expert 模式,让每个查询都走 Grok 4。
一年前,X 还深陷泰勒·斯威夫特的深度伪造(Deepfake)不雅照风波中。一年后,它的老板马斯克,亲自为用户送来了生产这些「不雅照」的工具,并大肆宣传。xAI 的新功能 Grok Imagine,提供了一个名为「Spicy」的火辣模式,被媒体证实可以一键生成名人的部分裸露视频。