谷歌Gemini 3杀疯了!陶哲轩亲测:10分钟干翻百年数学难题
谷歌Gemini 3杀疯了!陶哲轩亲测:10分钟干翻百年数学难题Gemini 3一日霸榜数学、物理两个顶级基准测试!与此同时,陶哲轩用Gemini DeepThink十分钟便搞定了一道埃尔德什难题。
Gemini 3一日霸榜数学、物理两个顶级基准测试!与此同时,陶哲轩用Gemini DeepThink十分钟便搞定了一道埃尔德什难题。
前 OpenAI 联合创始人、特斯拉 AI 总监 Andrej Karpathy 也一样。他在前几天发推,说自己「开始养成用 LLM 阅读一切的习惯」。Karpathy 在周六用氛围编程做了个新的项目,让四个最新的大模型组成一个 LLM 议会,给他做智囊团。
刚刚,Anthropic 发布了一项新研究成果。今天,他们发布的成果是《Natural emergent misalignment from reward hacking》,来自 Anthropic 对齐团队(Alignment Team)。他们发现,现实中的 AI 训练过程可能会意外产生未对齐的(misaligned)模型。
Meta 用一段文本构建可探索的 3D 世界。 这就是 Meta 最新公布的一项突破性研究 WorldGen:只需一段文本提示就能生成真正可导航、可交互、可以走进去探索的完整 3D 世界。
首个拿下国际物理奥林匹克竞赛IPhO 2025理论考试金牌的开源模型,出自国产。上海人工智能实验室团队推出新模型家族,代号P1。在IPhO 2025理论考试中,P1-235B-A22B取得21.2/30分,成为首个达到该金牌线的开源模型,仅次于Gemini-2.5-Pro与GPT-5。
导语 AI做短视频早已普及,但用AI生成精品短剧却门槛极高:一个2-3分钟的成片需要3-5天制作,调用七八种AI工具,每种工具都需要创作者几十小时的学习时间,还需要依赖创作者自身强大的叙事技巧和美术功
专注推理任务的 Large Reasoning Models 在数学基准上不断取得突破,但也带来了一个重要问题:越想越长、越长越错。本文解读由 JHU、UNC Charlotte 等机构团队的最新工作
“我曾经花了5个月,做了一款没人用的大模型。”去年4月,刘天强期待拿下美国一家快时尚零售公司的大单,为对方开发一款用AI生成产品上身图的B端产品。带着团队干了整整5个月,产品迭代的重要关头,刘天强没等来最后的签单通知,却等来了客户公司被并购、项目中止的消息。
11 月 21 日,AI 初创公司 Genspark 正式宣布完成 2.75 亿美元 B 轮融资。上线仅五个月,Genspark 年化收入已突破 5000 万美元,跻身行业增长最快的 AI 企业之一。
前沿AI竞赛在2025年11月达到高潮。48小时内,谷歌推出Gemini 3 Pro宣称在主要推理基准测试中领先,而OpenAI立即用GPT-5.1-Codex-Max反击,这是一款专门训练用于通过创新"压缩"(compaction)技术自主工作超过24小时的专业编码模型[43]。加上Claude Sonnet 4.5已确立的编码统治地位和激进的安全过滤器,开发者面临前所未有的选择: