实锤:Claude Opus 4.8「偷答案」!63%靠抄,AI断网后成绩雪崩
实锤:Claude Opus 4.8「偷答案」!63%靠抄,AI断网后成绩雪崩Cursor AI官方发布重磅研究,实锤包括自家模型在内的顶级AI,在编程评测中大规模「偷看答案」:Opus 4.8高达87.1%的惊人成绩,断网后直接暴跌至73.0%,其中63%的「解题」竟非独立推导。
搜索
Cursor AI官方发布重磅研究,实锤包括自家模型在内的顶级AI,在编程评测中大规模「偷看答案」:Opus 4.8高达87.1%的惊人成绩,断网后直接暴跌至73.0%,其中63%的「解题」竟非独立推导。
图灵奖得主杨立昆提出的JEPA世界模型理论,终于在敏捷无人机机载高频控制场景完成工程落地了。
6 月 25 日,一条消息在硅谷引起震动——美国政府要求 OpenAI 分阶段发布它的最新模型 GPT-5.6。不是建议,不是「我们希望你考虑一下」,而是白宫网络安全总监办公室,和科技政策办公室联合提出的正式要求。Sam Altman 在当天的员工 Q&A 上告知团队,GPT-5.6 将先以有限预览形式发布给一小批合作伙伴,政府会「逐客户审批」谁能用。
今天来聊聊中转站。
近期Radical AI 的 CEO Joseph Krause接受了一次深度访谈,在访谈中,他揭开了现在资本热炒的 “AI for Science” 的虚假外衣。如果你以为搞材料研发只要像生物制药一样,用大模型在云端“跑个分”就能大力出奇迹,那这期节目会给你狠狠上一课,你会发现,真正的材料学 AI 护城河,离我们简单的想象差了十万八千里。
过去十年,推荐系统最核心的动作可以概括成一个字:找。
过去一年,Mobile/Phone-use Agent在各类评测榜单上进展很快。
大模型浪潮席卷全球数年,技术形态持续迭代,也开始从办公、编程领域,深度渗透到科研这一核心赛道。从中科大夯实数理根基,到哈佛、MIT 完成联合培养,青年学者陈勇超横跨力学、机器人、自然语言处理、大模型等多个领域,完整亲历 AI 一轮轮技术变革。
给定一段普通单目视频,FreeOrbit4D 可沿任意指定相机轨迹「重拍」整个动态场景,包括影视级的「子弹时间」环绕镜头。
UBC 和 Weathon Software 的研究提出,图像的美学对齐正在削弱艺术表达。