AI资讯新闻榜单内容搜索-GEM

0%完成率！Claude、GPT、Gemini 全灭，SWE-Bench作者新作把AI圈干沉默了

SWE-Bench 的创建者，刚刚又放出了一个地狱级新 benchmark。

来自主题: AI技术研报

10492 点击 2026-05-07 15:31

刷榜AI全挂了！Meta斯坦福地狱级测试，GPT/Claude/Gemini交出0分

SWE-Bench上能拿72%的模型，换张考卷直接归零！Meta联合斯坦福、哈佛放出ProgramBench，200个项目从零手写，9大顶级模型完整通过率0%。最强的Claude Opus 4.7平均通过率也才51.2%。更离谱的是一联网，就有模型在36%的任务里跑去GitHub扒源码。

来自主题: AI技术研报

6586 点击 2026-05-07 12:03

不改模型、不降质量，谷歌让Gemma 4快了3倍：本地跑大模型彻底变天

谷歌刚刚给Gemma 4家族更新了一项关键能力：Multi-Token Prediction（MTP）推测解码架构，推理速度最高提升3倍，输出质量不变。

来自主题: AI资讯

9597 点击 2026-05-06 14:56

4万Star开源神作曝光顶级AI们的System Prompt！太有意思了～

最近发现 GitHub 上有个 4 万多 Star 的开源项目（system_prompts_leaks），干了一件事：把市面上几乎所有顶级 AI 产品的 System Prompt，全部扒了出来。ChatGPT、Claude、Gemini、Grok、Claude Cowork、Codex、Perplexity....你能叫得出名字的，基本都有。

来自主题: AI资讯

10292 点击 2026-05-05 13:50

顶级AI撞上低级乌龙：连写几十页推导，结果发现题干错了？

Google DeepMind再次血洗数学圈！700个地狱级难题被丢进Gemini的熔炉，结果让数学家集体破防：这哪是证明，这分明是「逻辑拆迁」。DeepMind这一波不仅贴脸爆杀了OpenAI，还砸烂了人类所有的优越感。

来自主题: AI技术研报

7004 点击 2026-05-05 09:59

DeepSeek做大→Mega MoE，Tri Dao团队加快→SonicMoE

近日，由普林斯顿大学 Tri Dao（FlashAttention 的一作）和加州大学伯克利分校 Ion Stoica 领导的一个联合研究团队也做出了一个超快的索尼克：SonicMoE。据介绍，SonicMoE 能在英伟达 Blackwell GPU 上以峰值吞吐量运行！并且运算性能超过了 DeepSeek 之前开源并引发巨大轰动的 DeepGEMM。

来自主题: AI技术研报

8148 点击 2026-05-04 10:17

Google放大招：文字、图片、视频、音频、PDF，全部压进同一个向量空间！Gemini Embedding 2正式GA

Google悄悄干了一件大事——Gemini Embedding 2正式进入GA阶段，成为Gemini API中第一个原生多模态embedding模型。它能把文本、图片、视频、音频、PDF文档全部映射进同一个统一向量空间，支持100多种语言。

来自主题: AI资讯

10734 点击 2026-05-02 15:05

有人只用API就猜出了GPT、Claude、Gemini的参数量？社区吵翻了

基于此，研究者在 89 个参数量已知的开源模型（规模从 1.35 亿到 1.6 万亿参数）上拟合出事实准确率与参数量的对数线性关系，拟合优度 R² = 0.917，并据此对闭源模型进行参数估算。

来自主题: AI技术研报

9261 点击 2026-05-01 13:13

谷歌Gemini开启王炸模式：一句话直接生成PDF、Word、Excel，30多种不同格式文件，实用效率神器，改变游戏规则！

今天凌晨，谷歌 Gemini 突然放大招，它在 X 上宣布：现在 Gemini 可以直接生成PDF、Word、Excel 或 Google Workspace 等文件，无需上传模板，只用和Gemini交流要做什么和讲清文件格式。

来自主题: AI资讯

10468 点击 2026-04-30 16:34

谷歌掀桌：深度研究智能体进入自动驾驶时代

OpenAI刚用Deep Research抢了先手，谷歌直接掀桌！DeepMind祭出研究智能体双杀，Max版质量评分从66.1%暴拉到93.3%，知识工作自动化的军备竞赛正式进入贴身肉搏。

来自主题: AI资讯

7862 点击 2026-04-30 13:50