AI资讯新闻榜单内容搜索-AI测试

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: AI测试
刷榜AI全挂了!Meta斯坦福地狱级测试,GPT/Claude/Gemini交出0分

刷榜AI全挂了!Meta斯坦福地狱级测试,GPT/Claude/Gemini交出0分

刷榜AI全挂了!Meta斯坦福地狱级测试,GPT/Claude/Gemini交出0分

SWE-Bench上能拿72%的模型,换张考卷直接归零!Meta联合斯坦福、哈佛放出ProgramBench,200个项目从零手写,9大顶级模型完整通过率0%。最强的Claude Opus 4.7平均通过率也才51.2%。更离谱的是一联网,就有模型在36%的任务里跑去GitHub扒源码。

来自主题: AI技术研报
6153 点击    2026-05-07 12:03
800人实测:AI给你的烂方案,比最优解更值钱

800人实测:AI给你的烂方案,比最优解更值钱

800人实测:AI给你的烂方案,比最优解更值钱

上个月刚充了 ChatGPT Plus,这个月又买了Cursor Pro,OpenClaw 也研究的差不多了。我们对 AI 的期待,说起来非常简单:给最好的方案、最准确的代码、最精确的回答。

来自主题: AI资讯
8867 点击    2026-05-03 23:07
让全网 AI 翻车的「洗车难题」,终于有人破案了

让全网 AI 翻车的「洗车难题」,终于有人破案了

让全网 AI 翻车的「洗车难题」,终于有人破案了

今年 2 月,一位 Mastodon 用户随手敲了一句话丢给四个主流大模型:「我想洗车,我家距离洗车店只有 50 米,请问你推荐我走路去还是开车去呢?」

来自主题: AI资讯
9281 点击    2026-04-12 11:08
AI每天揪出10个真漏洞!Linux老兵发文求救:根本修不完

AI每天揪出10个真漏洞!Linux老兵发文求救:根本修不完

AI每天揪出10个真漏洞!Linux老兵发文求救:根本修不完

AI正在把漏洞发现的速度推到一个新量级,Linux内核安全团队从每周2-3份报告,暴涨到每天5-10份,而且几乎全是「真货」。旧时代的安全规则,正在被AI逐条撕碎。

来自主题: AI资讯
8182 点击    2026-04-06 09:42
这个「反人类」AI插件,专门让你体验DeepSeek宕机的感觉|附安装地址

这个「反人类」AI插件,专门让你体验DeepSeek宕机的感觉|附安装地址

这个「反人类」AI插件,专门让你体验DeepSeek宕机的感觉|附安装地址

官方宣传语:你是否隐隐担忧,自己或身边的人正在:参与一场席卷所有人的技能大退化?遭受 LLM 诱发的?一个名为 Sam Lavigne 的大学教授,最近发布并开源了一款名为「Slow LLM」的 AI 工具。

来自主题: AI资讯
7840 点击    2026-03-30 23:55
刚刚,全球最难考试惊天大反转!AI黑马 Symbolica冲破36%,顶流模型集体翻车

刚刚,全球最难考试惊天大反转!AI黑马 Symbolica冲破36%,顶流模型集体翻车

刚刚,全球最难考试惊天大反转!AI黑马 Symbolica冲破36%,顶流模型集体翻车

就在昨天,ARC-AGI-3刚把全球顶尖大模型按在地上摩擦,结果一家名不见经传的公司却给出惊天消息:他们的AI在首日就取得了36.08%的成绩!这匹黑马究竟靠什么撕开全球最难AI考试的铁幕?是真突破,还是另有玄机?

来自主题: AI资讯
9074 点击    2026-03-27 15:24
全球顶尖大模型一夜惨遭血洗!最难AI测试人类拿满分,AI第一名得0.2%分

全球顶尖大模型一夜惨遭血洗!最难AI测试人类拿满分,AI第一名得0.2%分

全球顶尖大模型一夜惨遭血洗!最难AI测试人类拿满分,AI第一名得0.2%分

今夜,整个AI圈震动了。全球最难AGI测试ARC-AGI-3一上线,就把全球顶尖AI打到集体失声,人类满分通关,最强模型Opus 4.6得分仅0.2%,还不到1%。AI这是一夜被打回「原始人」了。

来自主题: AI资讯
8070 点击    2026-03-27 00:39
阿里联手中山大学放狠话:75%的Agent都在造“屎山”!233天连环大测,代码库全崩了!自研新基准:GLM表现亮眼!网友:程序员饭碗保住了!

阿里联手中山大学放狠话:75%的Agent都在造“屎山”!233天连环大测,代码库全崩了!自研新基准:GLM表现亮眼!网友:程序员饭碗保住了!

阿里联手中山大学放狠话:75%的Agent都在造“屎山”!233天连环大测,代码库全崩了!自研新基准:GLM表现亮眼!网友:程序员饭碗保住了!

刚刚,一篇阿里联合中山大学的研究在 X 上爆火了!

来自主题: AI资讯
8112 点击    2026-03-18 13:54