AI资讯新闻榜单内容搜索-模型测试

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型测试
Bloomberg 独家:白宫 AI 安全令草案曝光!强制模型测试被砍,前沿 AI 发布「不用政府批准」?

Bloomberg 独家:白宫 AI 安全令草案曝光!强制模型测试被砍,前沿 AI 发布「不用政府批准」?

Bloomberg 独家:白宫 AI 安全令草案曝光!强制模型测试被砍,前沿 AI 发布「不用政府批准」?

Bloomberg 曝出重磅消息:Trump 政府正在起草一份全新 AI 安全行政令。草案中没有强制模型测试条款,也不会要求前沿 AI 模型在发布前获得政府批准,取而代之的核心方向是「自愿合作」。从 Biden 时代的强制红队测试报告机制,到如今强调企业自愿参与网络防御——美国 AI 安全监管正在经历一次路线级别的转向。

来自主题: AI监管政策
8121 点击    2026-05-16 10:45
GPT-5.5全球首破!0源码盲写程序,编程AI进入新纪元

GPT-5.5全球首破!0源码盲写程序,编程AI进入新纪元

GPT-5.5全球首破!0源码盲写程序,编程AI进入新纪元

全网AI交白卷的地狱级基准,被GPT-5.5拿下一血!开局0源码盲写程序,拉满推理算力直接满血通关。传统代码测试已废,通往ASI的算力狂飙正式打响。

来自主题: AI资讯
8686 点击    2026-05-13 20:06
刷榜AI全挂了!Meta斯坦福地狱级测试,GPT/Claude/Gemini交出0分

刷榜AI全挂了!Meta斯坦福地狱级测试,GPT/Claude/Gemini交出0分

刷榜AI全挂了!Meta斯坦福地狱级测试,GPT/Claude/Gemini交出0分

SWE-Bench上能拿72%的模型,换张考卷直接归零!Meta联合斯坦福、哈佛放出ProgramBench,200个项目从零手写,9大顶级模型完整通过率0%。最强的Claude Opus 4.7平均通过率也才51.2%。更离谱的是一联网,就有模型在36%的任务里跑去GitHub扒源码。

来自主题: AI技术研报
6156 点击    2026-05-07 12:03
这套题,GPT-5.5、Opus 4.7加起来没考到「1分」,人类却拿了满分100?

这套题,GPT-5.5、Opus 4.7加起来没考到「1分」,人类却拿了满分100?

这套题,GPT-5.5、Opus 4.7加起来没考到「1分」,人类却拿了满分100?

近日,ARC Prize 官方发布了针对这两款顶级模型的详细分析报告,结果令人震惊:在面对未见过的逻辑任务时,两者的表现得分均低于 1%,GPT-5.5 得分 0.43%,Claude Opus 4.7 得分 0.18%。

来自主题: AI技术研报
8890 点击    2026-05-02 15:00
15个前沿大模型,100个职业场景:谁才是最强AI打工人?

15个前沿大模型,100个职业场景:谁才是最强AI打工人?

15个前沿大模型,100个职业场景:谁才是最强AI打工人?

当大模型训练进入深水区,竞争的关键已经不再只是「模型参数怎么调」,而逐渐转向一个更核心、也更难系统解决的问题:模型在训练过程中究竟看到了什么数据、以什么比例看到、哪些样本应该被更频繁地学习。

来自主题: AI资讯
8607 点击    2026-04-16 11:16
Midjourney V8 突然空降!速度暴涨5倍,2K原生分辨率,网友:终于等到了

Midjourney V8 突然空降!速度暴涨5倍,2K原生分辨率,网友:终于等到了

Midjourney V8 突然空降!速度暴涨5倍,2K原生分辨率,网友:终于等到了

Midjourney 今天凌晨突然在 Alpha 平台上线 V8 模型测试版,速度暴涨5倍,支持原生2K分辨率,文本渲染大幅改进。官方推文12小时内狂揽131万浏览。但有用户花6小时测试后发现:RAW模式翻车,抽象艺术创作反而更难了。这次更新是王者归来,还是另有隐情?

来自主题: AI资讯
9152 点击    2026-03-19 00:21
一些大模型,高分低能,为何?

一些大模型,高分低能,为何?

一些大模型,高分低能,为何?

这篇文章的思路来自 Philipp Schmid,由 minghao 推荐 https://www.philschmid.de/agent-harness-2026

来自主题: AI资讯
9883 点击    2026-01-07 16:01