AI资讯新闻榜单内容搜索-模型评估

AI四巨头内部报告首度公开：AI正在学会撒谎求生

这不是科幻小说，而是 METR（模型评估与训练研究组织）联合Anthropic、Google、Meta和OpenAI 进行内部红队测试后，发布的首份《前沿风险报告》中披露的真实案例。这是四大巨头第一次允许第三方深入测试他们内部最强、可访问完整思维链（CoT）的模型，并开放非公开的对齐与控制信息。

来自主题: AI技术研报

10176 点击 2026-05-24 10:11

破解AI对不同上下⽂位置的敏感度不⼀致，新框架使出“解铃还须系铃人”

语言模型遭遇严重的位置偏见，即模型对不同上下⽂位置的敏感度不⼀致。模型倾向于过度关注输⼊序列中的特定位置，严重制约了它们在复杂推理、⻓⽂本理解以及模型评估等关键任务上的表现。

来自主题: AI技术研报

6780 点击 2025-10-27 10:33

AI能否「圣地巡礼」？多模态大模型全新评估基准VIR-Bench来了

大家或许都有过这样的体验：看完一部喜欢的动漫，总会心血来潮地想去 “圣地巡礼”；刷到别人剪辑精美的旅行 vlog，也会忍不住收藏起来，想着哪天亲自走一遍同样的路线。旅行与影像的结合，总是能勾起人们的

来自主题: AI技术研报

9232 点击 2025-10-15 12:30

这篇超有用！手把手教你搭建 AI 产品 Evals

AI 下半场，模型评估比模型训练更重要。我们需要从根本上重新思考评估的方式。

来自主题: AI资讯

8946 点击 2025-08-21 16:41

速递｜韩企Datumo获Salesforce投资1550万美金，无代码AI模型评估挑战Scale AI

总部位于首尔的 Datumo 最初是一家 AI 数据标注公司，如今致力于通过提供工具和数据来帮助企业构建更安全的 AI 系统。

来自主题: AI资讯

9730 点击 2025-08-13 13:02

贝索斯投资的Toloka：human-AI co-agency是什么？如何从简单的标注任务发展到专家判断和与智能体的共同执行

Toloka是一家专注于AI数据标注与模型评估的众包平台，成立于2014年，创始人Olga Megorskaya曾是俄罗斯科技巨头Yandex董事会成员。公司总部位于阿姆斯特丹，之前由AI基础设施公司Nebius Group控股。

来自主题: AI资讯

9988 点击 2025-06-19 11:51

OpenAI 收购 Context.ai 团队，AI 评估能力再升级

科技媒体 maginative 今天（4 月 16 日）发布博文，报道称 OpenAI 宣布收购 Context.ai团队，后者是一家由 GV 支持的初创公司，以评估和分析 AI 模型见长。Context.ai的联合创始人 Henry Scott-Green（首席执行官）和 Alex Gamble（首席技术官）将加入 OpenAI，专注于研发模型评估工具。

来自主题: AI资讯

10319 点击 2025-04-16 10:58