AI资讯新闻榜单内容搜索-Mark

CVPR'26 | 以机器人为中心的ToM推理框架，从心智推理到决策行动

吉林大学&微软亚洲研究院等团队提出MindPower框架，让机器人像人一样理解他人想法并主动帮忙，构建了首个以机器人为中心的心智推理评测体系，通过六层推理链条，让AI不仅看懂场景，更能推断意图、做出决策、执行动作，显著提升助人能力。

来自主题: AI技术研报

6736 点击 2026-03-17 08:49

OpenAI开除内鬼！拿着改变世界的机密去赌博，一夜狂赚几十万

OpenAI刚刚开除了一名员工，原因令人瞠目：此人利用公司核心机密，在Polymarket等预测市场上疯狂下注牟利。更炸裂的是，调查发现这绝非个例——过去一年多，60个神秘钱包做出了77次精准到离谱的「内幕押注」。

来自主题: AI资讯

8613 点击 2026-03-16 10:41

Legora、Mercor 都在用，Reducto 能成为独立的 LLM 数据入口吗？

Reducto 在去年 6 个月内接连完成分别由 Benchmark 与 a16z 领投的两轮融资，估值翻了 3 倍，达到 6 亿美元。我们认为，Reducto 切中了 AI 应用走向生产环境过程中的“精确数据摄取”瓶颈。

来自主题: AI资讯

10120 点击 2026-03-14 08:41

卡帕西开源Agent自进化训练框架，5分钟一轮实验，48h内揽星9.5k

大神Karpathy又开源了新项目——一个能够自主进化的AI科研循环系统。这个项目名叫autoresearch，主打让智能体完全自主地搞科研，只要在Markdown文档里写好指令，剩下的流程全都由AI自动完成。

来自主题: AI技术研报

8297 点击 2026-03-09 18:28

YC总裁转发、登顶Hacker News：SkillsBench揭开Agent技能扩展的残酷真相

近日，一篇名为《SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks》的论文预印本引爆了海外 AI 社区，YC 总裁 Garry Tan 亲自转发，登顶 Hacker News（363 票 / 163 评论），霸榜 AlphaXiv #1，

来自主题: AI技术研报

7689 点击 2026-03-07 11:08

弯道超车？国产具身，千小时人类数据激发智能涌现

导读：近日，位于中关村的深度机智全球首次使用全新范式——人类学习，在多个国际 Benchmark 上取得 SOTA，史无前例地使用全新架构（仅使用人类第一视角数据、零真机数据）击败 Physical Intelligence 和英伟达等头部巨头二十多个百分点，并在两会开幕首日被央视报道。

来自主题: AI技术研报

9096 点击 2026-03-05 14:29

不止修bug：Agentic Coding评测走向复杂feature交付新阶段

在 Princeton 发布 SWE-Bench 之后，用真实世界代码仓库+可执行测试评测大模型软件工程能力，几乎已成为学术界与工业界的共识。围绕 SWE issue 的评测范式迅速发展，也催生了一系列 SWE 系列 benchmark，在刻画模型 bug 修复能力方面发挥了重要作用。

来自主题: AI技术研报

8110 点击 2026-03-04 13:44

GEO服务商「PureblueAI清蓝」完成数千万元天使轮融资，发布新AI营销数字员工平台 | 智能涌现首发

PureblueAI清蓝也同步发布了新产品——AI 营销数字员工平台mkter.ai，以及 AI 口碑营销数字员工“Mark”。

来自主题: AI资讯

9731 点击 2026-03-03 14:30

去Polymarket上与人类赌博的OpenClaw，已经月入数万美元了

2月13日，OpenClaw官方的博文提到，一个由OpenClaw驱动的机器人证明了自主智能体在预测市场的强大潜力——单周狂揽11.5万美元利润。1月底，Polymarket也发布过一条有趣的帖子：Agent们正在Polymarket上进行交易，试图补贴自己的token成本。

来自主题: AI资讯

10190 点击 2026-03-03 10:54

ICLR 2026 | 阿里高德发布SpatialGenEval，揭秘谁才是真正的文生图大师

来自阿里高德的一篇最新 ICLR 2026 中稿论文《Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models》提出了面向文生图空间智能的系统性评估基准 SpatialGenEval，旨在通过长文本、高信息密度的 T2I prompt 设计，以及围绕空间感知

来自主题: AI技术研报

10537 点击 2026-02-22 11:17