AI资讯新闻榜单内容搜索-Mark

刚刚，国产预训练具身大模型开源了，让后训练不再是必选项！

2026 年初，国内具身智能赛道掀起了一波开源潮，越来越多团队开始公开自己的视觉-语言-动作（VLA）模型、数据集与训练框架。与此同时，行业竞争也逐渐集中到 benchmark 成绩、任务成功率以及跨任务泛化能力上，尤其是在标准化或已训练任务中的表现。

来自主题: AI技术研报

8443 点击 2026-05-29 09:19

Claude比你更懂你的需求？Anthropic工程师公开内部用法：用HTML作为AI规范，反而比Markdown更省Token；让“验证”成为Agent的原生特性

“Claude 可能比你更擅长从你这里提取出你想要和需要的东西，而不是由你向 Claude 详细指定。”

来自主题: AI资讯

6508 点击 2026-05-25 09:50

24小时从零写一个GBA模拟器！GPT-5.5跑出53分登顶，Gemini得了0.8分，底部还有两家交白卷

Mechanize 发布了一项硬核测试：给前沿 AI coding agents 24 小时，用 Rust 从零写一个完整的 Game Boy Advance 模拟器，再和顶级开源模拟器 Mesen2 逐帧对比打分。

来自主题: AI技术研报

8434 点击 2026-05-18 16:48

Markdown要凉…卡帕西也站HTML了

Markdown，当死。

来自主题: AI资讯

10674 点击 2026-05-12 14:54

Agent评测的下半场：为什么需要一个「活的」Benchmark？

Claw-Eval-Live提出「活的」benchmark概念，通过信号采集与任务筛选，确保评测内容紧跟企业实际痛点，而非固定不变的题库。评测不仅关注结果，还追踪执行过程，从数据调用到状态变更，全面验证Agent的真实能力。

来自主题: AI技术研报

6584 点击 2026-05-11 16:08

AI时代，HTML才是你所需要的一切？！

刚刚，在X上Claude Code工程师Thariq的一篇分享——他几乎停止使用 Markdown，转而使用 Claude Code 生成 HTML 文件。在短短几个小时里，这篇帖子的浏览量就突破了 200 万。

来自主题: AI技术研报

9344 点击 2026-05-09 13:20

27k Stars,零行代码 —— kepano/obsidian-skills 凭什么?

随手打开 GitHub,2026 年的 Agent 项目热榜上有这样一个仓库: • 27,000+ stars,1,800+ forks • 零行 Python,零行 TypeScript,零行 JS • 作者是 Obsidian 的 CEO 本人,kepano • 整个仓库就是 5 个 Markdown 文件

来自主题: AI资讯

9665 点击 2026-05-09 10:34

a16z投了一家“不看简历”的AI招聘公司

5月6日，主营AI招聘的初创公司Ethos宣布完成2275万美元（约合人民币1.55亿元）的A轮融资，由a16z领投，General Catalyst、XTX Markets、Evantic Capital和Common Magic跟投。

来自主题: AI资讯

9393 点击 2026-05-07 22:35

0%完成率！Claude、GPT、Gemini 全灭，SWE-Bench作者新作把AI圈干沉默了

SWE-Bench 的创建者，刚刚又放出了一个地狱级新 benchmark。

来自主题: AI技术研报

10531 点击 2026-05-07 15:31

从数学博士到英国“纳税王”：他用AI撑起千亿美金量化帝国

这个人叫 Alex Gerko，今年 46 岁，他是量化交易巨头 XTX Markets 的创始人。早在 ChatGPT 成为全民话题之前，他就已经搭建起一套纯粹以盈利为目的的 AI 交易系统。他在冰岛部署的这台超级计算机，正是 XTX 交易帝国的“算力大脑”。这台机器存储着超过 400 PB（约相当于 80 万亿张高清数码照片）的全球金融市场数据，并驱动着庞大的 GPU 集群。

来自主题: AI资讯

7686 点击 2026-04-27 09:54