AI资讯新闻榜单内容搜索-Gen

不止修bug：Agentic Coding评测走向复杂feature交付新阶段

在 Princeton 发布 SWE-Bench 之后，用真实世界代码仓库+可执行测试评测大模型软件工程能力，几乎已成为学术界与工业界的共识。围绕 SWE issue 的评测范式迅速发展，也催生了一系列 SWE 系列 benchmark，在刻画模型 bug 修复能力方面发挥了重要作用。

来自主题: AI技术研报

8152 点击 2026-03-04 13:44

给GUI Agent装上「世界模型」：阿里通义用混合数据+统一思维链，让模型学会预判屏幕变化

伴随多模态大模型的发展，GUI Agent正成为人机交互的新范式。

来自主题: AI技术研报

9342 点击 2026-03-04 13:43

独家｜Flowith 完成千万美元种子轮融资，打造 Agentic AI 时代的首个“行动派”操作系统

近日，Flowith 宣布完成千万美元种子轮和种子+轮融资。种子轮为祥峰投资（Vertex Ventures）等机构，种子+轮为红杉中国种子基金、江远投资（LongRiver）等多家顶尖机构联合领投，融资资金将主要用于研发以及全球化市场拓展。

来自主题: AI资讯

10295 点击 2026-03-04 11:32

一年净赚超3亿！广州Agent公司港股递表，俞永福是股东

冲刺多智能体第一股，毛利率超80%。

来自主题: AI资讯

7170 点击 2026-03-04 11:25

AI Agent搞定世纪首次菲尔兹奖成果形式化！一周时间独立完成，20万行代码已公开

5天时间，AI就搞定了原本需要6个月完成的菲尔兹奖级数学成果的形式化证明。

来自主题: AI资讯

8348 点击 2026-03-04 11:24

ICLR 2026 | 7B小模型干翻GPT-5？AdaResoner实现Agentic Vision的主动「视觉工具思考」

你见过 7B 模型在拼图推理上干翻 GPT-5 吗？

来自主题: AI技术研报

7246 点击 2026-03-04 11:18

OpenClaw 让每个聊天软件都有机会变成微信

当 AI agent 需要一个「家」的时候，它们没有住进独立的 App，而是搬进了聊天软件。

来自主题: AI资讯

9023 点击 2026-03-04 10:39

字节清华智能体自动写CUDA内核，比torch.compile加速2.11倍

让AI自己写高性能GPU代码，字节Seed与清华AIR团队做到了。

来自主题: AI技术研报

8135 点击 2026-03-04 10:39

马斯克大赞阿里 AI，9B 参数硬刚 120B，海外网友：这叫小模型？

昨天深夜，阿里通义千问团队在 X 平台正式发布了 Qwen3.5 小模型系列，覆盖 0.8B、2B、4B 和 9B 四个参数规格。甫一发布，便在海外科技圈引发强烈反响。马斯克也在该推文下评论称：「Impressive intelligence density」（令人印象深刻的智能密度）。这股热度的背后，APPSO 也好奇，为什么这几款小模型能够激起如此大的波澜？

来自主题: AI资讯

10118 点击 2026-03-03 14:35

ICLR 2026｜人大&通义：别再只会堆上下文了！IterResearch用40K上下文轻松实现2048轮交互不退化

来自中国人民大学与阿里巴巴通义实验室的研究团队提出了 IterResearch，一种全新的迭代式深度研究范式。通过马尔可夫式的工作空间重构，IterResearch 让 Agent 在仅 40K 上下文长度下完成了 2048 次工具交互且性能不衰减，在 BrowseComp 上从 3.5% 一路攀升至 42.5%。

来自主题: AI技术研报

8423 点击 2026-03-03 14:20