不止修bug:Agentic Coding评测走向复杂feature交付新阶段
不止修bug:Agentic Coding评测走向复杂feature交付新阶段在 Princeton 发布 SWE-Bench 之后,用真实世界代码仓库+可执行测试评测大模型软件工程能力,几乎已成为学术界与工业界的共识。围绕 SWE issue 的评测范式迅速发展,也催生了一系列 SWE 系列 benchmark,在刻画模型 bug 修复能力方面发挥了重要作用。
搜索
在 Princeton 发布 SWE-Bench 之后,用真实世界代码仓库+可执行测试评测大模型软件工程能力,几乎已成为学术界与工业界的共识。围绕 SWE issue 的评测范式迅速发展,也催生了一系列 SWE 系列 benchmark,在刻画模型 bug 修复能力方面发挥了重要作用。
最近关于OpenClaw的事,除了我昨天说的Github登顶之外。还有另一个非常魔幻的事——就是OpenClaw收费上门安装。一次费用,几百不等。更离谱的价格也有,前段时间在群里看到的:OpenClaw安装,1.6万!?
GPT-5.3 Instant不卷跑分,专治「聊天翻车」:不再动不动拒绝回答,不再满嘴说教免责,幻觉率暴降27%,写作能力也跳了一个台阶。
1 月中旬,白鲸出海受亚马逊全球开店活动邀请,前往东莞与多位卖家交流出海经验,除了此前报道过的计划用 AI 赋能家庭娱乐的音箱品牌 Ikarao,在相距不到 20分钟的车程内,另一家主打“硬核”产品的 BOSGAME 同样成绩不俗,跨境业务三年复合增长率 120%。但由于产品性质的巨大差异,专攻 PC 硬件的 BOSGAME,分享了完全不同的成长思考。
全球最大的卡路里追踪平台 MyFitnessPal 正式宣布,已完成对后起之秀 Cal AI 的收购。CalAI,这个由高中生 Zach Yadegari 发起的创业项目也迎来阶段性的结局,收购后,产品仍将独立运营,Zach Yadegari 在内 7 名成员均将加入 MyFitnessPal。(可参见我们的置顶文章《17岁高中生做AI App,不到4个月入账百万美元,独立开发者迎来春天?》)
前段时间 AI 浏览器扎堆上线,从 OpenAI 的 Atlas 到 Perplexity Comet,国内的 QQ浏览器、夸克/千问纷纷进入赛道。浏览器这个「老古董」突然成了 AI 赛道的香饽饽。大小厂都在抢,都想占个入口位置。
Claude Code 正式上线语音模式:输入 /voice,长按空格说话,松开即完成输入。语音转录实时流入光标位置,和键盘无缝切换,转录Token完全免费。编程的下一个战场不是模型智商,而是交互方式。
来自中国人民大学与阿里巴巴通义实验室的研究团队提出了 IterResearch,一种全新的迭代式深度研究范式。通过马尔可夫式的工作空间重构,IterResearch 让 Agent 在仅 40K 上下文长度下完成了 2048 次工具交互且性能不衰减,在 BrowseComp 上从 3.5% 一路攀升至 42.5%。
不卖关子,它正是由上海科学智能研究院(上智院)联合复旦大学最新发布的超级科研合伙人——大圣。是一个系统级的、面向科学探索的高能动性智能体,致力于持续推动科研范式变革。
比如他描述Elys为「光屁股版的即刻」。前两天又锐评Openclaw,「我觉得这是一个情感陪伴产品」。我深刻怀疑,松辽平原存在一种魔力,让东北孩子说话都像小嘴淬了蜜。