
伯克利最强代码Agent屠榜SWE-Bench!用Scaling RL打造,配方全公开
伯克利最强代码Agent屠榜SWE-Bench!用Scaling RL打造,配方全公开新晋AI编程冠军DeepSWE来了!仅通过纯强化学习拿下基准测试59%的准确率,凭啥?7大算法细节首次全公开。
新晋AI编程冠军DeepSWE来了!仅通过纯强化学习拿下基准测试59%的准确率,凭啥?7大算法细节首次全公开。
2025年6月,AI 代码编辑器 Cursor 因定价模式调整引发广泛争议。原先的“按次计费”(per-request billing)改为基于 token 的“按量计费”(usage-based pricing),导致部分用户面临意外扣费,社区反馈强烈Cursor 于7月5日发布致歉声明,承诺退款并澄清新计费模式。
1997 年,AI 正处于第二次寒冬,这次寒潮的时间有点长,从 20 世纪 90 年代直至 21 世纪的第一个十年。
大模型记忆管理和优化框架是当前各大厂商争相优化的热点方向,MemOS 相比现有 OpenAI 的全局记忆在大模型记忆评测集上呈现出显著的提升,平均准确性提升超过 38.97%,Tokens 的开销进一步降低 60.95%,一举登顶记忆管理的 SOTA 框架,特别是在考验框架时序建模与检索能力的时序推理任务上,提升比例更是达到了 159%,相当震撼!
现在,国内研究机构就从数据基石的角度出发,拿出了还原真实动态世界的新进展:上海人工智能实验室、北京理工大学、上海创智学院、东京大学等机构聚焦世界生成的第一步——世界探索,联合推出一个持续迭代的高质量视频数据集项目——Sekai(日语意为“世界”),服务于交互式视频生成、视觉导航、视频理解等任务,旨在利用图像、文本或视频构建一个动态且真实的世界,可供用户不受限制进行交互探索。
2025年7月,字节跳动旗下AI原生集成开发环境Trae宣布开源其核心组件Trae-Agent。
2017 年,一篇《Attention Is All You Need》论文成为 AI 发展的一个重要分水岭,其中提出的 Transformer 依然是现今主流语言模型的基础范式。尤其是在基于 Transformer 的语言模型的 Scaling Law 得到实验验证后,AI 领域的发展更是进入了快车道。
罗宾汉大撒币,OpenAI狂摇头 OpenAI还没上市,怎么已经有“山寨股票”先行一步了? 当地时间7月2日,OpenAI的官方X(前推特)账号发布了一个义正词严的公告: “这些‘OpenAI 代币’并非 OpenAI 股权。我们没有与 Robinhood 合作,没有参与此事,也不为其背书。任何 OpenAI 股权的转让都需要我们的批准——我们从未批准过任何转让。请谨慎操作。”
大模型越来越大,通用能力越来越强,但一遇到数学、科学、逻辑这类复杂问题,还是常“翻车”。为破解这一痛点,华为诺亚方舟实验室提出全新高阶推理框架 ——思维森林(Forest-of-Thought,FoT)。
不要让AI成为「垃圾制造机」。 谁能想到,一个 AI 生成的视频竟然在 ins 上拿下 2.52 亿次浏览量,仅点赞就达到 325.7 万次。