用「进化+压力测试」自动生成的竞赛级编程题,各家大模型谁更hold住?
用「进化+压力测试」自动生成的竞赛级编程题,各家大模型谁更hold住?在当前评测生成式模型代码能力的浪潮中,传统依赖人工编写的算法基准测试集,正日益暴露出可扩展性不足与数据污染严重两大瓶颈。
在当前评测生成式模型代码能力的浪潮中,传统依赖人工编写的算法基准测试集,正日益暴露出可扩展性不足与数据污染严重两大瓶颈。
学界杀入主赛道!UCL 校园团队 EuniAI 抛出开源智能体 Prometheus,在 SWE-bench Verified 上 71.2% Pass@1、主榜实锤合并;成本低至 $0.23/issue。
AI 编程早已成为许多开发者日常生产中的一环,而随着代码生成的速度和规模达到一定程度,一个日益重要的问题是,支撑这些 AI 运转的开发工具和基础设施正在成为新的瓶颈。
周末看到了宝玉老师的一个帖子,我自己其实有非常强烈的共鸣。 宝玉老师说的是编程,而我在创作这块,其实一直都有相同的观点: 如果你是一个想在某个领域,真正深耕下去,想成为这个领域的专家,那么,在你独立、手动、不借助(或极少借助)AI,完成1000个小时的刻意练习之前,离AI远一点。
在 AI 时代,开发的边界正被重新划定。 我们能够观察到,越来越多的产品经理、数据分析师、设计师,甚至内容创作者,正在熟练地使用 Cursor、ChatGPT、DeepSeek 等 AI 工具,解决真
AI编程领域竞争正酣。就在DeepSeek、阿里、Google、OpenAI等巨头纷纷展示最新代码生成能力之际,快手也交出了一份重量级答卷——发布AI编程产品矩阵,正式宣布进军AI Coding赛道。
今天凌晨,Anthropic 上线了「Claude Code on the web」(即网页版 Claude Code)功能,这种全新的方式可以让用户直接从浏览器中委派编程任务。目前,网页版 Claude Code 处于 Beta 阶段,作为研究预览版向 Pro 和 Max 用户开放使用。
随着大型语言模型(LLM)朝着通用能力迈进,并以通用人工智能(AGI)为最终目标,测试其生成问题的能力也正变得越来越重要。尤其是在将 LLM 应用于高级编程任务时,因为未来 LLM 编程能力的发展和经济整合将需要大量的验证工作。
OpenAI的封闭模型在IOI 2025竞赛夺金的同时,英伟达团队交出了一份同样令人振奋的答卷——他们利用完全开源的大模型和全新的GenCluster策略,在IOI 2025竞赛中跑出了媲美金牌选手的成绩!开源模型首次达到了IOI金牌水准。这究竟是怎样实现的?
拒绝世界首富是什么体验?卡帕西:这事我熟!刚刚,马斯克高调邀请卡帕西,与Grok 5来一场编程对决——就像当年的“卡斯帕罗夫大战深蓝”。