AI资讯新闻榜单内容搜索-VERIFIED

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: VERIFIED
「北京版幻方」九坤投资冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」九坤投资冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」九坤投资冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

又一个中国新模型被推到聚光灯下,刷屏国内外科技圈。IQuest-Coder-V1模型系列,看起来真的很牛。在最新版SWE-Bench Verified榜单中,40B参数版本的IQuest-Coder取得了81.4%的成绩,这个成绩甚至超过了Claude Opus-4.5和GPT-5.2(这俩模型没有官方资料,但外界普遍猜测参数规模在千亿-万亿级)。

来自主题: AI资讯
8671 点击    2026-01-02 15:14
倒反天罡!Gemini Flash表现超越Pro,“帕累托前沿已经反转了”

倒反天罡!Gemini Flash表现超越Pro,“帕累托前沿已经反转了”

倒反天罡!Gemini Flash表现超越Pro,“帕累托前沿已经反转了”

倒反天罡! Gemini 3 Flash的表现在SWE-Bench Verified测试中获得了78%的分数,比超大杯Pro还略胜一筹。

来自主题: AI资讯
8639 点击    2025-12-23 10:33
字节前技术负责人创业,联手清华姚班校友,编程智能体世界登顶

字节前技术负责人创业,联手清华姚班校友,编程智能体世界登顶

字节前技术负责人创业,联手清华姚班校友,编程智能体世界登顶

来自中国的初创团队词元无限给出了自己的答案。由清华姚班校友带队设计开发的编码智能体 InfCode,在 SWE-Bench Verified 和 Multi-SWE-bench-CPP 两项非常权威的 AI Coding 基准中双双登顶,力压一众编程智能体。

来自主题: AI资讯
9374 点击    2025-12-05 14:51
开源即登榜!登顶全球前十AI编程智能体,UCL初创团队开源Prometheus

开源即登榜!登顶全球前十AI编程智能体,UCL初创团队开源Prometheus

开源即登榜!登顶全球前十AI编程智能体,UCL初创团队开源Prometheus

学界杀入主赛道!UCL 校园团队 EuniAI 抛出开源智能体 Prometheus,在 SWE-bench Verified 上 71.2% Pass@1、主榜实锤合并;成本低至 $0.23/issue。

来自主题: AI技术研报
9660 点击    2025-10-28 10:34
「开发者私下更喜欢用GPT-5写代码」,Claude还坐得稳编程王座吗?

「开发者私下更喜欢用GPT-5写代码」,Claude还坐得稳编程王座吗?

「开发者私下更喜欢用GPT-5写代码」,Claude还坐得稳编程王座吗?

一直以来,Anthropic 的 Claude 被认为是处理编程任务的最佳模型,尤其是本月初发布的 Claude Opus 4.1,在真实世界编程、智能体以及推理任务上表现出色。其中在软件编程权威基准 SWE-bench Verified 测试中,Claude Opus 4.1 相较于前代 Opus 4 又有提升,尤其在多文件代码重构方面表现出显著进步。

来自主题: AI资讯
8736 点击    2025-08-27 18:09
港大联手月之暗面等开源OpenCUA:人人可造专属电脑智能体

港大联手月之暗面等开源OpenCUA:人人可造专属电脑智能体

港大联手月之暗面等开源OpenCUA:人人可造专属电脑智能体

刚刚,一篇来自香港大学 XLANG Lab 和月之暗面等多家机构的论文上线了 arXiv,其中提出了一个用于构建和扩展 CUA(使用计算机的智能体)的完全开源的框架。 使用该框架,他们还构建了一个旗舰模型 OpenCUA-32B,其在 OSWorld-Verified 上达到了 34.8% 的成功率,创下了新的开源 SOTA,甚至在这个基准测试中超越了 GPT-4o。

来自主题: AI技术研报
9506 点击    2025-08-14 09:39
GPT-5编程成绩有猫腻!自删23道测试题,关键基准还是自己提的

GPT-5编程成绩有猫腻!自删23道测试题,关键基准还是自己提的

GPT-5编程成绩有猫腻!自删23道测试题,关键基准还是自己提的

别急着用GPT-5编程了,可能它能力没有你想象中那么强。 有人发现,官方测试编程能力用的SWE-bench Verified,但货不对板,只用了477个问题。

来自主题: AI资讯
7931 点击    2025-08-12 17:07
北大、字节跳动联手发布SWE-Swiss:一把修复代码Bug的「瑞士军刀」,完整配方直指开源SOTA

北大、字节跳动联手发布SWE-Swiss:一把修复代码Bug的「瑞士军刀」,完整配方直指开源SOTA

北大、字节跳动联手发布SWE-Swiss:一把修复代码Bug的「瑞士军刀」,完整配方直指开源SOTA

近日,一项由北京大学、字节跳动 Seed 团队及香港大学联合进行的研究,提出了一种名为「SWE-Swiss」的完整「配方」,旨在高效训练用于解决软件工程问题的 AI 模型。研究团队推出的 32B 参数模型 SWE-Swiss-32B,在权威基准 SWE-bench Verified 上取得了 60.2% 的准确率,在同尺寸级别中达到了新的 SOTA。

来自主题: AI技术研报
7060 点击    2025-08-08 10:43
Kimi超过DeepSeek的新模型被指“套壳”Qwen?到底怎么回事儿

Kimi超过DeepSeek的新模型被指“套壳”Qwen?到底怎么回事儿

Kimi超过DeepSeek的新模型被指“套壳”Qwen?到底怎么回事儿

昨天深夜,月之暗面发布了开源代码模型Kimi-Dev-72B。这个模型在软件工程任务基准测试SWE-bench Verified上取得了60.4%的成绩,创下开源模型新纪录,超越了包括DeepSeek在内的多个竞争对手。

来自主题: AI资讯
7191 点击    2025-06-18 11:20