AI资讯新闻榜单内容搜索-模型评测

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 模型评测

具身智能DeepSeek时刻！千寻智能模型开源即登顶全球榜单

具身智能DeepSeek时刻！千寻智能模型开源即登顶全球榜单

具身智能DeepSeek时刻！千寻智能模型开源即登顶全球榜单

全球榜单中唯一成功率超过50%的模型。今日，千寻智能正式开源自研VLA基础模型Spirit v1.5，就在前一天，该模型在全球具身智能模型评测平台RoboChallenge上，综合评测斩获第一。

来自主题: AI资讯

9700 点击 2026-01-12 09:27

807道灵魂拷问后，中国模型竟在「意义测试」中夺冠！

807道灵魂拷问后，中国模型竟在「意义测试」中夺冠！

807道灵魂拷问后，中国模型竟在「意义测试」中夺冠！

AI不仅会做PPT，写代码，它还能理解更深层次的问题。在美国的一项偏重于文化领域的新基准测试中，中国开源模型Qwen3夺冠，DeepSeek的R1跻身前六，力压多家全球顶级的明星模型。

来自主题: AI资讯

6259 点击 2025-12-23 10:06

中国AI开源16强，最新出炉

中国AI开源16强，最新出炉

中国AI开源16强，最新出炉

知名AI大模型评测Chatbot Arena放榜！阿里Qwen3-235B-A22B-Instruct-2507位列大语言模型总榜第三，月之暗面Kimi-K2-0711-preview、深度求索DeepSeek-R1-0528并列为总榜第五，以开源之姿超越Claude 4、GPT-4.1等顶尖闭源模型。

来自主题: AI资讯

11139 点击 2025-08-05 10:47

ACL 2025 Oral | 你的模型评测搭子上线：Evaluation Agent懂你更懂AI

ACL 2025 Oral | 你的模型评测搭子上线：Evaluation Agent懂你更懂AI

ACL 2025 Oral | 你的模型评测搭子上线：Evaluation Agent懂你更懂AI

怎么快速判断一个生成模型好不好？最直接的办法当然是 —— 去问一位做图像生成、视频生成、或者专门做评测的朋友。他们懂技术、有经验、眼光毒辣，能告诉你模型到底强在哪、弱在哪，适不适合你的需求。

来自主题: AI技术研报

7918 点击 2025-07-18 11:02

对话中国信通院魏凯：AI下半场，大模型要少说话，多做事

对话中国信通院魏凯：AI下半场，大模型要少说话，多做事

对话中国信通院魏凯：AI下半场，大模型要少说话，多做事

今年2月DeepSeek爆火，震惊国内外。实际上，在此之前，中国信息通信研究院（下称：中国信通院）的大模型评测团队就观察到国内模型性能迅速提升的势头，他们当中就包括中国信通院人工智能研究所所长魏凯。

来自主题: AI资讯

8076 点击 2025-07-01 10:17

通专融合，思维链还透明，上海AI Lab为新一代大模型打了个样

通专融合，思维链还透明，上海AI Lab为新一代大模型打了个样

通专融合，思维链还透明，上海AI Lab为新一代大模型打了个样

OpenAI 研究员姚顺雨近期发布文章，指出：AI 下半场将聚焦问题定义与评估体系重构。在 AI 发展新阶段，行业需要通过设计更有效的模型评测体系，弥补 AI 能力与真实需求的差距。

来自主题: AI技术研报

11574 点击 2025-05-24 15:33

DeepSeek新数学模型刷爆记录！7B小模型自主发现671B模型不会的新技能

DeepSeek新数学模型刷爆记录！7B小模型自主发现671B模型不会的新技能

DeepSeek新数学模型刷爆记录！7B小模型自主发现671B模型不会的新技能

DeepSeek放大招！新模型专注数学定理证明，大幅刷新多项高难基准测试。在普特南测试上，新模型DeepSeek-Prover-V2直接把记录刷新到49道。目前的第一名在657道题中只做出10道题，为Kimi与AIME2024冠军团队Numina合作成果Kimina-Prover。

来自主题: AI技术研报

10328 点击 2025-05-01 22:52

中文大模型幻觉测评系列：事实性幻觉测评结果发布！

中文大模型幻觉测评系列：事实性幻觉测评结果发布！

中文大模型幻觉测评系列：事实性幻觉测评结果发布！

SuperCLUE-Fact是专门评估大语言模型在中文短问答中识别和应对事实性幻觉的测试基准。测评任务包括知识、常识、对抗性和上下文幻觉。

来自主题: AI资讯

14030 点击 2025-04-15 17:04

首个统一多模态模型评测标准，DeepSeek Janus理解能力领跑开源，但和闭源还有差距

首个统一多模态模型评测标准，DeepSeek Janus理解能力领跑开源，但和闭源还有差距

首个统一多模态模型评测标准，DeepSeek Janus理解能力领跑开源，但和闭源还有差距

统一多模态大模型（U-MLLMs）逐渐成为研究热点，近期GPT-4o，Gemini-2.0-flash都展现出了非凡的理解和生成能力，而且还能实现跨模态输入输出，比如图像+文本输入，生成图像或文本。

来自主题: AI技术研报

9211 点击 2025-04-10 10:20

你正在做的大模型评测，可能有一半都是无用功 | 上海AI Lab&上交&浙大出品

你正在做的大模型评测，可能有一半都是无用功 | 上海AI Lab&上交&浙大出品

你正在做的大模型评测，可能有一半都是无用功 | 上海AI Lab&上交&浙大出品

评估多模态AI模型的那些复杂测试，可能有一半都是“重复劳动”！

来自主题: AI技术研报

10417 点击 2025-03-19 10:37

上一页当前第2页,共4页下一页