AI资讯新闻榜单内容搜索-GPQA

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: GPQA
野生DeepSeek火了,速度碾压官方版,权重开源

野生DeepSeek火了,速度碾压官方版,权重开源

野生DeepSeek火了,速度碾压官方版,权重开源

没等来 DeepSeek 官方的 R2,却迎来了一个速度更快、性能不弱于 R1 的「野生」变体!这两天,一个名为「DeepSeek R1T2」的模型火了!这个模型的速度比 R1-0528 快 200%,比 R1 快 20%。除了速度上的显著优势,它在 GPQA Diamond(专家级推理能力问答基准)和 AIME 24(数学推理基准)上的表现均优于 R1,但未达到 R1-0528 的水平。

来自主题: AI资讯
7447 点击    2025-07-04 22:18
DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科

DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科

DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科

要知道,过去几年,各种通用评测逐渐同质化,越来越难以评估模型真实能力。GPQA、MMLU-pro、MMLU等流行基准,各家模型出街时人手一份,但局限性也开始暴露,比如覆盖范围狭窄(通常不足 50 个学科),不含长尾知识;缺乏足够挑战性和区分度,比如 GPT-4o 在 MMLU-Pro 上准确率飙到 92.3%。

来自主题: AI技术研报
5984 点击    2025-03-04 14:28
最强开源大模型Llama 3来了,4000亿参数狙击GPT-4,训练数据达Llama 2七倍

最强开源大模型Llama 3来了,4000亿参数狙击GPT-4,训练数据达Llama 2七倍

最强开源大模型Llama 3来了,4000亿参数狙击GPT-4,训练数据达Llama 2七倍

智东西4月19日消息,Meta推出迄今为止能力最强的开源大模型Llama 3系列,发布8B和70B两个版本。 Llama 3在一众榜单中取得开源SOTA(当前最优效果)。Llama 3 8B在MMLU、GPQA、HumanEval、GSM-8K等多项基准上超过谷歌Gemma 7B和Mistral 7B Instruct。

来自主题: AI技术研报
7328 点击    2024-04-20 12:10