AI资讯新闻榜单内容搜索-o1

指令跟随大比拼！Meta发布多轮多语言基准Multi-IF：覆盖8种语言，超4500种任务

Meta全新发布的基准Multi-IF涵盖八种语言、4501个三轮对话任务，全面揭示了当前LLM在复杂多轮、多语言场景中的挑战。所有模型在多轮对话中表现显著衰减，表现最佳的o1-preview模型在三轮对话的准确率从87.7%下降到70.7%；在非拉丁文字语言上，所有模型的表现显著弱于英语。

来自主题: AI技术研报

5911 点击 2024-11-25 15:45

OpenAI怒斥Scaling撞墙论！o1已产生推理直觉潜力巨大

Scaling Law撞墙了吗？OpenAI高级研究副总裁Mark Chen正式驳斥了这一观点。他表示，OpenAI已经有o系列和GPT系列两个模型，来让模型继续保持Scaling。

来自主题: AI资讯

5378 点击 2024-11-25 15:03

限定120分钟科研挑战，o1和Claude表现超越人类

2小时内，Claude和o1就能超过人类专家平均科研水平。

来自主题: AI技术研报

8326 点击 2024-11-25 13:57

Claude 3.5两小时暴虐50多名专家，编程10倍速飙升！但8小时曝出惊人短板

AI自主研发会真的「失控」了吗？最新研究显示，Claude 3.5 Sonnet和o1-preview在2小时内的研发任务中，击败了50多位人类专家。但另一个耐人寻味的现象是，给予更长时间周期后，人类专家在8小时任务中优势显现。

来自主题: AI技术研报

5579 点击 2024-11-24 21:22

阿里国际版o1来了，Marco-o1：聚焦开放式问题推理

自从 OpenAI 发布 o1 模型以来，业界对其的追赶不断加速。

来自主题: AI技术研报

6513 点击 2024-11-23 16:19

上交大o1复现新突破：蒸馏超越原版，警示AI研发"捷径陷阱"

自从 OpenAI 发布展现出前所未有复杂推理能力的 o1 系列模型以来，全球掀起了一场 AI 能力 “复现” 竞赛。近日，上海交通大学 GAIR 研究团队在 o1 模型复现过程中取得新的突破，通过简单的知识蒸馏方法，团队成功使基础模型在数学推理能力上超越 o1-preview。

来自主题: AI技术研报

5206 点击 2024-11-22 16:46

杨植麟还没有解开月之暗面的局

11月16日，陷入前投资人仲裁风波的主角杨植麟突然出现，并对外发布了一款数学模型。杨植麟将自己的数学模型k0-math对标OpenAI o1系列，主打深入思考。

来自主题: AI资讯

6002 点击 2024-11-21 14:30

「全球最严榜单」，阶跃拿下中国TOP 1！杀入世界前五，超过GPT-4o紧跟o1-mini

在「全球最难LLM评测榜单」上，国产万亿参数模型杀入全球第五，拿下中国第一！国内明星初创阶跃星辰的这个自研模型太过亮眼，甚至引起了外国网友的热议。

来自主题: AI资讯

5501 点击 2024-11-21 13:59

史上最严“中文真实性评估”：OpenAI o1第1豆包第2，其它全部不及格

新的大语言模型（LLM）评估基准对于跟上大语言模型的快速发展至关重要。

来自主题: AI技术研报

7577 点击 2024-11-21 13:47

DeepSeek 推理模型预览版上线，解密 o1 推理过程

今天，DeepSeek 全新研发的推理模型 DeepSeek-R1-Lite 预览版正式上线。所有用户均可登录官方网页（chat.deepseek.com），一键开启与 R1-Lite 预览版模型的超强推理对话体验。DeepSeek R1 系列模型使用强化学习训练，推理过程包含大量反思和验证，思维链长度可达数万字。

来自主题: AI资讯

10148 点击 2024-11-20 23:11