AI资讯新闻榜单内容搜索-数学推理

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonnet vs. GPT-4o？

AI技术日新月异，近来Anthropic公司最新发布的Claude-3.5-Sonnet因在知识型推理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论

来自主题: AI技术研报

11392 点击 2024-06-24 15:49

近年来，大型语言模型（LLM）在数学应用题和数学定理证明等任务中取得了长足的进步。数学推理需要严格的、形式化的多步推理过程，因此是 LLMs 推理能力进步的关键里程碑，但仍然面临着重要的挑战。

来自主题: AI技术研报

7457 点击 2024-05-04 20:04

对于小型语言模型（SLM）来说，数学应用题求解是一项很复杂的任务。

来自主题: AI技术研报

9911 点击 2024-04-29 20:35

大模型对齐新方法，让数学推理能力直接提升9%。

来自主题: AI技术研报

6996 点击 2024-03-13 11:10

教大模型调用工具，已经是AI圈关注度最高的话题之一了。这不，又有一项研究登上最新NeurIPS 2023——它是一个叫做Chameleon（变色龙）的框架，号称能将大语言模型直接变成魔法师的工具箱，来自微软与加州大学洛杉矶分校（UCLA）。

来自主题: AI资讯

7863 点击 2023-12-13 16:30

UCLA等机构研发的Chameleon框架，在AI界引起广泛关注，获得超过100次学术引用，AlphaSignal评选其为「周最佳论文」。

来自主题: AI资讯

7265 点击 2023-12-12 15:30

大型多模态模型会做数学题吗？在UCLA等机构最新发布的MathVista基准上，即使是当前最强的GPT-4V也会感到「挫败感」。

来自主题: AI资讯

10907 点击 2023-12-05 17:15

专门为AI设立的IMO国际奥林匹克数学竞赛来了—

来自主题: AI资讯

8651 点击 2023-11-28 17:20

今天，智谱AI开源其第三代基座大语言模型ChatGLM3-6B，官方说明该模型的性能较前一代大幅提升，是10B以下最强基础大模型！

来自主题: AI技术研报

10905 点击 2023-10-27 19:03

阿里目前再次开源全新的Qwen-14B的模型，参数规模142亿，但是它的理解能力接近700亿参数规模的LLaMA2-70B，数学推理能力超过GPT-3.5。

来自主题: AI技术研报

7526 点击 2023-09-26 15:05