ICML 2026 | 大模型为什么算不对加法?南大团队提出等本位和轨迹,揭示LLM算术错误的几何机制
ICML 2026 | 大模型为什么算不对加法?南大团队提出等本位和轨迹,揭示LLM算术错误的几何机制尽管大语言模型(Large Language Models, LLMs)在复杂数学推理、代码生成和知识问答上表现突出,但它们仍常在多位数加法这类基础算术任务上犯错。
搜索
尽管大语言模型(Large Language Models, LLMs)在复杂数学推理、代码生成和知识问答上表现突出,但它们仍常在多位数加法这类基础算术任务上犯错。
随着大语言模型逐步从「单轮问答」走向「真实环境中的持续交互」,LLM agents 正在被用于越来越复杂的 agentic applications:deep research、coding、computer use、customer service、medical inquiry、troubleshooting 等等。
这是葬AI起号以来工作量最大的一篇文章。为了严肃评测国产模型的能力,我自研了一个Benchmark,完整测试了智谱、Qwen、Kimi、Minimax、Deepseek这些最新国产模型,还引入了境外势力Claude作对照组。
昨晚,小米正式上线了Xiaomi MiMo Claw,一款云端Claw类产品,搭载与OpenClaw框架深度适配的MiMo-V2.5-Pro旗舰模型,同时联动了金山办公生态,实现一站式办公,现在可以在MiMo Studio上进行体验。
昨天 Kimi K2.7 Code 高速版 上线了,我上手试了下,最大的感受就一个字:快。
逆矩阵计划于 2026 年底发布旗舰模型。
GLM-5.2 正式发布,震撼全网,主打长程任务能力,配合 1M token 上下文窗口,且完全开源(MIT 协议)。在相近的 token 消耗下,GLM-5.2 的能力大致介于 Opus 4.7 和 Opus 4.8 之间,参数仅为753B。
OpenAI讲了一个巨亏的故事?
大模型再强,也读不懂你公司那一柜子的合同、发票和扫描件。在"纸张世界"和"LLM世界"之间,缺一座桥——而百度开源的 PaddleOCR,可能就是当下最稳的那座。
他们对触乐说,变化发生在今年春节后。数字天空《烽沙》项目组目前有25人。今年1月,他们一共调用了2亿Token,到了2月,调用的Token数变成了149亿,“暴涨70倍”。“AI已经完全成为我们日常开发流程的一部分,虽然核心设计方向仍然需要把关,但已经很难再回到纯手工模式,”《烽沙》制作人Niko半开玩笑地告诉我:“如果今天用不了AI,我们都不会编程了,手动敲(代码)太慢了。”