AI资讯新闻榜单内容搜索-模型训练

只用图像也能思考，强化学习造就推理模型新范式！复杂场景规划能力Max

近年来，LLM 及其多模态扩展（MLLM）在多种任务上的推理能力不断提升。然而，现有 MLLM 主要依赖文本作为表达和构建推理过程的媒介，即便是在处理视觉信息时也是如此。

来自主题: AI技术研报

8867 点击 2025-05-26 09:59

1986年，图灵奖得主Fred Brooks在软件工程领域提出了著名的"没有银弹"理论：没有任何一种技术或方法能够独自带来软件工程生产力的数量级提升。近四十年后，这个深刻洞察在AI领域再次得到验证——你是否也曾经历过这样的挫折：

来自主题: AI技术研报

6983 点击 2025-05-26 09:50

现有的数据合成方法在合理性和分布一致性方面存在不足，且缺乏自动适配不同数据的能力，扩展性较差。

来自主题: AI技术研报

8552 点击 2025-05-25 15:42

自 Anthropic 推出 Claude Computer Use，打响电脑智能体（Computer Use Agent）的第一枪后，OpenAI 也相继推出 Operator，用强化学习（RL）算法把电脑智能体的能力推向新高，引发全球范围广泛关注。

来自主题: AI技术研报

9194 点击 2025-05-25 15:11

在文档理解领域，多模态大模型（MLLMs）正以惊人的速度进化。从基础文档图像识别到复杂文档理解，它们在扫描或数字文档基准测试（如 DocVQA、ChartQA）中表现出色，这似乎表明 MLLMs 已很好地解决了文档理解问题。然而，现有的文档理解基准存在两大核心缺陷：

来自主题: AI技术研报

9573 点击 2025-05-25 11:44

字节最近真的猛猛开源啊……这一次，他们直接开源了GPT-4o级别的图像生成能力。不止于此，其最新融合的多模态模型BAGEL主打一个“大一统”，将带图推理、图像编辑、3D生成等功能全都集中到了一个模型。

来自主题: AI技术研报

10337 点击 2025-05-24 17:34

OpenAI 研究员姚顺雨近期发布文章，指出：AI 下半场将聚焦问题定义与评估体系重构。在 AI 发展新阶段，行业需要通过设计更有效的模型评测体系，弥补 AI 能力与真实需求的差距。

来自主题: AI技术研报

11279 点击 2025-05-24 15:33

本文详细解读了 Kimi k1.5、OpenReasonerZero、DAPO 和 Dr. GRPO 四篇论文中的创新点，读完会对 GRPO 及其改进算法有更深的理解，进而启发构建推理模型的新思路。

来自主题: AI技术研报

11830 点击 2025-05-24 14:33

无需数据配对，文本嵌入也能互通？康奈尔重磅研究：所有模型都殊途同归。曾因llya离职OpenAI，在互联网上掀起讨论飓风的柏拉图表示假说提出：所有足够大规模的图像模型都具有相同的潜在表示。

来自主题: AI技术研报

9208 点击 2025-05-24 11:46

上月，ChatGPT-4o无条件跪舔用户，被OpenAI紧急修复。然而，ICLR 2025的文章揭示LLM不止会「跪舔」，还有另外5种「套路」。

来自主题: AI技术研报

8477 点击 2025-05-23 15:46