AI资讯新闻榜单内容搜索-MLLMs

RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward

近年来，大语言模型（LLMs）以及多模态大模型（MLLMs）在多种场景理解和复杂推理任务中取得突破性进展。

来自主题: AI技术研报

7421 点击 2025-10-21 15:53

近年来，多模态大语言模型（Multimodal Large Language Models, MLLMs）在图文理解、视觉问答等任务上取得了令人瞩目的进展。然而，当面对需要精细空间感知的任务 —— 比如目标检测、实例分割或指代表达理解时，现有模型却常常「力不从心」。

来自主题: AI技术研报

10834 点击 2025-10-16 12:31

随着多模态大语言模型（MLLMs）在视觉问答、图像描述等任务中的广泛应用，其推理能力尤其是数学几何问题的解决能力，逐渐成为研究热点。然而，现有方法大多依赖模板生成图像 - 文本对，泛化能力有限，且视

来自主题: AI技术研报

8254 点击 2025-09-26 13:30

在科研、新闻报道、数据分析等领域，图表是信息传递的核心载体。要让多模态大语言模型（MLLMs）真正服务于科学研究，必须具备以下两个能力

来自主题: AI技术研报

9582 点击 2025-08-22 10:35

近年来，多模态大模型（MLLMs）发展迅猛，从看图说话到视频理解，似乎无所不能。

来自主题: AI资讯

9600 点击 2025-07-13 11:53

使用过程奖励模型（PRM）强化大语言模型的推理能力已在纯文本任务中取得显著成果，但将过程奖励模型扩展至多模态大语言模型（MLLMs）时，面临两大难题：

来自主题: AI技术研报

9457 点击 2025-07-12 11:58

在多模态大语言模型（MLLMs）应用日益多元化的今天，对模型深度理解和分析人类意图的需求愈发迫切。尽管强化学习（RL）在增强大语言模型（LLMs）的推理能力方面已展现出巨大潜力，但将其有效应用于复杂的多模态数据和格式仍面临诸多挑战。

来自主题: AI技术研报

9816 点击 2025-07-09 10:59

思维链（Chain of Thought, CoT）推理方法已被证明能够显著提升大语言模型（LLMs）在复杂任务中的表现。而在多模态大语言模型（MLLMs）中，CoT 同样展现出了巨大潜力。

来自主题: AI技术研报

10956 点击 2025-06-17 10:21

近年来，大语言模型（LLMs）以及多模态大模型（MLLMs）在多种场景理解和复杂推理任务中取得突破性进展。

来自主题: AI技术研报

9456 点击 2025-06-07 14:20

逻辑推理是人类智能的核心能力，也是多模态大语言模型 (MLLMs) 的关键能力。随着DeepSeek-R1等具备强大推理能力的LLM的出现，研究人员开始探索如何将推理能力引入多模态大模型(MLLMs)

来自主题: AI技术研报

10180 点击 2025-06-07 10:35