AI资讯新闻榜单内容搜索-多模态模型

vivo发布端侧多模态模型，只有3B可理解GUI界面，20项评测表现亮眼

vivo AI Lab发布AI多模态新模型了，专门面向端侧设计，紧凑高效～

来自主题: AI技术研报

7475 点击 2025-07-10 11:30

多模态模型学会“按需搜索”！字节&NTU最新研究，优化多模态模型搜索策略——通过搭建网络搜索工具、构建多模态搜索数据集以及涉及简单有效的奖励机制，首次尝试基于端到端强化学习的多模态模型自主搜索训练。

来自主题: AI技术研报

7207 点击 2025-07-09 10:35

就在昨夜，阿里带着全新多模态模型Qwen-VLo开启炸场模式。据介绍，Qwen-VLo在阿里原有的多模态理解和生成能力上进行了全面升级，具备三大亮点：

来自主题: AI资讯

7848 点击 2025-06-28 17:57

本周五凌晨，谷歌正式发布、开源了全新端侧多模态大模型 Gemma 3n。谷歌表示，Gemma 3n 代表了设备端 AI 的重大进步，它为手机、平板、笔记本电脑等端侧设备带来了强大的多模式功能，其性能去年还只能在云端先进模型上才能体验。

来自主题: AI资讯

9385 点击 2025-06-27 09:00

NVIDIA等研究团队提出了一种革命性的AI训练范式——视觉游戏学习ViGaL。通过让7B参数的多模态模型玩贪吃蛇和3D旋转等街机游戏，AI不仅掌握了游戏技巧，还培养出强大的跨领域推理能力，在数学、几何等复杂任务上击败GPT-4o等顶级模型。

来自主题: AI技术研报

6783 点击 2025-06-17 16:53

近年来，大语言模型（LLMs）以及多模态大模型（MLLMs）在多种场景理解和复杂推理任务中取得突破性进展。

来自主题: AI技术研报

7668 点击 2025-06-07 14:20

GPT-4o-Image也只能完成28.9%的任务，图像编辑评测新基准来了！360个全部由人类专家仔细思考并校对的高质量测试案例，暴露多模态模型在结合推理能力进行图像编辑时的短板。

来自主题: AI技术研报

9852 点击 2025-05-31 14:37

多模态大模型（MLLM）在静态图像上已经展现出卓越的 OCR 能力，能准确识别和理解图像中的文字内容。MME-VideoOCR 致力于系统评估并推动MLLM在视频OCR中的感知、理解和推理能力。

来自主题: AI技术研报

7759 点击 2025-05-30 17:30

表现最好的GPT-o4 mini，物理推理能力也远不及人类！

来自主题: AI技术研报

9155 点击 2025-05-28 09:47

字节最近真的猛猛开源啊……这一次，他们直接开源了GPT-4o级别的图像生成能力。不止于此，其最新融合的多模态模型BAGEL主打一个“大一统”，将带图推理、图像编辑、3D生成等功能全都集中到了一个模型。

来自主题: AI技术研报

9357 点击 2025-05-24 17:34