AI资讯新闻榜单内容搜索-多模态

空间智能终极挑战MMSI-Video-Bench来了，顶级大模型全军覆没

空间理解能力是多模态大语言模型（MLLMs）走向真实物理世界，成为 “通用型智能助手” 的关键基础。但现有的空间智能评测基准往往有两类问题：一类高度依赖模板生成，限制了问题的多样性；另一类仅聚焦于某一种空间任务与受限场景，因此很难全面检验模型在真实世界中对空间的理解与推理能力。

来自主题: AI技术研报

7516 点击 2026-01-06 09:50

7B量级模型，向来是端侧部署与个人开发者的心头好。

来自主题: AI技术研报

6717 点击 2026-01-05 14:30

你有没有想过，如果你和 AI 聊天，无意中把自己的生日、住址或照片告诉了它，这些信息会不会被它记住？以及我们是否可以像删除微信聊天记录一样，让 AI 忘记这些隐私？

来自主题: AI资讯

10495 点击 2026-01-04 16:07

近期，以DeepEyes、Thymes为代表的类o3模型通过调用视觉工具，突破了传统纯文本CoT的限制，在视觉推理任务中取得了优异表现。

来自主题: AI技术研报

8081 点击 2025-12-31 08:29

近日，清华朱军等团队提出了一种统一的多模态生成框架 UniCardio，在单扩散模型中同时实现了心血管信号的去噪、插补与跨模态生成，为真实场景下的人工智能辅助医疗提供了一种新的解决思路。

来自主题: AI技术研报

8676 点击 2025-12-30 15:14

硅谷宠物情感智能公司Traini宣布已完成超5000万元人民币融资，资金将主要用于多模态情感模型研发、软硬件产品迭代及海外市场扩张。老股东Tao Foundation及小米联合创始人洪峰继续跟投。

来自主题: AI资讯

7935 点击 2025-12-29 09:35

近日，多模态视频理解领域迎来重磅更新！由复旦大学、上海财经大学、南洋理工大学联合打造的 MeViSv2 数据集正式发布，并已被顶刊 IEEE TPAMI 录用。

来自主题: AI技术研报

9592 点击 2025-12-29 09:07

近年来，多模态大语言模型正在经历一场快速的范式转变，新兴研究聚焦于构建能够联合处理和生成跨语言、视觉、音频以及其他潜在感官模态信息的统一全模态大模型。此类模型的目标不仅是感知全模态内容，还要将视觉理解和生成整合到统一架构中，从而实现模态间的协同交互。

来自主题: AI技术研报

8883 点击 2025-12-29 09:05

能自动查数据、写分析、画专业金融图表的AI金融分析师来了！最近，中国人民大学高瓴人工智能学院提出了一个面向真实金融投研场景的多模态研报生成系统——玉兰·融观（Yulan-FinSight）。

来自主题: AI资讯

8293 点击 2025-12-26 15:46

最近，清华大学教授、智谱AI首席科学家唐杰发了一条长微博，总结了自己2025年对大模型进展的感悟。从预训练到中后训练、长尾场景的对齐能力，再到Agent、多模态和具身智能的发展，其中有不少亮点。

来自主题: AI资讯

8893 点击 2025-12-26 15:42