AI资讯新闻榜单内容搜索-多模态

AAAI 2026 Oral | 悉尼科技大学联合港理工打破「一刀切」，联邦推荐如何实现「千人千面」的图文融合？

在推荐系统迈向多模态的今天，如何兼顾数据隐私与个性化图文理解？悉尼科技大学龙国栋教授团队联合香港理工大学杨强教授、张成奇教授团队，提出全新框架 FedVLR。该工作解决了联邦环境下多模态融合的异质性难题，已被人工智能顶级会议 AAAI 2026 接收为 Oral Presentation。

来自主题: AI技术研报

8918 点击 2025-11-25 15:30

LUMA AI完成由HUMAIN领投的9亿美元C轮融资，并将在沙特阿拉伯合作建设2吉瓦AI超级集群

新的资金和算力基础设施将加速 Luma AI 通往多模态 AGI 的路径 —— 即能够模拟现实并在物理世界中帮助人类的 AI。

来自主题: AI资讯

7016 点击 2025-11-25 10:38

谷歌Gemini 3夜袭全球，暴击GPT-5.1！奥特曼罕见祝贺

凌晨，谷歌终极杀器Gemini 3重磅来袭，一出手就是Pro顶配版，号称「史上最强推理+多模态+氛围编程」三合一AI战神！基准测试横扫全场，就连GPT-5.1也被斩于马下，AI的下一个时代开启。而且，一上来就是顶配的Gemini 3 Pro——迄今推理最强，多模态理解最强，以及「智能体」+「氛围编程」最强的模型！

来自主题: AI资讯

10161 点击 2025-11-19 10:14

医疗AI智能体全面综述：行业爆发，年增长130%！

AI智能体正把医疗AI从「看片子」升级成会思考、能行动的「医生搭档」。研究人员发表的最新综述，用通俗语言拆解智能体如何读懂多模态数据、像专家一样规划决策，又能扮演医生、护士、健康管家等多重角色；同时提醒：越智能越危险，必须配套严格评估、隐私保护与伦理护栏，才敢让它走进真实诊疗。

来自主题: AI技术研报

8466 点击 2025-11-19 09:06

金山与华科发布多模态模型MonkeyOCR v1.5：文档解析能力超越PaddleOCR-VL，复杂表格解析首次突破90%

是金山派来的猴子，复杂文档解析有救了！

来自主题: AI技术研报

11811 点击 2025-11-18 15:16

Lumina-DiMOO：多模态扩散语言模型重塑图像生成与理解

上海人工智能实验室推出了一款革新的多模态生成理解一体化的扩散语言模型 ——Lumina-DiMOO。基于离散扩散建模（Discrete Diffusion Modeling），Lumina-DiMOO 打破了多模态任务之间的壁垒，在同一离散扩散框架下，完成从文本→图像、图像→图像、图像→文本的全栈能力闭环。

来自主题: AI技术研报

9415 点击 2025-11-17 14:33

VinciCoder：多模态统一代码生成框架和视觉反馈强化学习，数据代码模型权重已开源

长期以来，多模态代码生成（Multimodal Code Generation）的训练严重依赖于特定任务的监督微调（SFT）。尽管这种范式在 Chart-to-code 等单一任务上取得了显著成功，但其 “狭隘的训练范围” 从根本上限制了模型的泛化能力，阻碍了通用视觉代码智能（Generalized VIsioN Code Intelligence）的发展。

来自主题: AI技术研报

10000 点击 2025-11-17 14:32