AI资讯新闻榜单内容搜索-多模态

首个地球科学智能体Earth-Agent来了，解锁地球观测数据分析新范式

当强大的多模态大语言模型应用于地球科学研究时，它面临着无法忽视的「阿克琉斯之踵」

来自主题: AI技术研报

9230 点击 2025-10-28 14:45

相机参数秒变图片！新模型打通理解生成壁垒，支持任意视角图像创作

能看懂相机参数，并且生成相应视角图片的多模态模型来了。

来自主题: AI技术研报

4940 点击 2025-10-28 13:57

AI不再「炫技」，淘宝要让技术解决用户每一个具体问题

近日，在 CNCC2025 大会上，郑波首次公开了淘宝全模态大模型的最新进展，并系统介绍了多模态智能在淘宝 AIGX 技术体系的研究应用。另外，结合 AI 模型技术在淘宝应用中的实践，他认为，「狭义 AGI 很可能在 5-10 年内到来。」

来自主题: AI资讯

9069 点击 2025-10-28 13:31

Seedream 4.0大战Nano Banana、GPT-4o？EdiVal-Agent 终结图像编辑评测

在 AIGC 的下一个阶段，图像编辑（Image Editing）正逐渐取代一次性生成，成为检验多模态模型理解、生成与推理能力的关键场景。我们该如何科学、公正地评测这些图像编辑模型？

来自主题: AI技术研报

8049 点击 2025-10-25 14:26

死磕「文本智能」，多模态研究的下一个前沿

dots.ocr 支持多语言文档的解析，能够在单一模型中统一完成版面检测、文本识别、表格解析、公式提取等任务，并保持良好的阅读顺序。他们之所以在一个模型中完成这些任务，是因为他们相信这些任务之间可以相互促进，为彼此提供更多的 context，从而达到更高的性能上限。目前，该项目的 star 量已经超过了 5000。

来自主题: AI资讯

9368 点击 2025-10-25 10:41

HumanSense：探索多模态推理边界，打造「察言观色会共情」的全模态交互伙伴

在科幻作品描绘的未来，人工智能不仅仅是完成任务的工具，更是为人类提供情感陪伴与生活支持的伙伴。在实现这一愿景的探索中，多模态大模型已展现出一定潜力，可以接受视觉、语音等多模态的信息输入，结合上下文做出反馈。

来自主题: AI技术研报

8341 点击 2025-10-24 10:51

谷歌最强AI，被港科大开源超了？让海外创作者喊出「King Bomb」的P图大杀器来了

两周前，港科大讲座教授、冯诺依曼研究院院长贾佳亚团队开源了他们的最新成果 DreamOmni2，专门针对当前多模态指令编辑与生成两大方向的短板进行了系统性优化与升级。该系统基于 FLUX-Kontext 训练，保留原有的指令编辑与文生图能力，并拓展出多参考图的生成编辑能力，给予了创作者更高的灵活性与可玩性。

来自主题: AI资讯

9621 点击 2025-10-23 16:26