大模型如何准确读懂图表?微软亚研院教它“看、动手、推理”
大模型如何准确读懂图表?微软亚研院教它“看、动手、推理”多模态大模型(MLLM)在自然图像上已取得显著进展,但当问题落在图表、几何草图、科研绘图等结构化图像上时,细小的感知误差会迅速放大为推理偏差。
多模态大模型(MLLM)在自然图像上已取得显著进展,但当问题落在图表、几何草图、科研绘图等结构化图像上时,细小的感知误差会迅速放大为推理偏差。
在自动化需求中,传统的RPA(机器人流程自动化)主要解决规则明确的重复性任务,在当时是较为主流的解决方案。
每周我们都会和不少AI公司创业者交流,体验和评测新的AI产品,以各种方式去研究这些项目。
一款由10人团队打造的AI助手Poke,颠覆了传统AI的“讨好”形象。用户必须先“说服”一个AI门卫才能加入,并且订阅价格需要像谈生意一样,与这个风趣的AI“讨价还价”才能敲定。
一个研究者一天到底要读多少篇论文才能跟上最新趋势?在 AI 研究成果爆炸的今天,这个数字变得越来越模糊。人的阅读速度,早就跟不上 AI 科研地图扩展的速度了。
好消息:AI 越来越好用了。 坏消息:越用它越笨。
11月的第一天,一支12年周期的 AI Fund——「锦秋基金」办了一场 CEO 大会。
AI播客现在是否已成为了一门好生意?
在 AI 多模态的发展历程中,OpenAI 的 CLIP 让机器第一次具备了“看懂”图像与文字的能力,为跨模态学习奠定了基础。如今,来自 360 人工智能研究院冷大炜团队的 FG-CLIP 2 正式发布并开源,在中英文双语任务上全面超越 MetaCLIP 2 与 SigLIP 2,并通过新的细粒度对齐范式,补足了第一代模型在细节理解上的不足。
AI时代,人不再只是「社会关系的总和」,而是由无数数据、记录和互动的上下文构成的。