AI资讯新闻榜单内容搜索-视觉智能

500行极简开源框架，硬刚GPT/Gemini视觉极限！

多模态模型代码写得像老司机，却在数手指、量柱子时频频翻车？UniPat AI用五百行代码打造的SWE-Vision，让模型「掏出Python尺子」自我验证，一举拿下五大视觉相关基准SOTA。

来自主题: AI资讯

8138 点击 2026-03-16 15:08

UniPat AI开源SWE-Vision：五百行代码打造SOTA视觉智能体！

多模态大模型在代码能力上进步惊人，但在基础视觉任务上却频繁失误。UniPat AI 构建了一个极简的视觉智能体框架 ——SWE-Vision，让模型可以编写并执行 Python 代码来处理和验证自己的视觉判断。在五个主流视觉基准测试中，SWE-Vision 均达到了当前最优水平。

来自主题: AI技术研报

9595 点击 2026-03-16 14:25

让VLM学会「心中有世界」：VAGEN用多轮RL把视觉智能变成「世界模型」推理机器

当今的 AI 智能体（Agent）越来越强大，尤其是像 VLM（视觉-语言模型）这样能「看懂」世界的智能体。但研究者发现一个大问题：相比于只处理文本的 LLM 智能体，VLM 智能体在面对复杂的视觉任务时，常常表现得像一个「莽撞的执行者」，而不是一个「深思熟虑的思考者」。

来自主题: AI技术研报

8158 点击 2025-10-28 09:26

库克虎口夺食：马斯克盯上的北大校友AI公司被苹果抢走

库克和马斯克都盯上的CV公司！打开Prompt AI官网，上面介绍了这家公司的定位：一家专注于消费应用视觉智能的AI公司。这家总部位于旧金山的初创公司，其核心团队非常UC伯克利范儿：

来自主题: AI资讯

11035 点击 2025-10-11 15:56

苹果 AI「百亿补贴」来了：免费开放端侧模型，不跟 OpenAI 卷

今年苹果在 AI 上宣布的诸多所谓新功能，例如实时翻译、快捷指令等，并无太多革命性；至于视觉智能 (visual intelligence)，不仅功能落后 Google Lens 六七年，交互体验上也远未达到一众 Android 友商的内置 AI/Agent 产品在 2025 上半年水平。

来自主题: AI资讯

9692 点击 2025-06-10 19:17

对话肖特特：从伯克利到PromptAI创业，发明创造下一代视觉智能

通用语言模型率先起跑，但通用视觉模型似乎迟到了一步。究其原因，语言中蕴含大量序列信息，能做更深入的推理；而视觉模型的输入内容更加多元、复杂，输出的任务要求多种多样，需要对物体在时间、空间上的连续性有完善的感知，传统的学习方法数据量大、经济属性上也不理性...... 还没有一套统一的算法来解决计算机对空间信息的理解。

来自主题: AI资讯

10458 点击 2024-12-16 10:48