AI资讯新闻榜单内容搜索-CLI

360开源高质量图文对齐数据集！收纳1200万张图像+1000万组细粒度负样本，让模型告别“图文不符”

如何让CLIP模型更关注细粒度特征学习，避免“近视”？360人工智能研究团队提出了FG-CLIP，可以明显缓解CLIP的“视觉近视”问题。让模型能更关注于正确的细节描述，而不是更全局但是错误的描述。

来自主题: AI技术研报

9521 点击 2025-06-02 15:17

在复杂、未知的现实环境中，传统导航方法往往依赖闭集语义或事先构建的地图，难以实现真正的“按需探索”。为打破这一瓶颈，本文提出了 FindAnything ——一套融合视觉语言模型的对象为中心、开放词汇三维建图与探索系统。

来自主题: AI技术研报

6876 点击 2025-05-06 10:23

新的亿级大规模图文对数据集来了，CLIP达成新SOTA！

来自主题: AI技术研报

7603 点击 2025-04-29 15:47

不止GPT-4o可以制作吉卜力风格图像！更多工具都可以制作吉卜力风图像。甚至2分钟之内，还能用照片生成吉卜力风格动画：蒙娜丽莎给你说Hello。

来自主题: AI资讯

8427 点击 2025-04-17 16:24

在今天凌晨1点的产品发布中，OpenAI还开源了一个终端轻量级代码Agent智能体——Codex CLI。

来自主题: AI资讯

7677 点击 2025-04-17 11:04

满血版o3和o4-mini深夜登场，首次将图像推理融入思维链，还会自主调用工具，60秒内破解复杂难题。尤其是，o3以十倍o1算力刷新编程、数学、视觉推理SOTA，接近「天才水平」。此外，OpenAI还开源了编程神器Codex CLI，一夜爆火。

来自主题: AI资讯

10530 点击 2025-04-17 08:43

MCP 协议遵循互联网常见的 C / S 架构，即客户端（Client）- 服务器（Server）架构。

来自主题: AI技术研报

9166 点击 2025-04-14 10:04

LeCun谢赛宁等研究人员通过新模型Web-SSL验证了SSL在多模态任务中的潜力，证明其在扩展模型和数据规模后，能媲美甚至超越CLIP。这项研究为无语言监督的视觉预训练开辟新方向，并计划开源模型以推动社区探索。

来自主题: AI技术研报

8512 点击 2025-04-07 15:09

扩展无语言的视觉表征学习。

来自主题: AI技术研报

7459 点击 2025-04-03 15:06

CLIP、DINO、SAM 基座的重磅问世，推动了各个领域的任务大一统，也促进了多模态大模型的蓬勃发展。

来自主题: AI技术研报

9438 点击 2025-03-18 17:20