AI资讯新闻榜单内容搜索-Qwen2.5-VL

3B Image Captioning小钢炮重磅来袭，性能比肩Qwen2.5-VL-72B

今天推荐一个 Dense Image Captioning 的最新技术 —— CapRL (Captioning Reinforcement Learning)。CapRL 首次成功将 DeepSeek-R1 的强化学习方法应用到 image captioning 这种开放视觉任务，创新的以实用性重新定义 image captioning 的 reward。

来自主题: AI技术研报

10619 点击 2025-10-29 10:24

十亿级参数，千亿级性能，上海AI Lab发布新一代文档解析大模型，复杂场景解析精度媲美人类专家

上海人工智能实验室发布新一代文档解析大模型——MinerU2.5。作为MinerU系列最新成果，该模型仅以1.2B参数规模，就在OmniDocBench、olmOCR-bench、Ocean-OCR等权威评测上，全面超越Gemini2.5-Pro、GPT-4o、Qwen2.5-VL-72B等主流通用大模型，以及dots.ocr、MonkeyOCR、PP-StructureV3等专业文档解析工具。

来自主题: AI技术研报

9998 点击 2025-09-30 10:45

多模态新旗舰MiniCPM-V 4.5：8B 性能超越 72B，高刷视频理解又准又快

今天，我们正式开源 8B 参数的面壁小钢炮 MiniCPM-V 4.5 多模态旗舰模型，成为行业首个具备“高刷”视频理解能力的多模态模型，看得准、看得快，看得长！高刷视频理解、长视频理解、OCR、文档解析能力同级 SOTA，且性能超过 Qwen2.5-VL 72B，堪称最强端侧多模态模型。

来自主题: AI资讯

11325 点击 2025-08-26 23:30

刚刚，阿里图像编辑大杀器Qwen-Image-Edit上线，横扫像素与语义编辑，网友：再见PS

今天凌晨，阿里推出了最新图像编辑模型 Qwen-Image-Edit！该模型基于 200 亿参数的 Qwen-Image 架构构建，支持中英文双语精准文本编辑，在保持原有风格的同时完成修改。此外，Qwen-Image-Edit 将输⼊图像同时输⼊到 Qwen2.5-VL（实现视觉语义控制）和 VAE Encoder（实现视觉外观控制），兼具语义与外观的双重编辑能⼒。

来自主题: AI资讯

10739 点击 2025-08-19 08:52

32B本地部署！阿里开源最新多模态模型：主打视觉语言，数学推理也很强

就在DeepSeek-V3更新的同一夜，阿里通义千问Qwen又双叒叕一次梦幻联动了——

来自主题: AI资讯

11480 点击 2025-03-25 11:47