AI资讯新闻榜单内容搜索-DeepSeek-O

Gemini 3「开眼」像素级操控！谷歌回应DeepSeek-OCR2

没想到吧，Google DeepMind刚刚为Gemini 3 Flash推出了一个重量级新能力：Agentic Vision（智能体视觉）。（难道是被DeepSeek-OCR2给刺激到了？）

来自主题: AI资讯

10620 点击 2026-01-28 18:06

刚刚，DeepSeek又探索新架构了，开源OCR 2

嘿！刚刚，DeepSeek 又更新了！这次是更新了十月份推出的 DeepSeek-OCR 模型。刚刚发布的 DeepSeek-OCR 2 通过引入 DeepEncoder V2 架构，实现了视觉编码从「固定扫描」向「语义推理」的范式转变！

来自主题: AI资讯

9987 点击 2026-01-27 17:15

DeepSeek又拿第一！首创「因果流」视觉推理，超越Gemini

DeepSeek开源DeepSeek-OCR2，引入了全新的DeepEncoder V2视觉编码器。该架构打破了传统模型按固定顺序（从左上到右下）扫描图像的限制，转而模仿人类视觉的「因果流（Causal Flow）」逻辑。

来自主题: AI技术研报

6878 点击 2026-01-27 16:51

DeepSeek最新王炸模型：VLM架构重磅突破，AI像人一样读图

这一框架可用于集成额外文本、语音和视觉等多种模态。

来自主题: AI技术研报

10240 点击 2026-01-27 16:15

DeepSeek-OCR是「长文本理解」未来方向？中科院新基准VTCBench给出答案

近期，DeepSeek-OCR 凭借其创新的「视觉文本压缩」（Vision-Text Compression, VTC）范式引发了技术圈的高度关注。为了解答这一疑问，来自中科院自动化所、中国科学院香港创新研究院等机构的研究团队推出了首个专门针对视觉 - 文本压缩范式的基准测试 ——VTCBench。

来自主题: AI技术研报

8114 点击 2026-01-11 10:01

DeepSeek-OCR是「长文本理解」未来方向吗？中科院新基准给出答案

DeepSeek-OCR的视觉文本压缩（VTC）技术通过将文本编码为视觉Token，实现高达10倍的压缩率，大幅降低大模型处理长文本的成本。但是，视觉语言模型能否理解压缩后的高密度信息？中科院自动化所等推出VTCBench基准测试，评估模型在视觉空间中的认知极限，包括信息检索、关联推理和长期记忆三大任务。

来自主题: AI技术研报

6287 点击 2026-01-06 09:30

与DeepSeek-OCR不谋而合，NeurIPS论文提出让LLM像人一样读长文本

在处理短文本时，大语言模型（LLM）已经表现出惊人的理解和生成能力。但现实世界中的许多任务 —— 如长文档理解、复杂问答、检索增强生成（RAG）等 —— 都需要模型处理成千上万甚至几十万长度的上下文。

来自主题: AI技术研报

7454 点击 2025-11-10 15:12

两周复刻DeepSeek-OCR！两人小团队还原低token高压缩核心，换完解码器更实用

两人小团队，仅用两周就复刻了之前被硅谷夸疯的DeepSeek-OCR？？复刻版名叫DeepOCR，还原了原版低token高压缩的核心优势，还在关键任务上追上了原版的表现。完全开源，而且无需依赖大规模的算力集群，在两张H200上就能完成训练。

来自主题: AI资讯

9265 点击 2025-11-07 15:22

内存直降50%，token需求少56%！用视觉方式处理长文本

在NeurIPS 2025论文中，来自「南京理工大学、中南大学、南京林业大学」的研究团队提出了一个极具突破性的框架——VIST（Vision-centric Token Compression in LLM），为大语言模型的长文本高效推理提供了全新的「视觉解决方案」。值得注意的是，这一思路与近期引起广泛关注的DeepSeek-OCR的核心理念不谋而合。

来自主题: AI技术研报

9749 点击 2025-11-01 09:23

让你的Mac用上DeepSeek-OCR：一个从0到1的开源适配之旅

DeepSeek-OCR这段时间非常火，但官方开源的文件是“按 NVIDIA/CUDA 习惯写的 Linux 版推理脚本+模型权重”，而不是“跨设备跨后端”的通吃实现，因此无法直接在苹果设备上运行，对于Mac用户来说，在许多新模型诞生的第一时间，往往只能望“模”兴叹。

来自主题: AI技术研报

9474 点击 2025-10-29 17:10