AI资讯新闻榜单内容搜索-OCR

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: OCR

吴恩达开新课教OCR！用Agent搞定文档提取

吴恩达开新课教OCR！用Agent搞定文档提取

吴恩达开新课教OCR！用Agent搞定文档提取

随着AI大模型研发在架构、记忆、存储等等领域的深水区创新，OCR重新成为了技术专项。DeepSeek在研究、智谱在研究、阿里千问和腾讯混元也都在研究……还得是吴恩达老师，火速来了新课程，帮你速通OCR。

来自主题: AI资讯

9271 点击 2026-01-16 14:33

DeepSeek-OCR是「长文本理解」未来方向？中科院新基准VTCBench给出答案

DeepSeek-OCR是「长文本理解」未来方向？中科院新基准VTCBench给出答案

DeepSeek-OCR是「长文本理解」未来方向？中科院新基准VTCBench给出答案

近期，DeepSeek-OCR 凭借其创新的「视觉文本压缩」（Vision-Text Compression, VTC）范式引发了技术圈的高度关注。为了解答这一疑问，来自中科院自动化所、中国科学院香港创新研究院等机构的研究团队推出了首个专门针对视觉 - 文本压缩范式的基准测试 ——VTCBench。

来自主题: AI技术研报

8113 点击 2026-01-11 10:01

DeepSeek-OCR是「长文本理解」未来方向吗？中科院新基准给出答案

DeepSeek-OCR是「长文本理解」未来方向吗？中科院新基准给出答案

DeepSeek-OCR是「长文本理解」未来方向吗？中科院新基准给出答案

DeepSeek-OCR的视觉文本压缩（VTC）技术通过将文本编码为视觉Token，实现高达10倍的压缩率，大幅降低大模型处理长文本的成本。但是，视觉语言模型能否理解压缩后的高密度信息？中科院自动化所等推出VTCBench基准测试，评估模型在视觉空间中的认知极限，包括信息检索、关联推理和长期记忆三大任务。

来自主题: AI技术研报

6285 点击 2026-01-06 09:30

华为开源7B多模态模型，视觉定位和OCR能力出色，你的昇腾端侧“新甜点”来了

华为开源7B多模态模型，视觉定位和OCR能力出色，你的昇腾端侧“新甜点”来了

华为开源7B多模态模型，视觉定位和OCR能力出色，你的昇腾端侧“新甜点”来了

7B量级模型，向来是端侧部署与个人开发者的心头好。

来自主题: AI技术研报

7846 点击 2026-01-05 14:30

高精度知识库≠Milvus+llm！这份PaddleOCR+混合检索+Rerank技巧请收好

高精度知识库≠Milvus+llm！这份PaddleOCR+混合检索+Rerank技巧请收好

高精度知识库≠Milvus+llm！这份PaddleOCR+混合检索+Rerank技巧请收好

在大型语言模型（LLM）的应用落地中，RAG（检索增强生成）是解决模型幻觉和知识时效性的关键技术。

来自主题: AI技术研报

10718 点击 2025-12-16 09:18

准确率腰斩！大模型视觉能力一出日常生活就「失灵」

准确率腰斩！大模型视觉能力一出日常生活就「失灵」

准确率腰斩！大模型视觉能力一出日常生活就「失灵」

我们习惯了AI在屏幕上侃侃而谈、生成美图，好像它无所不知。但假如把它“扔”进一个真实的手术室，让它用主刀医生的第一视角来判断下一步该用哪把钳子，这位“学霸”很可能当场懵圈。

来自主题: AI技术研报

9792 点击 2025-12-09 10:37

混元OCR模型核心技术揭秘：统一框架、真端到端

混元OCR模型核心技术揭秘：统一框架、真端到端

混元OCR模型核心技术揭秘：统一框架、真端到端

腾讯混元大模型团队正式发布并开源HunyuanOCR模型！这是一款商业级、开源且轻量（1B参数）的OCR专用视觉语言模型，模型采用原生ViT和轻量LLM结合的架构。目前，该模型在抱抱脸（Hugging Face）趋势榜排名前四，GitHub标星超过700，并在Day 0被vllm官方团队接入。

来自主题: AI技术研报

8649 点击 2025-11-29 13:43

金山与华科发布多模态模型MonkeyOCR v1.5：文档解析能力超越PaddleOCR-VL，复杂表格解析首次突破90%

金山与华科发布多模态模型MonkeyOCR v1.5：文档解析能力超越PaddleOCR-VL，复杂表格解析首次突破90%

金山与华科发布多模态模型MonkeyOCR v1.5：文档解析能力超越PaddleOCR-VL，复杂表格解析首次突破90%

是金山派来的猴子，复杂文档解析有救了！

来自主题: AI技术研报

11801 点击 2025-11-18 15:16

与DeepSeek-OCR不谋而合，NeurIPS论文提出让LLM像人一样读长文本

与DeepSeek-OCR不谋而合，NeurIPS论文提出让LLM像人一样读长文本

与DeepSeek-OCR不谋而合，NeurIPS论文提出让LLM像人一样读长文本

在处理短文本时，大语言模型（LLM）已经表现出惊人的理解和生成能力。但现实世界中的许多任务 —— 如长文档理解、复杂问答、检索增强生成（RAG）等 —— 都需要模型处理成千上万甚至几十万长度的上下文。

来自主题: AI技术研报

7450 点击 2025-11-10 15:12

两周复刻DeepSeek-OCR！两人小团队还原低token高压缩核心，换完解码器更实用

两周复刻DeepSeek-OCR！两人小团队还原低token高压缩核心，换完解码器更实用

两周复刻DeepSeek-OCR！两人小团队还原低token高压缩核心，换完解码器更实用

两人小团队，仅用两周就复刻了之前被硅谷夸疯的DeepSeek-OCR？？复刻版名叫DeepOCR，还原了原版低token高压缩的核心优势，还在关键任务上追上了原版的表现。完全开源，而且无需依赖大规模的算力集群，在两张H200上就能完成训练。

来自主题: AI资讯

9261 点击 2025-11-07 15:22

上一页当前第2页,共7页下一页