DeepSeek-OCR是「长文本理解」未来方向吗?中科院新基准给出答案
DeepSeek-OCR是「长文本理解」未来方向吗?中科院新基准给出答案DeepSeek-OCR的视觉文本压缩(VTC)技术通过将文本编码为视觉Token,实现高达10倍的压缩率,大幅降低大模型处理长文本的成本。但是,视觉语言模型能否理解压缩后的高密度信息?中科院自动化所等推出VTCBench基准测试,评估模型在视觉空间中的认知极限,包括信息检索、关联推理和长期记忆三大任务。
搜索
DeepSeek-OCR的视觉文本压缩(VTC)技术通过将文本编码为视觉Token,实现高达10倍的压缩率,大幅降低大模型处理长文本的成本。但是,视觉语言模型能否理解压缩后的高密度信息?中科院自动化所等推出VTCBench基准测试,评估模型在视觉空间中的认知极限,包括信息检索、关联推理和长期记忆三大任务。
为什么大模型厂商给了 128K 的上下文窗口,却在计费上让长文本显著更贵?
周五凌晨,OpenAI 发布 GPT-5.2-Codex,这是迄今为止最先进的智能体编码模型,专为复杂的实际软件工程而设计。GPT-5.2-Codex 是 GPT-5.2 的升级版本,提高了指令遵循能力、对长远语境的理解能力,它针对 Codex 中的智能体编码进行了进一步优化,包括通过上下文压缩改进长期工作。
从 0 到上线,在OpenAI内部,安卓版 Sora经历的时间只有 28 天,而且期间只用了 2-3 名员工。
压缩即智能,又有新进展!
从去年到今年,清华大学教授张数一和团队连着两个冬天做出两个“AI+蛋白质”成果,它们分别是极速压缩与智能重建蛋白质序列空间的 EvoAI,以及能够 24 小时昼夜不停、全自动进化蛋白质的 iAutoEvoLab 工厂。相关论文分别发表于 Nature Methods 和 Nature Chemical Engineering。
Hi,早上好。 我是洛小山,和你聊聊 AI 应用的降本增效。
50年的蛋白质结构难题,被AI压缩到几分钟!Nature最新盘点显示,AlphaFold已被330万研究者使用。在土耳其,两位本科生借助这个免费工具完成15篇结构研究,撕开科研壁垒的裂缝。科研世界第一次以「数字速度」前进。
OpenAI于2025年11月22号震撼发布GPT-5早期实验报告,揭示了AI从「聊天机器人」向拥有逻辑直觉的「硅基科研员」进化的里程碑式飞跃。从协助破解困扰数学界数十年的Erdős谜题,到将数月的生物实验推理压缩至几分钟,GPT-5展现了惊人的跨学科洞察力与推理质变。这份报告宣告了AI4S时代的降临:AI是科学家手中那架穿透未知迷雾的「认知望远镜」。
这两年,写代码这件事变了。GitHub Copilot、Cursor、Devin 一路登场,工程师开始习惯“打一段话,几千行代码自己长出来”。写得出东西,变得前所未有地容易。但很快大家发现,真正拖住上线节奏的,不再是「能不能写出来」,而是「敢不敢放上生产环境」——代码量指数级增长,验证、回归、极端场景覆盖反而被彻底压缩,测试成了 AI 时代新的“硬瓶颈”。