AI资讯新闻榜单内容搜索-encoder

单个tokenizer胜任图像视频理解生成！南大&腾讯混元HYDRA打通多模态统一难题

南大王利民团队&腾讯混元的HYDRA系列（HYDRA，HYDRA-X）工作挑战了这个惯例，用一个基于ViT的统一视觉Tokenizer，帮助原生多模态模型更好地“看懂”和“创作”。训练一个基于ViT的Unified Tokenizer，使其同时具有理解和生成的能力，进而同时作为理解和生成的Autoencoder，来支持原生多模态模型（Unified Multimodal Models）的训练。

来自主题: AI技术研报

8185 点击 2026-06-28 11:13

多模态模型终于不用「抽帧看世界」？LLaVA-OneVision-2.0全开源全帧率技术解读

由格灵深瞳灵感实验室主导研发的 LLaVA-OneVision-2.0，是一款面向下一代感知智能的视觉语言大模型。团队充分利用视频 Codec 流和自研 OneVision-Encoder，实现跨帧、跨事件的增量观测和连续证据流建模。本文将详细介绍模型架构、训练方法与能力验证，展示该技术在视频理解、空间推理和目标追踪等任务中的应用潜力。

来自主题: AI技术研报

6335 点击 2026-06-03 15:03

Anthropic最新论文撬开大模型黑箱：隐藏动机发现率提升 4 倍以上

刚刚，Anthropic 发布论文《Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations》，试图用一套自然语言自动编码器（Natural Language Autoencoders，下文简称 NLA），撬开这个黑箱。

来自主题: AI技术研报

9300 点击 2026-05-08 14:33

腾讯纯文本LLM训视觉encoder，拿捏图表长视频，达到开源小模型SOTA！

打破多模态视觉+语言拼接套路！

来自主题: AI技术研报

7173 点击 2026-03-19 10:22

ICLR 2026 | 当视频难以被表征：UCSD、HKUST等机构联合提出FlowRVS，用生成式流匹配重构视觉感知范式

长期以来，计算机视觉领域陷入了一个 “表征（Representation）” 的执念。我们习惯设计各种精巧的 Encoder，试图将动态世界压缩成一组特征向量。然而，视频作为现实的高维投影，其熵值之高、动态之复杂，让这种试图 “定格” 的表征显得力不从心。

来自主题: AI技术研报

6625 点击 2026-03-05 09:08

刚刚，DeepSeek又探索新架构了，开源OCR 2

嘿！刚刚，DeepSeek 又更新了！这次是更新了十月份推出的 DeepSeek-OCR 模型。刚刚发布的 DeepSeek-OCR 2 通过引入 DeepEncoder V2 架构，实现了视觉编码从「固定扫描」向「语义推理」的范式转变！

来自主题: AI资讯

9987 点击 2026-01-27 17:15

DeepSeek又拿第一！首创「因果流」视觉推理，超越Gemini

DeepSeek开源DeepSeek-OCR2，引入了全新的DeepEncoder V2视觉编码器。该架构打破了传统模型按固定顺序（从左上到右下）扫描图像的限制，转而模仿人类视觉的「因果流（Causal Flow）」逻辑。

来自主题: AI技术研报

6878 点击 2026-01-27 16:51

RAE+VAE? 预训练表征助力扩散模型Tokenizer，加速像素压缩到语义提取

近期，RAE（Diffusion Transformers with Representation Autoencoders）提出以「冻结的预训练视觉表征」直接作为潜空间，以显著提升扩散模型的生成性能。

来自主题: AI技术研报

11708 点击 2025-11-14 10:21

谢赛宁新作：VAE退役，RAE当立

谢赛宁团队最新研究给出了答案——VAE的时代结束，RAE将接力前行。其中表征自编码器RAE（Representation Autoencoders）是一种用于扩散Transformer（DiT）训练的新型自动编码器，其核心设计是用预训练的表征编码器（如DINO、SigLIP、MAE 等）与训练后的轻量级解码器配对，从而替代传统扩散模型中依赖的VAE（变分自动编码器）。

来自主题: AI技术研报

8865 点击 2025-10-14 16:34

刚刚，阿里图像编辑大杀器Qwen-Image-Edit上线，横扫像素与语义编辑，网友：再见PS

今天凌晨，阿里推出了最新图像编辑模型 Qwen-Image-Edit！该模型基于 200 亿参数的 Qwen-Image 架构构建，支持中英文双语精准文本编辑，在保持原有风格的同时完成修改。此外，Qwen-Image-Edit 将输⼊图像同时输⼊到 Qwen2.5-VL（实现视觉语义控制）和 VAE Encoder（实现视觉外观控制），兼具语义与外观的双重编辑能⼒。

来自主题: AI资讯

10726 点击 2025-08-19 08:52