AI资讯新闻榜单内容搜索-LLM

破解多模态大模型“选择困难症”！内部决策机制首次揭秘：在冲突信息间疯狂"振荡"

多模态大语言模型（MLLMs）在处理来自图像和文本等多种来源的信息时能力强大。然而，一个关键挑战随之而来：当这些模态呈现相互冲突的信息时（例如，图像显示一辆蓝色汽车，而文本描述它为红色），MLLM必须解决这种冲突。模型最终输出与某一模态信息保持一致的行为，称之为“模态跟随”（modality following）

来自主题: AI技术研报

7249 点击 2025-11-14 13:54

Memory和RAG的区别在哪？用「上下文工程」做出个性化 AI（谷歌白皮书精读）

谷歌在第三天发布了《上下文工程：会话与记忆》(Context Engineering: Sessions & Memory) 白皮书。文中开篇指出，LLM模型本身是无状态的 (stateless)。如果要构建有状态的（stateful）和个性化的 AI，关键在于上下文工程。

来自主题: AI技术研报

5628 点击 2025-11-14 10:22

下一代目标检测模型：3B参数MLLM Rex-Omni首度超越Grounding DINO，统一10+视觉任务

多模态大语言模型（MLLM）在目标定位精度上被长期诟病，难以匹敌传统的基于坐标回归的检测器。近日，来自 IDEA 研究院的团队通过仅有 3B 参数的通用视觉感知模型 Rex-Omni，打破了这一僵局。

来自主题: AI技术研报

5418 点击 2025-11-14 10:18

2M大小模型定义表格理解极限，清华大学崔鹏团队开源LimiX-2M

提到 AI 的突破，人们首先想到的往往是大语言模型（LLM）：写代码、生成文本、甚至推理多模态内容，几乎重塑了通用智能的边界。但在一个看似 “简单” 的领域 —— 结构化表格数据上，这些强大的模型却频频失手。

来自主题: AI技术研报

8635 点击 2025-11-13 15:22

跨层压缩隐藏状态同时加速TTFT和压缩KV cache!

我们都知道 LLM 中存在结构化稀疏性，但其底层机制一直缺乏统一的理论解释。为什么模型越深，稀疏性越明显？为什么会出现所谓的「检索头」和「检索层」？

来自主题: AI技术研报

8927 点击 2025-11-13 15:19

让LLM像公司一样干活：微软把“思维并发”做成了协议，准确率更高、关键路径时延降28%

我们长期把LLM当成能独闯难关的“单兵”，在很多任务上，这确实有效。

来自主题: AI技术研报

8175 点击 2025-11-13 09:09

打破数据质量鸿沟！清华腾讯Bee项目发布1500万高质量数据集，刷新MLLM全栈开源SOTA

全开源多模态大模型（MLLM）的性能，长期被闭源和半开源模型“卡脖子”。

来自主题: AI技术研报

6843 点击 2025-11-11 16:39

3A大作！阿里ROLL团队从基建->算法->机理，推动RL4LLM全栈协同优化

近期，阿里巴巴 ROLL 团队（淘天未来生活实验室与阿里巴巴智能引擎团队）联合上海交通大学、香港科技大学推出「3A」协同优化框架 ——Async 架构（Asynchronous Training）、Asymmetric PPO（AsyPPO）与 Attention 机制（Attention-based Reasoning Rhythm），

来自主题: AI技术研报

7882 点击 2025-11-11 10:24

PixelRefer ：让AI从“看大图”走向“看懂每个对象”

多模态大模型（MLLMs）虽然在图像理解、视频分析上表现出色，但多停留在整体场景级理解。

来自主题: AI技术研报

10062 点击 2025-11-11 09:50

与DeepSeek-OCR不谋而合，NeurIPS论文提出让LLM像人一样读长文本

在处理短文本时，大语言模型（LLM）已经表现出惊人的理解和生成能力。但现实世界中的许多任务 —— 如长文档理解、复杂问答、检索增强生成（RAG）等 —— 都需要模型处理成千上万甚至几十万长度的上下文。

来自主题: AI技术研报

5764 点击 2025-11-10 15:12