AI资讯新闻榜单内容搜索-泛化

打破长视频理解瓶颈：HoPE混合位置编码提升VLM长度泛化能力

如今的视觉语言模型 (VLM, Vision Language Models) 已经在视觉问答、图像描述等多模态任务上取得了卓越的表现。然而，它们在长视频理解和检索等长上下文任务中仍表现不佳。

来自主题: AI技术研报

6916 点击 2025-06-30 10:24

AI 开始「自由玩电脑」了！吉大提出「屏幕探索者」智能体

迈向通用人工智能（AGI）的核心目标之一就是打造能在开放世界中自主探索并持续交互的智能体。随着大语言模型（LLMs）和视觉语言模型（VLMs）的飞速发展，智能体已展现出令人瞩目的跨领域任务泛化能力。

来自主题: AI技术研报

7263 点击 2025-06-28 11:18

北大腾讯突破奖励模型瓶颈！让AI理解人类偏好，泛化能力比肩GPT-4.1

总是“死记硬背”“知其然不知其所以然”？

来自主题: AI技术研报

5987 点击 2025-06-26 15:47

3D VLA新范式！CVPR冠军方案BridgeVLA，真机性能提升32%

中科院自动化所提出BridgeVLA模型，通过将3D输入投影为2D图像并利用2D热图进行动作预测，实现了高效且泛化的3D机器人操作学习。

来自主题: AI技术研报

9516 点击 2025-06-26 15:37

LLM进入「拖拽时代」！只靠Prompt，几秒定制一个大模型，效率飙升12000倍

最近，来自NUS、UT Austin等机构的研究人员创新性地提出了一种「拖拽式大语言模型」（DnD），它可以基于提示词快速生成模型参数，无需微调就能适应任务。不仅效率最高提升12000倍，而且具备出色的零样本泛化能力。

来自主题: AI技术研报

8426 点击 2025-06-24 14:26

放弃幻想！伯克利重磅：消灭幻觉，就是消灭AI！

关于大模型产生幻觉这个事，从2023年GPT火了以后，就一直是业界津津乐道的热门话题，但始终缺乏系统性的重磅研究来深入解释其根本机制。今天，伯克利的研究者们带来一个重要研究成果：让基于Transformer架构的语言模型产生幻觉的机制，恰恰也是让它们拥有超强泛化能力的关键。这就像是一枚硬币的两面，您想要哪一面，就得接受另一面的存在。

来自主题: AI技术研报

8339 点击 2025-06-23 09:47

英伟达笑到最后！训练2000步，1.5B逆袭7B巨兽，Scaling真来了

强化学习可以提升LLM推理吗？英伟达ProRL用超2000步训练配方给出了响亮的答案。仅15亿参数模型，媲美Deepseek-R1-7B，数学、代码等全面泛化。

来自主题: AI技术研报

7434 点击 2025-06-22 16:32

Z Tech | 对话 UCB、CMU、Meta AI具身智能研究团队：用AI“手”感世界——从旋转笔尖到具身智能的进化路径

近期，人工智能领域对“具身智能”的讨论持续升温——如何让AI不仅能“理解”语言，还能用“手”去感知世界、操作环境、完成任务？相比语言模型的迅猛发展，真正通向Agent的下一步，需要AI具备跨模态感知、动作控制与现实泛化能力。具身智能让AI不仅能“思考”，更能“感知”“行动”。

来自主题: AI资讯

7155 点击 2025-06-17 17:23

搜索智能体RAG落地不佳？UIUC开源s3，仅需2.4k样本，训练快效果好

当前，Agentic RAG（Retrieval-Augmented Generation）正逐步成为大型语言模型访问外部知识的关键路径。但在真实实践中，搜索智能体的强化学习训练并未展现出预期的稳定优势。一方面，部分方法优化的目标与真实下游需求存在偏离，另一方面，搜索器与生成器间的耦合也影响了泛化与部署效率。

来自主题: AI技术研报

7861 点击 2025-06-17 09:46

前智源团队创业，联想、智谱AI投了一家人形机器人大模型公司

有效解决真机数据稀缺与场景泛化的矛盾。

来自主题: AI资讯

7340 点击 2025-06-14 13:42