AI技术研报-这里有最前沿的人工智能技术解读

DeepSeek-OCR是「长文本理解」未来方向？中科院新基准VTCBench给出答案

近期，DeepSeek-OCR 凭借其创新的「视觉文本压缩」（Vision-Text Compression, VTC）范式引发了技术圈的高度关注。为了解答这一疑问，来自中科院自动化所、中国科学院香港创新研究院等机构的研究团队推出了首个专门针对视觉 - 文本压缩范式的基准测试 ——VTCBench。

来自主题: AI技术研报

6825 点击 2026-01-11 10:01

智能体「卷王」诞生！干活自动配结项报告，1.5张截图就把事说清了

SmartSnap的核心思想是将GUI智能体从“被动的执行者”转变为“主动的自证者”。简单来说，智能体在完成任务的同时，还会主动收集、筛选并提交一份“证据快照集”。

来自主题: AI技术研报

8177 点击 2026-01-11 10:01

打破学科壁垒！400篇参考文献重磅综述，统一调查「人脑×Agent」记忆系统

哈工大、鹏城实验室、新加坡国立、复旦、北大联合发布了一篇重磅综述《AI Meets Brain: A Unified Survey on Memory System from Cognitive Neuroscience to Autonomous Agents》，首次打破认知神经科学与人工智能之间的学科壁垒，系统性地将人脑记忆机制与 Agents 记忆统一审视，

来自主题: AI技术研报

8628 点击 2026-01-11 10:00

一年后，DeepSeek-R1的每token成本降到了原来的1/32

几天前，DeepSeek 毫无预兆地更新了 R1 论文，将原有的 22 页增加到了现在的 86 页。新版本充实了更多细节内容，包括首次公开训练全路径，即从冷启动、训练导向 RL、拒绝采样与再微调到全场景对齐 RL 的四阶段 pipeline，以及「Aha Moment」的数据化验证等等。

来自主题: AI技术研报

7187 点击 2026-01-10 17:02

杀死那篇PDF：一场由AI发起的学术出版大革命，正彻底终结传统论文

论文将汇总人类从出生到死亡每个神经元的活动情况。利用更完善的“分子记录带”（molecular ticker tape）技术，神经元每发出一个电脉冲，都会在其蛋白链上加上一段荧光分子。通过对这些蛋白链进行测序，可以获得神经元整个生命周期内神经活动的完整历史记录。同时对每个神经元的mRNA进行测序，可以确定它属于10.4万个神经元类型中的哪一种。

来自主题: AI技术研报

6840 点击 2026-01-10 17:00

AAAI 2026 Oral | 大模型「爱你在心口难开」？深度隐藏认知让推理更可靠

近年来，大语言模型在算术、逻辑、多模态理解等任务上之所以取得显著进展，很大程度上依赖于思维链（CoT）技术。所谓 CoT，就是让模型在给出最终答案前，先生成一系列类似「解题步骤」的中间推理。这种方式

来自主题: AI技术研报

5337 点击 2026-01-10 17:00

一文搞懂 Agents 评测丨Anthropic 最新万字长文

Agent 并不是一次性输出的系统。它们运行在多轮交互之中：调用工具、修改内部状态、根据中间结果不断调整策略。也正是这些让 Agent 变得有用的能力 ——自主性、智能性与灵活性 —— 同时也让它们变得更难以评估。

来自主题: AI技术研报

7208 点击 2026-01-10 10:36

大模型如何泛化出多智能体推理能力？清华提出策略游戏自博弈方案MARSHAL

近日，清华大学等机构的研究团队提出了 MARSHAL 框架。该框架利用强化学习，让大模型在策略游戏中进行自博弈（Self-Play）。实验表明，这种多轮、多智能体训练不仅提升了模型在游戏中的博弈决策水

来自主题: AI技术研报

8021 点击 2026-01-10 10:16

让世界模型推理效率提升70倍：上海AI Lab用“恒算力”破解长时记忆与交互瓶颈

上海AI Lab联合多家机构开源的Yume1.5，针对这一核心难题提出了时空信道联合建模（TSCM），在长视频生成中实现了近似恒定计算成本的全局记忆访问。

来自主题: AI技术研报

6895 点击 2026-01-09 14:36

CaveAgent让LLM学会了“跑代码”，你能把Agent变成Jupyter里的“老司机”

CaveAgent的核心思想很简单：与其让LLM费力地去“读”数据的文本快照，不如给它一个如果不手动重启、变量就永远“活着”的 Jupyter Kernel。这项由香港科技大学（HKUST）领衔的研究，为我们展示了一种“Code as Action, State as Memory”的全新可能性。它解决了所有开发过复杂Agent的工程师最头疼的多轮对话中的“失忆”与“漂移”问题。

来自主题: AI技术研报

8022 点击 2026-01-09 14:34

AI月产十亿行代码，暴增76%！程序员论坛炸锅：代码行数≠生产力！

想知道硅谷的程序员怎么使用AI编程，被2000家公司使用的AI代码审查智能体Greptile基于每月用AI审核的的十亿行代码，发布了AI编程年度报告，揭示了使用AI编程后带来的生产率提升，但对此程序员们却无法感同身受。

来自主题: AI技术研报

7551 点击 2026-01-09 11:47

Transformer已死？DeepMind正在押注另一条AGI路线

借鉴人类联想记忆，嵌套学习让AI在运行中构建抽象结构，超越Transformer的局限。谷歌团队强调：优化器与架构互为上下文，协同进化才能实现真正持续学习。这篇论文或成经典，开启AI从被动训练到主动进化的大门。

来自主题: AI技术研报

9272 点击 2026-01-09 11:24

「听觉」引导「视觉」，OmniAgent开启全模态主动感知新范式

针对端到端全模态大模型（OmniLLMs）在跨模态对齐和细粒度理解上的痛点，浙江大学、西湖大学、蚂蚁集团联合提出 OmniAgent。这是一种基于「音频引导」的主动感知 Agent，通过「思考 - 行动 - 观察 - 反思」闭环，实现了从被动响应到主动探询的范式转变。

来自主题: AI技术研报

6222 点击 2026-01-09 10:54

都有混合检索与智能路由了，谁还在给RAG赛博哭坟？

最近一年，互联网上各种为RAG赛博哭坟的帖子不胜枚举。

来自主题: AI技术研报

9140 点击 2026-01-09 10:53

手把手教学NotebookLM生成细节可控，页数可控ppt

在上期内容发布后有很多小伙伴都反馈很好用 NotebookLM改不了细节？提示词 V2.0 生成既有质感，又能随意修改文字的完美 PPT

来自主题: AI技术研报

7689 点击 2026-01-09 09:49

美国AI一骑绝尘，中国平均落后7个月！Epoch AI新报告出炉

一张来自Epoch AI图表给出了一个冷静却尖锐的结论：中国AI平均落后7个月。一张图揭示真相：自2023年以来，前沿AI全部来自美国！最近，Epoch AI一份报告指出，中国AI模型的进展平均落后于美国7个月——最小差距为4个月，最大差距为14个月。

来自主题: AI技术研报

7669 点击 2026-01-08 16:16

从过拟合到通用！ViMoGen开启3D人体动作生成新纪元

随着 AIGC（Artificial Intelligence Generated Content）的爆发，我们已经习惯了像 Sora 或 Wan 这样的视频生成模型能够理解「一只宇航员在火星后空翻」这样天马行空的指令。然而，3D 人体动作生成（3D MoGen）领域却稍显滞后。

来自主题: AI技术研报

7969 点击 2026-01-08 16:13

深入感知级别图像理解：UniPercept 统一图像美学、质量与结构纹理感知

尽管多模态大语言模型（MLLMs）在识别「图中有什么」这一语义层面上取得了巨大进步，但在理解「图像看起来怎么样」这一感知层面上仍显乏力。

来自主题: AI技术研报

5607 点击 2026-01-08 15:23

多模态推理新范式！DiffThinker：用扩散模型「画」出推理和答案

在多模态大模型（MLLMs）领域，思维链（CoT）一直被视为提升推理能力的核心技术。然而，面对复杂的长程、视觉中心任务，这种基于文本生成的推理方式正面临瓶颈：文本难以精确追踪视觉信息的变化。形象地说，模型不知道自己想到哪一步了，对应图像是什么状态。

来自主题: AI技术研报

6247 点击 2026-01-08 15:20

毫无征兆！DeepSeek R1爆更86页论文，这才是真正的Open

两天前，DeepSeek悄无声息地把R1的论文更新了，从原来22页「膨胀」到86页。DeepSeek向世界证明：开源不仅能追平闭源，还能教闭源做事！

来自主题: AI技术研报

8406 点击 2026-01-08 11:44

清华00后揪出AI幻觉元凶：仅0.1%神经元，一按就老实

近日，清华大学团队从 AI 里找到了与幻觉产生高度关联的少数“脑细胞”，并给它们起了一个名字 H-神经元（幻觉神经元）。他们发现拨动这些小开关能显著调节 AI 的行为倾向——例如影响它是否会盲目听从错误指令、甚至是否会产生有害回答。

来自主题: AI技术研报

7612 点击 2026-01-08 09:25

谷歌看了都沉默：自家「黑科技」火了，但为啥研发团队一无所知？

当整个科技圈都在为「谷歌黑魔法」集体高潮时，真相恐给了所有人一记耳光。那套被捧上神坛的「并行验证循环」，不过是社交网络上AI生成的「赛博跳大神」。

来自主题: AI技术研报

9073 点击 2026-01-08 08:44

清华孙茂松团队 × 深言科技：以解释作为训练信号，让 8B 模型在幻觉检测上反超闭源大模型

FaithLens 模型在忠实性幻觉检测任务上，达到了当前最优效果。

来自主题: AI技术研报

8034 点击 2026-01-08 08:43

GUI都流行四十年了！数据库操作怎么还和DOS一样难搞？

今天在讲Milvus的Attu之前，我们先来唠一段计算机行业的八卦。

来自主题: AI技术研报

7682 点击 2026-01-08 08:42

CC直接用，Manus核心Context技术被人做成了Skills

planning-with-files是开源社区最近疯传的一个Skill，发布仅四天收获3.3k star。目前还在持续增长。

来自主题: AI技术研报

9220 点击 2026-01-08 08:39

1人顶1个Infra团队！OpenAI前CTO新招，让大模型训练跌成白菜价

当大模型竞争转向后训练，继续为闲置显卡烧钱无异于「慢性自杀」。如今，按Token计费的Serverless模式，彻底终结了算力租赁的暴利时代，让算法工程师真正拥有了定义物理世界的权利。

来自主题: AI技术研报

7127 点击 2026-01-07 18:35

Anthropic 社区负责人连更31条Claude Code技巧！比Claude Code创始人私藏的还硬核

昨天，Claude Code 的创造者 Boris Cherny 在 X 上发了一条长推，分享了他自己使用 CC 的 13 条私藏技巧，将近 400 万的阅读量，我昨天一睁眼几乎被刷屏了。

来自主题: AI技术研报

5883 点击 2026-01-07 17:25

分享6个平时我最常用的Prompt心法。

已经2026年了，其实还是看到很多朋友，说不知道怎么能更好的跟AI对话。

来自主题: AI技术研报

7852 点击 2026-01-07 17:24

prompt比拖拉拽更适合新手做复杂agent！LangSmith+Milvus教程

过去一段时间，我们介绍了很多小白入门级的agent框架，也介绍了包括langchain在内的很多专业级agent搭建框架。

来自主题: AI技术研报

8124 点击 2026-01-07 17:23

注意力机制大变革？Bengio团队找到了一种超越Transformer的硬件对齐方案

Transformer 已经改变了世界，但也并非完美，依然还是有竞争者，比如线性递归（Linear Recurrences）或状态空间模型（SSM）。这些新方法希望能够在保持模型质量的同时显著提升计算性能和效率。

来自主题: AI技术研报

8463 点击 2026-01-07 17:22