AI技术研报-这里有最前沿的人工智能技术解读

CaveAgent让LLM学会了“跑代码”，你能把Agent变成Jupyter里的“老司机”

CaveAgent的核心思想很简单：与其让LLM费力地去“读”数据的文本快照，不如给它一个如果不手动重启、变量就永远“活着”的 Jupyter Kernel。这项由香港科技大学（HKUST）领衔的研究，为我们展示了一种“Code as Action, State as Memory”的全新可能性。它解决了所有开发过复杂Agent的工程师最头疼的多轮对话中的“失忆”与“漂移”问题。

来自主题: AI技术研报

9469 点击 2026-01-09 14:34

AI月产十亿行代码，暴增76%！程序员论坛炸锅：代码行数≠生产力！

想知道硅谷的程序员怎么使用AI编程，被2000家公司使用的AI代码审查智能体Greptile基于每月用AI审核的的十亿行代码，发布了AI编程年度报告，揭示了使用AI编程后带来的生产率提升，但对此程序员们却无法感同身受。

来自主题: AI技术研报

9775 点击 2026-01-09 11:47

Transformer已死？DeepMind正在押注另一条AGI路线

借鉴人类联想记忆，嵌套学习让AI在运行中构建抽象结构，超越Transformer的局限。谷歌团队强调：优化器与架构互为上下文，协同进化才能实现真正持续学习。这篇论文或成经典，开启AI从被动训练到主动进化的大门。

来自主题: AI技术研报

10710 点击 2026-01-09 11:24

「听觉」引导「视觉」，OmniAgent开启全模态主动感知新范式

针对端到端全模态大模型（OmniLLMs）在跨模态对齐和细粒度理解上的痛点，浙江大学、西湖大学、蚂蚁集团联合提出 OmniAgent。这是一种基于「音频引导」的主动感知 Agent，通过「思考 - 行动 - 观察 - 反思」闭环，实现了从被动响应到主动探询的范式转变。

来自主题: AI技术研报

7718 点击 2026-01-09 10:54

都有混合检索与智能路由了，谁还在给RAG赛博哭坟？

最近一年，互联网上各种为RAG赛博哭坟的帖子不胜枚举。

来自主题: AI技术研报

10433 点击 2026-01-09 10:53

手把手教学NotebookLM生成细节可控，页数可控ppt

在上期内容发布后有很多小伙伴都反馈很好用 NotebookLM改不了细节？提示词 V2.0 生成既有质感，又能随意修改文字的完美 PPT

来自主题: AI技术研报

11020 点击 2026-01-09 09:49

美国AI一骑绝尘，中国平均落后7个月！Epoch AI新报告出炉

一张来自Epoch AI图表给出了一个冷静却尖锐的结论：中国AI平均落后7个月。一张图揭示真相：自2023年以来，前沿AI全部来自美国！最近，Epoch AI一份报告指出，中国AI模型的进展平均落后于美国7个月——最小差距为4个月，最大差距为14个月。

来自主题: AI技术研报

9638 点击 2026-01-08 16:16

从过拟合到通用！ViMoGen开启3D人体动作生成新纪元

随着 AIGC（Artificial Intelligence Generated Content）的爆发，我们已经习惯了像 Sora 或 Wan 这样的视频生成模型能够理解「一只宇航员在火星后空翻」这样天马行空的指令。然而，3D 人体动作生成（3D MoGen）领域却稍显滞后。

来自主题: AI技术研报

9634 点击 2026-01-08 16:13

深入感知级别图像理解：UniPercept 统一图像美学、质量与结构纹理感知

尽管多模态大语言模型（MLLMs）在识别「图中有什么」这一语义层面上取得了巨大进步，但在理解「图像看起来怎么样」这一感知层面上仍显乏力。

来自主题: AI技术研报

7107 点击 2026-01-08 15:23

多模态推理新范式！DiffThinker：用扩散模型「画」出推理和答案

在多模态大模型（MLLMs）领域，思维链（CoT）一直被视为提升推理能力的核心技术。然而，面对复杂的长程、视觉中心任务，这种基于文本生成的推理方式正面临瓶颈：文本难以精确追踪视觉信息的变化。形象地说，模型不知道自己想到哪一步了，对应图像是什么状态。

来自主题: AI技术研报

7824 点击 2026-01-08 15:20

毫无征兆！DeepSeek R1爆更86页论文，这才是真正的Open

两天前，DeepSeek悄无声息地把R1的论文更新了，从原来22页「膨胀」到86页。DeepSeek向世界证明：开源不仅能追平闭源，还能教闭源做事！

来自主题: AI技术研报

9565 点击 2026-01-08 11:44

清华00后揪出AI幻觉元凶：仅0.1%神经元，一按就老实

近日，清华大学团队从 AI 里找到了与幻觉产生高度关联的少数“脑细胞”，并给它们起了一个名字 H-神经元（幻觉神经元）。他们发现拨动这些小开关能显著调节 AI 的行为倾向——例如影响它是否会盲目听从错误指令、甚至是否会产生有害回答。

来自主题: AI技术研报

9199 点击 2026-01-08 09:25

谷歌看了都沉默：自家「黑科技」火了，但为啥研发团队一无所知？

当整个科技圈都在为「谷歌黑魔法」集体高潮时，真相恐给了所有人一记耳光。那套被捧上神坛的「并行验证循环」，不过是社交网络上AI生成的「赛博跳大神」。

来自主题: AI技术研报

10303 点击 2026-01-08 08:44

清华孙茂松团队 × 深言科技：以解释作为训练信号，让 8B 模型在幻觉检测上反超闭源大模型

FaithLens 模型在忠实性幻觉检测任务上，达到了当前最优效果。

来自主题: AI技术研报

9580 点击 2026-01-08 08:43

GUI都流行四十年了！数据库操作怎么还和DOS一样难搞？

今天在讲Milvus的Attu之前，我们先来唠一段计算机行业的八卦。

来自主题: AI技术研报

9336 点击 2026-01-08 08:42

CC直接用，Manus核心Context技术被人做成了Skills

planning-with-files是开源社区最近疯传的一个Skill，发布仅四天收获3.3k star。目前还在持续增长。

来自主题: AI技术研报

11178 点击 2026-01-08 08:39

1人顶1个Infra团队！OpenAI前CTO新招，让大模型训练跌成白菜价

当大模型竞争转向后训练，继续为闲置显卡烧钱无异于「慢性自杀」。如今，按Token计费的Serverless模式，彻底终结了算力租赁的暴利时代，让算法工程师真正拥有了定义物理世界的权利。

来自主题: AI技术研报

8583 点击 2026-01-07 18:35

Anthropic 社区负责人连更31条Claude Code技巧！比Claude Code创始人私藏的还硬核

昨天，Claude Code 的创造者 Boris Cherny 在 X 上发了一条长推，分享了他自己使用 CC 的 13 条私藏技巧，将近 400 万的阅读量，我昨天一睁眼几乎被刷屏了。

来自主题: AI技术研报

7657 点击 2026-01-07 17:25

分享6个平时我最常用的Prompt心法。

已经2026年了，其实还是看到很多朋友，说不知道怎么能更好的跟AI对话。

来自主题: AI技术研报

9904 点击 2026-01-07 17:24

prompt比拖拉拽更适合新手做复杂agent！LangSmith+Milvus教程

过去一段时间，我们介绍了很多小白入门级的agent框架，也介绍了包括langchain在内的很多专业级agent搭建框架。

来自主题: AI技术研报

9787 点击 2026-01-07 17:23

注意力机制大变革？Bengio团队找到了一种超越Transformer的硬件对齐方案

Transformer 已经改变了世界，但也并非完美，依然还是有竞争者，比如线性递归（Linear Recurrences）或状态空间模型（SSM）。这些新方法希望能够在保持模型质量的同时显著提升计算性能和效率。

来自主题: AI技术研报

9864 点击 2026-01-07 17:22

大模型最难的AI Infra，用Vibe Coding搞定

Andrej Karpathy 大神力荐的 Vibe Coding，正在成为开发者的新宠。这种「只需聊一聊，AI 可以把功能写出来」的体验，极大提升了简单任务的开放效率。

来自主题: AI技术研报

8908 点击 2026-01-07 16:03

OpenAI前CTO首个创业产品Tinker，这里全量升级开放了，还有羊毛可薅

当 OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab (TML) 用 Tinker 创新性的将大模型训练抽象成 forward backward，optimizer step 等⼀系列基本原语，分离了算法设计等部分与分布式训练基础设施关联，

来自主题: AI技术研报

9521 点击 2026-01-07 15:30

开源1万小时具身智能数据，这家公司是为了什么？

想象一下，你正在训练一个未来的家庭机器人。你希望它能像人一样，轻松地叠好一件衬衫，整理杂乱的桌面，甚至系好一双鞋的鞋带。但最大的瓶颈是什么？不是算法，不是硬件，而是数据 —— 海量的、来自真实世界的、双手协同的、长程的、多模态的高质量数据。

来自主题: AI技术研报

11223 点击 2026-01-07 10:16

刚刚，智元提出SOP，让VLA模型在真实世界实现可扩展的在线进化

对于电子产品，我们已然习惯了「出厂即巅峰」的设定：开箱的那一刻往往就是性能的顶点，随后的每一天都在折旧。

来自主题: AI技术研报

9204 点击 2026-01-07 10:14

Claude Code 实战一下午：它到底比普通大模型多做了什么？

这两年一直在关注 AI，Claude Code 给我带来的震撼，和当初 Nano Banana 在画图领域的革命，几乎是一个级别。

来自主题: AI技术研报

7827 点击 2026-01-07 10:12

新年第一周，智元这次发布，显露了雄心

现实世界不是 demo，人形机器人该如何进入真实世界？

来自主题: AI技术研报

9534 点击 2026-01-07 09:36

别被室内基准高分骗了：大模型是在推理空间，还是在「背答案」？

2025 年，随着李飞飞等学者将 “空间智能”（Spatial Intelligence）推向聚光灯下，这一领域迅速成为了大模型竞逐的新高地。通用大模型和各类专家模型纷纷在诸多室内空间推理基准上刷新 SOTA，似乎 AI 在训练中已经更好地读懂了三维空间。

来自主题: AI技术研报

9451 点击 2026-01-07 09:36

陈天桥代季峰打响2026大模型第一枪：30B参数跑出1T性能

新年刚至，陈天桥携手代季峰率先打响开源大模型的第一枪。

来自主题: AI技术研报

10320 点击 2026-01-06 16:50

真实音频场景，大模型集体挂科！首个原生语音基准MultiChallenge

文本领域的大模型满分选手，换成语音就集体挂科？大模型引以为傲的多轮对话逻辑，在真实人声面前竟然如此脆弱。Scale AI正式发布首个原生音频多轮对话基准Audio MultiChallenge，直接撕开了大模型靠合成语音评测维持的优等生假象。实验显示，强如Gemini 3 Pro在真实场景下的通过率也仅过半数，而GPT-4o Audio的表现更是令人大跌眼镜。

来自主题: AI技术研报

10724 点击 2026-01-06 16:46