AI技术研报-这里有最前沿的人工智能技术解读

阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一

OpenRouter Trending榜单冷不丁窜出一匹国产黑马，热度暴涨稳居全球第二。

来自主题: AI技术研报

9869 点击 2026-06-05 09:55

超越TurboQuant：Together AI把2-bit KV Cache推向真实服务

长上下文模型越来越能“记”，但真正让它们跑到线上时，最先顶不住的往往不是算力，而是KV Cache。

来自主题: AI技术研报

5971 点击 2026-06-05 09:53

「这可能是人类写的最后一篇论文」Stanford、Michigan、CMU 等 37 位学者联手：把论文从 PDF 改写成 AI 能直接执行的研究包

我们今天以 PDF 写论文的方式，已经持续了三百多年。然而论文其实是把一段混乱反复、充满试错的真实研究，讲成一个干净利落、足以服人的完美故事。

来自主题: AI技术研报

10656 点击 2026-06-05 09:25

微软最新提出SkillOpt，用训练大模型的方法优化你的Agent Skills

训练大模型时，工程师绝对不会指望网络做一次前向传播就能收敛。它需要数据喂养、Batch切分、学习率控制、验证集筛选以及优化器状态的迭代试错。

来自主题: AI技术研报

10592 点击 2026-06-05 09:13

谷歌Gemma 4 12B震撼发布！全球下载破1.5亿，16G轻薄本封神

刚刚，谷歌扔出Gemma 4 12B大杀器！16G轻薄本就能全离线流畅跑通，性能直逼26B巨兽，全体开发者惊呼太震撼了，平民级本地AI封神之作降临。硬核实测速来看！

来自主题: AI技术研报

8288 点击 2026-06-04 17:03

刚刚，李飞飞亲自下场定义世界模型

世界模型火，火到都有点乱了。

来自主题: AI技术研报

11132 点击 2026-06-04 17:02

微软「意外泄密」：Claude Mythos万亿参数，训练规模浮出水面？

Claude Mythos就用6.1×10²⁷ FLOPs提前叩响了奇点的大门。

来自主题: AI技术研报

7104 点击 2026-06-04 17:02

Anthropic内部95%业务分析交给Claude，秘诀竟然不在更强模型

都以为让AI查数据省事，结果它答得漂亮你却不敢信。Anthropic最近说这事有解了，靠的是一套和代码无关的「笨功夫」。

来自主题: AI技术研报

6651 点击 2026-06-04 16:39

一个GPT Plus会员的钱，够机器人跑一个月世界模型了

真没想到啊！物理AI的账单，有一天竟然能和大模型一个价。

来自主题: AI技术研报

6704 点击 2026-06-04 16:39

首次系统定义「Token经济学」，浙大&阿里联合发布大模型Agent资源分配新范式

当大模型 Agent 从实验室加速走向金融、医疗、代码开发等高价值场景，一个隐秘却致命的瓶颈正在浮现：Token 的指数级消耗正引发算力、协作与安全的系统性危机。传统 “堆算力、加参数” 的线性优化已触及天花板，我们该如何在 “输出质量” 与 “经济成本” 之间找到可持续的最优解？

来自主题: AI技术研报

8659 点击 2026-06-04 16:38

规避文献幻觉，准确率提升13.2%！细粒度检索智能体 | ACL'26

为解决科研中对单篇文献深度解析的需求，佐治亚大学团队提出IntrAgent，专注单篇内容，避免大模型幻觉。通过段落排序与迭代阅读机制，精准提取实验细节与元数据。

来自主题: AI技术研报

10653 点击 2026-06-04 16:38

AI短剧的Harness模式，LuxReal跑通了。

一直有在关注的一个 AI 短剧工具最近终于上线了，那就是群核科技的 LuxReal 短剧版。

来自主题: AI技术研报

7605 点击 2026-06-04 09:14

老黄吹的Cosmos 3，在一个北大团队做的榜单上拿了第一

刚刚过去的GTC Taipei上，最备受关注的，莫过于Cosmos 3。

来自主题: AI技术研报

9126 点击 2026-06-04 09:13

RSS 2026｜蚂蚁灵波提出首个自回归因果世界模型，50条数据解锁通用机器人操控

赋予机器人物理理解和预测能力是通用操作的关键。蚂蚁灵波等机构提出的 LingBot-VA 试图将视频帧预测与动作推理统一起来，让机器人通过自回归扩散框架学会“一边思考一边行动”。

来自主题: AI技术研报

10764 点击 2026-06-04 09:13

Vector Lakebase对比Lakebase以及向量数据库，如何选型？

这篇文章想回答几个大家更关心的基础问题：Vector Lakebase 能解决你的什么问题，什么场景下用它最合适，如何用好Vector Lakebase 。

来自主题: AI技术研报

10226 点击 2026-06-04 08:39

Agent记忆框架怎么做才靠谱？UC Berkeley MemFai测穿4款顶尖记忆系统，向量库不是唯一答案

过去半年，几乎所有Agent框架都在补长期记忆能力。最常见的做法，是给系统接一个向量数据库，把历史对话、用户偏好、项目经验、工具调用结果、失败案例都存进去。看起来，只要把“记忆”这块补上，Agent就能从一次性对话工具变成长期协作伙伴。

来自主题: AI技术研报

9147 点击 2026-06-04 08:38

吃透大模型SFT底层机理：终结实践争议，规避无效算力

长期以来，监督微调（Supervised Fine-Tuning，SFT）一直是深度神经网络中最常用的模型适配手段。在中小规模的传统神经网络中，SFT 通常能够稳定提升下游任务表现。

来自主题: AI技术研报

6837 点击 2026-06-04 08:38

把DeepSeek接入Codex ，额度自由了，还不用手机号验证｜附保姆级指南

Codex 又又又大更新，前一天负责人还在说，是不是要改名 ChadGPT，网友在下面评论说，不如直接将 ChatGPT 重新命名为 Codex。

来自主题: AI技术研报

11787 点击 2026-06-03 15:26

多模态模型终于不用「抽帧看世界」？LLaVA-OneVision-2.0全开源全帧率技术解读

由格灵深瞳灵感实验室主导研发的 LLaVA-OneVision-2.0，是一款面向下一代感知智能的视觉语言大模型。团队充分利用视频 Codec 流和自研 OneVision-Encoder，实现跨帧、跨事件的增量观测和连续证据流建模。本文将详细介绍模型架构、训练方法与能力验证，展示该技术在视频理解、空间推理和目标追踪等任务中的应用潜力。

来自主题: AI技术研报

6713 点击 2026-06-03 15:03

大晓机器人x南洋理工PhysX-Omni统一物理3D生成！一个框架搞定刚体/软体/关节体

3D生成领域，一个核心矛盾正在浮出水面。

来自主题: AI技术研报

6813 点击 2026-06-03 15:02

一步生成 ImageNet FID 1.29！斯坦福用 Wasserstein 梯度流重写一步生成模型

训练时让分布沿最优传输的 “下山方向” 走，推理时只需一次网络前向。W-Flow 把多步演化压进静态生成器，在 ImageNet 256×256 上刷新一步生成指标。

来自主题: AI技术研报

9785 点击 2026-06-03 14:34

大模型「行口」不一？首个专测执行幻觉基准，覆盖真实行为越狱

随着大模型智能体深入渗透真实操作系统，一种全新的安全威胁悄然成型：行为越狱（Behavior Jailbreak）。现有安全基准只盯着模型「说了什么」，却对「做了什么」视而不见。新基准LITMUS是首个同时覆盖真实OS环境行为越狱、语义-物理双层验证与多攻击范式的完整评测体系，并首次系统量化了「执行幻觉」这一被整个评测社区忽视的致命盲区。

来自主题: AI技术研报

10178 点击 2026-06-03 14:33

万字深度|做了8年向量数据库后，我们决定为Milvus重构AI时代的存储引擎

过去八九年，我们一直在做一件事：把向量数据库从一个很小众的系统方向，做成 AI 基础设施里的关键组件。

来自主题: AI技术研报

8213 点击 2026-06-03 14:31

刚刚，Meta Skill来了

GitHub最新火爆仓库：OpenSquilla。

来自主题: AI技术研报

7651 点击 2026-06-03 10:22

ICML 2026 | 计算所联合ETH研究者提出WorldCache，视频世界模型近似无损提速3.7 倍

如果说扩散世界模型的瓶颈，是每一步去噪都要把同一个大 Transformer 再跑一遍，那么 WorldCache 的思路就是：不要再把所有 Token、所有时间步都当成同一件事。这篇工作把 “哪些内容适合缓存”和“哪些时刻必须重算” 拆开处理，在不重新训练模型、几乎不增加额外显存的前提下，把缓存真正做成了一套更贴合世界模型结构的推理策略。

来自主题: AI技术研报

8403 点击 2026-06-03 10:02