AI技术研报-这里有最前沿的人工智能技术解读

拆解梁文锋署名的DSpark，看懂这10个点就够了！

Fireworks AI的联合创始人兼CTO、PyTorch核心维护者Dmytro Dzhulgakov将整篇论文梳理成了10个概念，从最底层的GPU访存特性讲到最上层的在线自适应调度。DeepSeek这套方案真正的精髓在于系统工程和模型协同设计。

来自主题: AI技术研报

8395 点击 2026-06-28 17:34

陶哲轩参赛，在这项极其严格的数学测试中，人类表现优于AI

就在外界惊呼“AI快要接管纯数学研究”之际，一场限制条件极其严格、并由30位数学家以匿名方式进行评审的数学测试，却揭开了AI数学能力的另一面：AI不仅会幻觉、会跳步骤，甚至还把数学家论文里的关键论证几乎原样照搬，却忘了注明引用。

来自主题: AI技术研报

9344 点击 2026-06-28 11:35

CVPR 2026最热方向，被一家杭州团队率先跑进了端侧！

刚刚，Om AI发布全球首个面向物理世界的端侧流式多模态模型系列——VLX。VLX主打真实世界的端侧与具身场景，总共三款模型，三天连发：这三款模型连起来，不仅构成了多模态模型持续感知、精准定位、行动决策的能力闭环。

来自主题: AI技术研报

9494 点击 2026-06-28 11:14

单个tokenizer胜任图像视频理解生成！南大&腾讯混元HYDRA打通多模态统一难题

南大王利民团队&腾讯混元的HYDRA系列（HYDRA，HYDRA-X）工作挑战了这个惯例，用一个基于ViT的统一视觉Tokenizer，帮助原生多模态模型更好地“看懂”和“创作”。训练一个基于ViT的Unified Tokenizer，使其同时具有理解和生成的能力，进而同时作为理解和生成的Autoencoder，来支持原生多模态模型（Unified Multimodal Models）的训练。

来自主题: AI技术研报

8731 点击 2026-06-28 11:13

刚刚，DeepSeek V4更新DSpark，推理速度提升80%

刚刚，DeepSeek V4 进行了一次更新。新推出了投机解码（Speculative Decoding）框架 DSpark，并同步开源了支撑该版本的全栈推测性解码框架 DeepSpec。DeepSeek-V4-Pro-DSpark 并非全新架构模型，而是在 DeepSeek-V4-Pro 基础上引入了推测性解码模块。此次更新的重点在于工程落地，而非模型能力本身的迭代。

来自主题: AI技术研报

9724 点击 2026-06-27 18:55

微软年度AI职场报告：员工已经准备好了，公司还没有

Jay 发自凹非寺量子位 | 公众号 QbitAI AI能否真正产生价值？组织因素的权重是个人的两倍。也就是说，你AI用得不好，三分之二的锅得公司背。这个反直觉洞察，出自微软一年一度的《Wor

来自主题: AI技术研报

9851 点击 2026-06-27 11:28

大模型搜索总偷懒？IQuest等联合推出FORT，30B开源搜索Agent刷新同规模SOTA

来自至知创新研究院（IQuest Research）、中国人民大学高瓴人工智能学院、KAUST等机构的研究团队提出了FORT，一个面向Deep Search Agent的shortcut-resistant training-data synthesis framework。

来自主题: AI技术研报

9163 点击 2026-06-27 11:27

黄仁勋：Prompt正在过时，Loop才是新范式

这就是最近网上热传热议，然后老黄黄仁勋给AI新趋势画的新重点：Nobody writes prompts anymore. The new job is to write and handle loops.（现在根本没有人写Prompt了，新时代的核心工作是编写和管理loop。）

来自主题: AI技术研报

8780 点击 2026-06-27 10:55

刚刚，翁荔博客上新：谨慎对待Scaling Law

刚刚，翁荔（Lilian Weng）的博客 Lil'Log 终于更新了！要知道，自从她联合创立了 Thinking Machines Lab 之后，她那让许多人受益良多的博客就鲜少更新了——距离她上一次更新，已经过去了 13 个月。

来自主题: AI技术研报

10106 点击 2026-06-26 11:14

重磅！杨立昆团队JEPA首登无人机：纯仿真训练、零样本实机迁移，硬件改动误差降低30%

图灵奖得主杨立昆提出的JEPA世界模型理论，终于在敏捷无人机机载高频控制场景完成工程落地了。

来自主题: AI技术研报

7893 点击 2026-06-26 11:12

从「找视频」到「产视频」：快手RaG推动推荐系统迈向完全生成时代

过去十年，推荐系统最核心的动作可以概括成一个字：找。

来自主题: AI技术研报

6925 点击 2026-06-26 09:49

混元开源PhoneBuddy-4B与5篇系列论文：多项手机Agent真机评测超过GPT-5.4

过去一年，Mobile/Phone-use Agent在各类评测榜单上进展很快。

来自主题: AI技术研报

8639 点击 2026-06-26 09:47

往 Codex 里塞块无限画布，AI 改图终于能指哪打哪了｜附教程

和 Codex、Claude Code 等 Coding Agent 沟通，很多时候就像站在许愿池边，对着池子里的王八扔硬币，嘴里念念有词，关键它还真给你兑现愿望。

来自主题: AI技术研报

7335 点击 2026-06-25 15:26

4秒出百万面！突破千万面精度+12K高清贴图，手握数亿的3D生成公司下一局怎么打？

今年2月，英伟达公开了一条内部AI工作流。

来自主题: AI技术研报

10526 点击 2026-06-25 15:24

让机器人学会「预判接触」：它石智航牵头四大顶尖机构发布TacForeSight，破解精细操作难题

机器人已经学会看见世界，也开始学会摸到世界。但对于真实接触操作而言，仅仅感知当前状态远远不够，机器人还需要预测物理世界接下来会如何变化。擦拭、插接、拧紧，这些人类几乎凭感觉就能完成的动作，对机器人来说却并非易事：接触力度会变化，物体位置会偏移，反馈慢一步，就可能打滑、卡住或丢失。

来自主题: AI技术研报

7575 点击 2026-06-25 15:24

中国造出一颗「不怕死」的AI大脑，专接最要命的活儿

太硬核了！全球首个搭载AI大脑的防爆机器人，正式接管加油站。自主定位、拧盖、提枪、注油，全套动作行云流水，24小时无休作业，具身智能终于在高危场景一战封神。

来自主题: AI技术研报

9666 点击 2026-06-25 15:01

SIGGRAPH 2026 | 无需训练，一段单目视频解锁任意运镜与「子弹时间」

给定一段普通单目视频，FreeOrbit4D 可沿任意指定相机轨迹「重拍」整个动态场景，包括影视级的「子弹时间」环绕镜头。

来自主题: AI技术研报

8710 点击 2026-06-25 15:01

AI生成的图片正在反向对齐人类的审美？ICML 2026观点论文Spotlight

UBC 和 Weathon Software 的研究提出，图像的美学对齐正在削弱艺术表达。

来自主题: AI技术研报

9261 点击 2026-06-25 15:00

扩散模型自引导新范式：直接交换token就能变强！ | CVPR‘26 Oral

扩散模型又被玩出新花样了。

来自主题: AI技术研报

8700 点击 2026-06-25 15:00

Agent不会搞科研？人大微软开源框架&工具包解决盲目试错通病，抱抱脸日榜第一

写代码、跑实验、改项目、迭代方案，现在的AI智能体样样都能搞定。

来自主题: AI技术研报

7072 点击 2026-06-25 10:28

横扫八大数学竞赛：清华微软联合提出STAR-PólyaMath，Apex基准超GPT-5.5 13.5%

被一道数学竞赛题卡住很久时，高手往往能准确地判断：现在缺的是一个技术细节，还是整个思路从一开始就走错了？

来自主题: AI技术研报

9868 点击 2026-06-25 10:04

首个长程Doc2Repo训练集！代码Agent不止修bug，开始造仓库

DeNovoSWE是一个用于训练代码智能体从零生成完整仓库的数据集，包含4818个真实任务实例。它通过结构化文档和严格验证机制，帮助智能体掌握复杂系统构建能力，而不仅仅是修复代码。这为代码智能体迈向更高阶的软件工程任务提供了关键支持。

来自主题: AI技术研报

10172 点击 2026-06-25 10:04

ICML 2026｜让AI自动发现前沿风险：创智×复旦×牛津发布AutoControl-Arena

当 AI 智能体（Agent）从实验室走向真实应用，我们面对的安全问题也正在发生变化。

来自主题: AI技术研报

10294 点击 2026-06-25 10:03

AI生成的图片正在反向对齐人类的审美？ICML 2026观点论文Spotlight

UBC 和 Weathon Software 的研究提出，图像的美学对齐正在削弱艺术表达。

来自主题: AI技术研报

7376 点击 2026-06-25 10:03

全球算力分布地图曝光：谁掌握能源，谁掌握AI未来

近日，国际能源研究机构AixEnergy发布《Market Outlook》报告，提出一个值得关注的判断：AI基础设施首先是一项能源决策，其次才是一项技术决策。报告认为，决定未来全球AI版图的关键因素，正从芯片、模型和算法，转向稳定、低成本且能够快速接入的能源系统。海湾国家凭借廉价电力迅速崛起，美国受制于电网瓶颈，中国则依托新能源和产业链优势加速布局，东南亚正试图成为新的算力高地。

来自主题: AI技术研报

9647 点击 2026-06-24 17:38

开源！阿里甩出首个语言世界模型，能造智能体环境

一个模型能模拟7种环境。

来自主题: AI技术研报

9754 点击 2026-06-24 16:58

端侧跑大模型，现在也太简单了

最近，我们都在关注旗舰级大模型的进步，其实本地运行的 AI 模型也迎来了重要的分水岭。

来自主题: AI技术研报

8425 点击 2026-06-24 16:58

Claude惊人真相被教授曝光：思考过程加密，给钱也看不到！

当初，Anthropic推出extended thinking的时候，把它包装成「让用户看到思考过程」的透明标杆。现在真相是：你看到的只是他们允许你看到的部分。那些被加密、被压缩、被锁在全局密钥里的内容，藏着什么？

来自主题: AI技术研报

10295 点击 2026-06-24 16:36

Mimo Code 爆火：我们挖开源代码，找到小米 AI 的真创新

6 月 11 日凌晨，小米 MiMo 团队公开了一个叫 MiMo Code 的项目，定位是终端编程 Agent，MIT 协议开源。官方宣传重点有三处，14 天 5 人团队投入的“vibe coding”开发叙事、Claude Code 之上的 SWE-Bench Pro 跑分。以及“无限上下文”的记忆架构。

来自主题: AI技术研报

12044 点击 2026-06-24 16:35

直接从像素到单词：这个原生大模型统一单图、多图、视频和空间智能

今天几乎所有主流视觉语言模型（VLM）—— 无论是 Qwen-VL、InternVL，还是 LLaVA 系列 —— 都遵循着同一套经典架构：先用预训练视觉编码器（如 CLIP、SigLIP）将图像压缩为特征，再通过投影层把这些特征送入大语言模型。

来自主题: AI技术研报

7940 点击 2026-06-24 16:06