AI技术研报-这里有最前沿的人工智能技术解读

相机运动误差降低40%！DualCamCtrl：给视频生成装上「深度相机」，让运镜更「听话」

你的生成模型真的「懂几何」吗？还是只是在假装对齐相机轨迹？

来自主题: AI技术研报

9971 点击 2025-12-22 09:33

不靠死记布局也能按图生成，多实例生成的布局控制终于“可控且不串脸”了丨浙大团队

尽管扩散模型在单图像生成上已经日渐成熟，但当任务升级为高度定制化的多实例图像生成（Multi-Instance Image Generation, MIG）时，挑战随之显现：

来自主题: AI技术研报

9750 点击 2025-12-22 09:33

LeCun的JEPA已进化为视觉-语言模型，1.6B参数比肩72B Qwen-VL

近日，来自 Meta、香港科技大学、索邦大学、纽约大学的一个联合团队基于 JEPA 打造了一个视觉-语言模型：VL-JEPA。据作者 Pascale Fung 介绍，VL-JEPA 是第一个基于联合嵌入预测架构，能够实时执行通用领域视觉-语言任务的非生成模型。

来自主题: AI技术研报

8600 点击 2025-12-21 12:39

只靠国产算力预训练，稳！全流程开源，「开元」盛世真来了

鹏城实验室与清华大学PACMAN实验室联合发布了鹏城脑海‑2.1‑开元‑2B（PCMind‑2.1‑Kaiyuan‑2B，简称开元‑2B）模型，并以全流程开源的方式回应了这一挑战——从训练数据、数据处理框架、训练框架、完整技术报告到最终模型权重，全部开源。

来自主题: AI技术研报

8389 点击 2025-12-21 12:38

让大模型不再过度思考！上海AI Lab后训练新范式重塑CoT，推理又快又好

近日，上海人工智能实验室的研究团队提出了一种全新的后训练范式——RePro（Rectifying Process-level Reward）。这篇论文将推理的过程视为模型内部状态的优化过程，从而对如何重塑大模型的CoT提供了一个全新视角：

来自主题: AI技术研报

7189 点击 2025-12-21 12:35

人人都是导演：CineCtrl首个实现视频生成中的相机运镜与摄影效果统一控制

现有视频生成模型往往难以兼顾「运镜」与「摄影美学」的精确控制。为此，华中科技大学、南洋理工大学、商汤科技和上海人工智能实验室团队推出了 CineCtrl。作为首个统一的视频摄影控制 V2V 框架，CineCtrl 通过解耦交叉注意力机制，摆脱了多控制信号共同控制的效果耦合问题，实现了对视频相机外参轨迹与摄影效果的独立、精细、协调控制。

来自主题: AI技术研报

8028 点击 2025-12-21 12:34

MiniMax海螺首次开源 VTP，打通了 Visual Tokenizer 的 Scaling Law

MiniMax 海螺视频团队「首次开源」了 VTP（Visual Tokenizer Pre-training）项目。他们同步发布了一篇相当硬核的论文，它最有意思的地方在于 3 个点：「重建做得越好，生成反而可能越差」，传统 VAE 的直觉是错的

来自主题: AI技术研报

8057 点击 2025-12-20 10:04

最近很火的Hindsight，基于图谱的「Agent记忆栈」解耦事实与信念

在上一篇文章中，我们系统梳理了AI Agent 记忆机制的全景综述AI Agent最新「Memory」综述｜多所顶尖机构联合发布。今天我将带您了解一项最近很火的Agent记忆项目「HINDSIGHT」

来自主题: AI技术研报

7710 点击 2025-12-19 10:28

北大发布 ManualVLA：首个长程「生成–理解–动作」一体化模型，实现从最终状态自主生成说明书并完成操纵

视觉–语言–动作（VLA）模型在机器人场景理解与操作上展现出较强的通用性，但在需要明确目标终态的长时序任务（如乐高搭建、物体重排）中，仍难以兼顾高层规划与精细操控。

来自主题: AI技术研报

9246 点击 2025-12-19 10:23

这10个n8n工作流，直接干死了90%的Tiktok视频生产，一键直出100条

有人私信我：这种级别的干货，外面都是打包卖几千块的课，你就这么免费发出来了？

来自主题: AI技术研报

10411 点击 2025-12-19 09:41

SIGGRAPH Asia 2025 | 只用一部手机创建和渲染高质量3D数字人

在计算机图形学、三维视觉、虚拟人、XR 领域，SIGGRAPH 是毫无争议的 “天花板级会议”。 SIGGRAPH Asia 作为 SIGGRAPH 系列两大主会之一，每年只接收全球最顶尖研究团队的成果稿件，代表着学术与工业界的最高研究水平与最前沿技术趋势。

来自主题: AI技术研报

6911 点击 2025-12-19 09:40

分割一切、3D重建一切还不够，Meta开源SAM Audio分割一切声音

继 SAM（Segment Anything Model）、SAM 3D 后，Meta 又有了新动作。

来自主题: AI技术研报

8173 点击 2025-12-18 16:54

具身智能的数据难题，终于有了可规模化的解法

科技赛道从不缺“造梦者”，但能精准击中行业痛点的“破局者”往往寥寥。

来自主题: AI技术研报

6767 点击 2025-12-18 16:24

腾讯混元最新世界模型开源！支持实时生成交互，突破长期空间记忆

可支持24帧/秒的长时流式生成。

来自主题: AI技术研报

8523 点击 2025-12-18 10:48

挖掘注意力中的运动线索：无需训练，解锁4D场景重建能力

如何让针对静态场景训练的3D基础模型（3D Foundation Models），在不增加训练成本的前提下，具备处理动态4D场景的能力？

来自主题: AI技术研报

10172 点击 2025-12-18 09:48

经验记忆黑科技：LightSearcher让AI工具调用减39.6%、推理快48.6%

如今，以 DeepSeek-R1 为代表的深度思考大模型能够处理复杂的推理任务，而DeepSearch 作为深度思考大模型的核心搜索器，在推理过程中通过迭代调用外部搜索工具，访问参数边界之外的最新、领域特定知识，从而提升推理的深度和事实可靠性。

来自主题: AI技术研报

6147 点击 2025-12-18 09:46

让大模型“吃一堑长一智”，南理工百度等提出模型记忆新方法

多模态推理又有新招，大模型“记不住教训”的毛病有治了。

来自主题: AI技术研报

9407 点击 2025-12-18 09:44

embedding分数不是唯一解！搜索场景，如何根据元数据做加权rerank

今天聊一聊我们如何做高质量rerank。

来自主题: AI技术研报

9632 点击 2025-12-18 09:43

大模型的进化方向：Words to Worlds | 对话商汤林达华

李飞飞团队最新的空间智能模型Cambrian-S，首次被一个国产开源AI超越了。

来自主题: AI技术研报

6246 点击 2025-12-18 09:15

刷榜自动驾驶语义场景补全！北大新作：高维度、高密度 | AAAI'26

北京大学团队提出了一种新的视觉语义场景补全方法HD²-SSC，用于从多视角图像重建三维语义场景。该方法通过高维度语义解耦和高密度占用优化，解决了现有技术中二维输入与三维输出之间的维度差异，以及人工标注与真实场景密度差异的问题，从而实现更准确的语义场景补全。

来自主题: AI技术研报

6100 点击 2025-12-18 09:14

比LoRA更快更强，全新框架LoFA上线，秒级适配大模型

在个性化视觉生成的实际应用中，通用视觉基础模型的表现往往难以满足精准需求。为实现高度定制化的生成效果，通常需对大模型进行针对性的自适应微调，但当前以 LoRA 为代表的主流方法，仍受限于定制化数据收集与冗长的优化流程，耗时耗力，难以在真实场景中广泛应用。

来自主题: AI技术研报

5918 点击 2025-12-18 09:12

60秒极限挑战！中国GPU独角兽杀出重围，斩获图形顶会大奖

他们不光能造GPU，还能写出全球顶级的算法！摩尔线程这次开源给国产具身智能递了一把「神兵利器」。

来自主题: AI技术研报

10042 点击 2025-12-18 09:09

给Agent装上“海马体”！上海AILab开源MemVerse，定义多模态记忆新范式

一页纯文本的记忆是看不清世界的。

来自主题: AI技术研报

7101 点击 2025-12-17 14:59

所有大模型，都学物理学：北大物理系一篇研究，震撼了AI圈

LLM 智能体很赞，正在成为一种解决复杂难题的强大范式。

来自主题: AI技术研报

8288 点击 2025-12-17 14:58

VGGT4D：无需训练，挖掘3D基础模型潜力，实现4D动态场景重建

如何让针对静态场景训练的 3D 基础模型（3D Foundation Models）在不增加训练成本的前提下，具备处理动态 4D 场景的能力？

来自主题: AI技术研报

6859 点击 2025-12-17 14:38

小米突然发布新模型：媲美 DeepSeek-V3.2，把手机的性价比卷到 AI

开源模型再次迎来一位重磅选手，就在刚刚，小米正式发布并开源新模型 MiMo-V2-Flash。

来自主题: AI技术研报

9388 点击 2025-12-17 11:52

高保真、多控制集成于「统一画布」，组合式图像生成新范式！

Canvas-to-Image 是一种新型图像生成框架，将多种控制方式（如身份、姿态、空间布局）整合到一个统一画布中，用户可通过直观操作生成高保真、多控制的图像。它简化了创作流程，让用户在单一界面完成复杂创作，为AI创作工具提供了新范式。

来自主题: AI技术研报

6470 点击 2025-12-17 10:27

56倍加速生成式策略：西交大提出EfficientFlow，迈向高效具身智能

生成式模型正在成为机器人和具身智能领域的重要范式，它能够从高维视觉观测中直接生成复杂、灵活的动作策略，在操作、抓取等任务中表现亮眼。但在真实系统中，这类方法仍面临两大「硬伤」：一是训练极度依赖大规模演示数据，二是推理阶段需要大量迭代，动作生成太慢，难以实时控制。

来自主题: AI技术研报

5466 点击 2025-12-17 09:55

中国科学家用AI造出不怕开水的蛋白质，无惧150℃高温，比肌肉强韧4倍

近日，南京大学教授郑鹏和团队造出一种全新的超级蛋白质，不仅比人体肌肉组织里的天然蛋白质坚韧 4 倍以上，而且还能在开水里安然无恙，甚至能够承受 150℃ 的高温，这打破了人们对于蛋白质怕热的固有印象。蛋白质的机械强度被人工设计提升到纳牛顿的级别，堪比自然界已知的最坚韧的一些分子相互作用。

来自主题: AI技术研报

8703 点击 2025-12-17 09:23

浙大联手字节：开源大规模指令跟随视频编辑数据集OpenVE-3M

作者提出了一个大规模、高质量、多类别的指令跟随的视频编辑数据集 OpenVE-3M，共包含 3M 样本对，分为空间对齐和非空间对齐 2 大类别共 8 小类别。

来自主题: AI技术研报

6912 点击 2025-12-17 09:22