AI技术研报-这里有最前沿的人工智能技术解读

图片生成仿真！这个AI让3D资产「开箱即用」，直接赋能机器人训练

一张照片，就能生成可直接用于仿真的3D资产。

来自主题: AI技术研报

7752 点击 2025-11-24 14:57

NeurIPS重磅：华南理工团队重构扩散模型推理，质量效率双SOTA

扩散概率生成模型（Diffusion Models）已成为AIGC时代的重要基础，但其推理速度慢、训练与推理之间的差异大，以及优化困难，始终是制约其广泛应用的关键问题。近日，被NeurIPS 2025接收的一篇重磅论文EVODiff给出了全新解法：来自华南理工大学曾德炉教授「统计推断，数据科学与人工智能」研究团队跳出了传统的数值求解思维，首次从信息感知的推理视角，将去噪过程重构为实时熵减优化问题。

来自主题: AI技术研报

6541 点击 2025-11-24 14:32

别问树模型了！死磕结构化数据，清华团队把大模型表格理解推到极限

科幻作家刘慈欣在小说《超新星纪元》中描述了一个令人难忘的场景——几个十几岁的孩子被带到一个小山环绕的地方，他们的面前是一条单轨铁路，上面停着十一列载货火车，每列车有二十节车皮。这些车首尾相接成一个巨大的弧形，根本看不到尽头。这些车中，其中一列装的是味精，另外十列装的是盐。

来自主题: AI技术研报

7343 点击 2025-11-24 10:44

AI「看见」实验，哈佛颠覆性突破！一副AR眼镜，新手秒变资深专家

当AI能「看」见实验室的细节，能「听」见研究员的每一次反应，能「感知」实验进展的每一点变化——它的推理将不再局限于硅基世界。那时，AI将通过人类的双手，直接参与并改变物理现实。它或许将成为实验室中最勤奋、最可靠的「智能伙伴」。

来自主题: AI技术研报

6023 点击 2025-11-24 10:43

Scaling Law的焦虑差距可以由「交互深度」解决，MiroMind用Qwen3-72B在GAIA中超越GPT5

在过去五年，AI领域一直被一条“铁律”所支配，Scaling Law（扩展定律）。它如同计算领域的摩尔定律一般，简单、粗暴、却魔力无穷：投入更多的数据、更多的参数、更多的算力，模型的性能就会线性且可预测地增长。无数的团队，无论是开源巨头还是商业实验室，都将希望孤注一掷地押在了这条唯一的救命稻草上。

来自主题: AI技术研报

5375 点击 2025-11-24 10:19

通用的dLLM开发框架，让BERT掌握扩散式对话

扩散式语言模型（Diffusion Language Model, DLM）虽近期受关注，但社区长期受限于（1）缺乏易用开发框架与（2）高昂训练成本，导致多数 DLM 难以在合理预算下复现，初学者也难以真正理解其训练与生成机制。

来自主题: AI技术研报

7832 点击 2025-11-24 10:19

Meta超级智能实验室又发论文，模型混一混，性能直接SOTA

模型也要学会取长补短。

来自主题: AI技术研报

5829 点击 2025-11-24 10:18

月活11亿的Reddit ，怎么选向量数据库：Pgvector、Redis、Milvus、Qdrant

业务团队可能说他们想要个负重一吨，时速两百公里的马车…… 现如今，借助向量检索能力，实现基于语义相似度的智能搜索，已经是所有电商、推荐、社区平台技术架构的重要一环。作为拥有约 1.08 亿日活、 1

来自主题: AI技术研报

9285 点击 2025-11-23 19:38

Anthropic发现AI「破窗效应」：只是教它偷个懒，结果它学会了撒谎和搞破坏

刚刚，Anthropic 发布了一项新研究成果。今天，他们发布的成果是《Natural emergent misalignment from reward hacking》，来自 Anthropic 对齐团队（Alignment Team）。他们发现，现实中的 AI 训练过程可能会意外产生未对齐的（misaligned）模型。

来自主题: AI技术研报

8213 点击 2025-11-22 15:33

罗福莉首个小米成果！开源具身大模型

正式入职小米还不到10天，罗福莉的首篇论文，这就来了！针对自驾与具身操作场景的知识迁移难题，MiMo团队提出并开源了全球首个打通这两大领域的跨具身（X - Embodied）基座模型——MiMo-Embodied。

来自主题: AI技术研报

8161 点击 2025-11-22 15:20

国产AI拿下国际物理奥赛金牌，13项顶级竞赛豪取12金1银，划重点：开源

首个拿下国际物理奥林匹克竞赛IPhO 2025理论考试金牌的开源模型，出自国产。上海人工智能实验室团队推出新模型家族，代号P1。在IPhO 2025理论考试中，P1-235B-A22B取得21.2/30分，成为首个达到该金牌线的开源模型，仅次于Gemini-2.5-Pro与GPT-5。

来自主题: AI技术研报

7519 点击 2025-11-22 11:37

AI问答，直接「拍」给你看！来自快手可灵&香港城市大学

今天，来自快手可灵团队和香港城市大学的研究者们，正在尝试打破这一界限。他们提出了一个全新的任务范式——「视频作为答案」，并发布了相应模型VANS。而这项工作则开创性地提出了Video-Next Event Prediction任务，要求模型直接生成一段动态视频作为回答。

来自主题: AI技术研报

7767 点击 2025-11-22 11:34

SGLang Diffusion震撼发布：图像视频生成速度猛提57%！

就在一周前，全宇宙最火爆的推理框架 SGLang 官宣支持了 Diffusion 模型，好评如潮。团队成员将原本在大语言模型推理中表现突出的高性能调度与内核优化，扩展到图像与视频扩散模型上，相较于先前的视频和图像生成框架，速度提升最高可达 57%：

来自主题: AI技术研报

7161 点击 2025-11-22 11:33

GPT-5得分不到0.4！法律+金融最大规模基准：1.9万+专家评估准则

最新PRBench基准可以测试AI在金融和法律领域的表现。结果显示，即使是顶尖大模型在处理复杂任务时也表现不佳，尤其在涉及重大经济后果的任务中。PRBench通过模拟真实场景和多轮对话，揭示了AI在专业领域的不足，强调开发更可靠AI系统的重要性。

来自主题: AI技术研报

7026 点击 2025-11-22 11:33

无需训练、只优化解码策略，DTS框架让大模型推理准确率提升6%，推理长度缩短23%

专注推理任务的 Large Reasoning Models 在数学基准上不断取得突破，但也带来了一个重要问题：越想越长、越长越错。本文解读由 JHU、UNC Charlotte 等机构团队的最新工作

来自主题: AI技术研报

6665 点击 2025-11-22 11:31

AI模型大战：Gemini 3 Pro、GPT-5.1-Codex-Max与Claude Sonnet 4.5如何选择？

前沿AI竞赛在2025年11月达到高潮。48小时内，谷歌推出Gemini 3 Pro宣称在主要推理基准测试中领先，而OpenAI立即用GPT-5.1-Codex-Max反击，这是一款专门训练用于通过创新"压缩"（compaction）技术自主工作超过24小时的专业编码模型[43]。加上Claude Sonnet 4.5已确立的编码统治地位和激进的安全过滤器，开发者面临前所未有的选择：

来自主题: AI技术研报

8120 点击 2025-11-21 17:09

4K超分Agent修图师来了！一键救活所有模糊照片

由德克萨斯A&M大学、斯坦福大学、Snap公司、CU Boulder大学、德克萨斯大学奥斯汀分校、加州理工大学、Topaz Labs以及加州大学Merced分校的研究者联合提出的基于AI智能体的方法4KAgent针对不同类型的图像以及需求对图像进行智能修复并放大到4K分辨率，带来优秀的视觉感知效果。该工作已被NeurIPS 2025接收。

来自主题: AI技术研报

7236 点击 2025-11-21 17:03

AAAI 2025 Oral | 火山引擎多媒体实验室提出VQ-Insight，AIGC视频画质理解大模型

近日，AAAI 2026 公布了录用结果，该会议是是人工智能领域极具影响力的国际顶级学术会议之一。据悉本次会议共有 23680 篇投稿进入审稿阶段，最终 4167 篇论文被录用，录取率为 17.6%。

来自主题: AI技术研报

9587 点击 2025-11-21 09:42

AI终于学会「读懂人心」，带飞DeepSeek R1，OpenAI o3等模型

“What is meant often goes far beyond what is said, and that is what makes conversation possible.” ——H. P. Grice

来自主题: AI技术研报

7340 点击 2025-11-21 09:16

分割一切并不够，还要3D重建一切，SAM 3D来了

沉默后爆发？

来自主题: AI技术研报

9434 点击 2025-11-20 17:35

Google Antigravity「系统提示词」简直太牛了，厉害是有原因的

Google昨天伴随Gemini3.0pro一同发布了他们的AI IDE产品Antigravity《与Gemini 3.0一起发布的AI IDE「Antigravity」究竟有多厉害？》。其震撼性的三位一体全流程Agent体验让无数开发者直呼“Cursor危险了”。

来自主题: AI技术研报

7447 点击 2025-11-20 16:24

零门槛deepfake！75.8k Star 的Deep-Live-Cam 一张照片秒换脸，开源 deepfake 神器本地跑！

Deep-Live-Cam 是一款开源的实时换脸与视频深度伪造（deepfake）工具，只需要一张人脸图片，就能在本地电脑上对摄像头画面或视频进行实时换脸。支持 Windows / Linux / macOS，多种硬件加速（CPU / CUDA / CoreML / DirectML / OpenVINO），并内置不良内容检测与合规提示，定位是服务 AI 生成媒体行业的高效生产力工具。

来自主题: AI技术研报

7724 点击 2025-11-20 16:22

永别了，Tokenizer！何恺明师徒新作，颠覆AI生图技术

扩散模型「去噪」，是不是反而忘了真正去噪？何恺明携弟子出手，回归本源！

来自主题: AI技术研报

9288 点击 2025-11-20 15:26

AI Agent 工程化，本质是数据库系统设计

最近半年，我阅读了业界关于 AI Agent 的工程实践：Anthropic 的 Context Engineering 论文、Manus 的工程分享、Cline 的 Memory Bank 设计等。同时自己也一直在做跟 AI Agent 相关的项目，如：Jta[1]（开源的翻译 Agent，基于 Agentic Workflow）。

来自主题: AI技术研报

7946 点击 2025-11-20 15:03

通往通用人工智能的关键一步？DeepMind放大招，3D世界最强AI智能体SIMA 2

您的 AI 伙伴「游戏陪玩」版已上线。

来自主题: AI技术研报

6383 点击 2025-11-20 14:54

“最强具身VLA大模型”，究竟强在哪儿？

看似轻描淡写，实则力透纸背。

来自主题: AI技术研报

7496 点击 2025-11-20 10:06

何恺明团队新作：扩散模型可能被用错了

何恺明又一次返璞归真。

来自主题: AI技术研报

6143 点击 2025-11-20 09:35

NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法

在视觉处理任务中，Vision Transformers（ViTs）已发展成为主流架构。然而，近期研究表明，ViT 模型的密集特征中会出现部分与局部语义不一致的伪影（artifact），进而削弱模型在精细定位类任务中的性能表现。因此，如何在不耗费大量计算资源的前提下，保留 ViT 模型预训练核心信息并消除密集特征中的伪影？

来自主题: AI技术研报

7403 点击 2025-11-20 09:33

终于不用为GPU算力发愁了，10块钱训练一个GPT！

前不久写了一期卡神做的 nanochat ，听朋友说咱们国产早就有类似的开源项目了：miniMind 。

来自主题: AI技术研报

7690 点击 2025-11-19 17:14

文献、报告、合同翻译的老大难被国产工具治了？三大翻译神器横评后，这家稳得离谱

“开组会是一场巨大的精神霸凌。”

来自主题: AI技术研报

6111 点击 2025-11-19 16:43