AI技术研报-这里有最前沿的人工智能技术解读

微软再放LLM量化大招！原生4bit量化，成本暴减，性能几乎0损失

原生1bit大模型BitNet b1.58 2B4T再升级！微软公布BitNet v2，性能几乎0损失，而占用内存和计算成本显著降低。

来自主题: AI技术研报

9939 点击 2025-06-02 18:00

首次解释LLM如何推理反思！西北大学谷歌新框架：引入贝叶斯自适应强化学习，数学推理全面提升

推理模型常常表现出类似自我反思的行为，但问题是——这些行为是否真的能有效探索新策略呢？

来自主题: AI技术研报

8527 点击 2025-06-02 17:48

FLUX.1 Kontext案例教程，这次真的解决主体一致性了

嗨大家好！假期愉快！ 5月29日，黑森林实验室发布了 FLUX.1 Kontext，目标是通过一个统一的框架处理多种图像任务，解决现有模型在多轮编辑中的一些关键痛点。

来自主题: AI技术研报

13739 点击 2025-06-02 17:20

揭开大模型“伪遗忘”，港理工等团队：结构不变就是没忘

近年来，大语言模型（LLMs）的能力突飞猛进，但随之而来的隐私风险也逐渐浮出水面。

来自主题: AI技术研报

8381 点击 2025-06-02 16:22

极低成本，复现GPT-4o图像风格化一致性！NUS推出OmniConsistency

不久前，GPT-4o 的最新图像风格化与编辑能力横空出世，用吉卜力等风格生成的效果令人惊艳，也让我们清晰看到了开源社区与商业 API 在图像风格化一致性上的巨大差距。

来自主题: AI技术研报

9622 点击 2025-06-02 15:53

SFT在帮倒忙？新研究：直接进行强化学习，模型多模态推理上限更高

「尽管经过 SFT 的模型可能看起来在进行推理，但它们的行为更接近于模式模仿 —— 一种缺乏泛化推理能力的伪推理形式。」

来自主题: AI技术研报

9484 点击 2025-06-02 15:24

360开源高质量图文对齐数据集！收纳1200万张图像+1000万组细粒度负样本，让模型告别“图文不符”

如何让CLIP模型更关注细粒度特征学习，避免“近视”？360人工智能研究团队提出了FG-CLIP，可以明显缓解CLIP的“视觉近视”问题。让模型能更关注于正确的细节描述，而不是更全局但是错误的描述。

来自主题: AI技术研报

10475 点击 2025-06-02 15:17

Mamba核心作者新作：取代DeepSeek在用的注意力机制，专为推理打造

曾撼动Transformer统治地位的Mamba作者之一Tri Dao，刚刚带来新作——提出两种专为推理“量身定制”的注意力机制。

来自主题: AI技术研报

9349 点击 2025-06-02 15:04

AI数学能力暴涨100%，自进化直逼RL极限！CMU新作颠覆认知

数据枯竭正成为AI发展的新瓶颈！CMU团队提出革命性方案SRT：让LLM实现无需人类标注的自我进化！SRT初期就能迭代提升数学与推理能力，甚至性能逼近传统强化学习的效果，揭示了其颠覆性潜力。

来自主题: AI技术研报

8866 点击 2025-06-02 14:16

多模态扩散模型开始爆发，这次是高速可控还能学习推理的LaViDa

近段时间，已经出现了不少基于扩散模型的语言模型，而现在，基于扩散模型的视觉-语言模型（VLM）也来了，即能够联合处理视觉和文本信息的模型。今天我们介绍的这个名叫 LaViDa，继承了扩散语言模型高速且可控的优点，并在实验中取得了相当不错的表现。

来自主题: AI技术研报

9198 点击 2025-06-01 17:58

近期必读，Mary Meeker 340页PPT分析AI现状和未来（附PDF下载地址，双语翻译版哦）

昨天发现Mary Meeker又重新开始发布她每年一次的《互联网趋势报告》，只不过这次开始叫《人工智能趋势报告》了，整份报告有 340 页，非常详细的分析了AI领域的现状。

来自主题: AI技术研报

22580 点击 2025-06-01 14:33

AI记忆系统首获统一框架！6大操作让大模型拥有人类记忆能力

来自香港中文大学、爱丁堡大学、香港科技大学与华为爱丁堡研究中心的研究团队联合发布了一项关于AI记忆机制的系统性综述，旨在在大模型时代背景下，重新审视并系统化理解智能体的记忆构建与演化路径。

来自主题: AI技术研报

11966 点击 2025-06-01 13:58

CVPR 2025 Highlight | 提升自回归模型样例学习能力，Few-shot图像编辑新范式开源

研究者针对 few-shot 图像编辑提出一个新的自回归模型结构 ——InstaManip，并创新性地提出分组自注意力机制（group self-attention），在此任务上取得了优异的效果。

来自主题: AI技术研报

10549 点击 2025-06-01 13:30

陶哲轩转发！DeepMind开源「AI数学证明标准习题集」

陶哲轩转发，AI搞数学证明的标准习题集来了！

来自主题: AI技术研报

10166 点击 2025-05-31 17:44

斯坦福华人天团意外爆冷！AI用纯CUDA-C编内核，竟干翻PyTorch？

本想练练手合成点数据，没想到却一不小心干翻了PyTorch专家内核！斯坦福华人团队用纯CUDA-C写出的AI生成内核，瞬间惊艳圈内并登上Hacker News热榜。团队甚至表示：本来不想发这个结果的。

来自主题: AI技术研报

9772 点击 2025-05-31 17:30

1/15成本，实现AI水印新SOTA | 南洋理工大学&A*STAR

给AI生成的作品打水印，让AIGC图像可溯源，已经成为行业共识。

来自主题: AI技术研报

8943 点击 2025-05-31 16:48

SSM+扩散模型，竟造出一种全新的「视频世界模型」

当状态空间模型遇上扩散模型，对世界模型意味着什么？

来自主题: AI技术研报

10164 点击 2025-05-31 16:40

阿里通义开源「推理+搜索」预训练新框架：小模型媲美大模型，多个开放域问答数据集表现显著提升

为提升大模型“推理+搜索”能力，阿里通义实验室出手了。

来自主题: AI技术研报

9871 点击 2025-05-31 16:19

大模型推理的“左右脑”革命！华为盘古Embedded凭昇腾之力，让快慢思考合二为一

孙子兵法有云：“故其疾如风，其徐如林”，意指在行进迅速时，如狂风飞旋；而在行进从容时，如森林徐徐展开。

来自主题: AI技术研报

11064 点击 2025-05-31 16:11

从打分器到思考者：RM-R1用推理重塑模型价值判断

「知其然，亦知其所以然。」

来自主题: AI技术研报

7911 点击 2025-05-31 15:48

o3崛起，但推理模型离「撞墙」只剩一年？

OpenAI的o3推理模型席卷AI界，算力暴增10倍，能力突飞猛进！但专家警告：最多一年，推理模型可能一年内撞上算力资源极限。OpenAI还能否带来惊喜？

来自主题: AI技术研报

10293 点击 2025-05-31 15:36

10个小模型并联跑赢GPT-4.1！无额外训练，方法仅4步

近年来，语言模型技术迅速发展，然而代表性成果如Gemini 2.5Pro和GPT-4.1，逐渐被谷歌、OpenAI等科技巨头所垄断。

来自主题: AI技术研报

9365 点击 2025-05-31 15:35

Correlations：氛围测试你的向量模型

在今年 ICLR 会议上，我们被问到最多且最有意思的问题是：像 Jina AI 这样的向量搜索模型提供商，除了在 MTEB 上做基准测试，会不会做些氛围测试（Vibe-testing)？

来自主题: AI技术研报

11080 点击 2025-05-31 15:20

斯坦福意外用AI生成超强CUDA内核，性能比人类专家优化得还要好！翻倍碾压原生PyTorch，华人主创

好家伙，AI意外生成的内核（kernel），性能比人类专家专门优化过的还要好！

来自主题: AI技术研报

8906 点击 2025-05-31 15:07

GPT-4o-Image仅完成28.9%任务！上海AI实验室等发布图像编辑新基准，360道人类专家严选难题

GPT-4o-Image也只能完成28.9%的任务，图像编辑评测新基准来了！360个全部由人类专家仔细思考并校对的高质量测试案例，暴露多模态模型在结合推理能力进行图像编辑时的短板。

来自主题: AI技术研报

11331 点击 2025-05-31 14:37

每2秒吃透一道高数大题！华为终于揭秘准万亿MoE昇腾训练系统全流程

现在，请大家一起数一下“1”、“2”。OK，短短2秒钟时间，一个准万亿MoE大模型就已经吃透如何解一道高等数学大题了！而且啊，这个大模型还是不用GPU来训练，全流程都是大写的“国产”的那种。

来自主题: AI技术研报

10706 点击 2025-05-31 14:11

全面评估多模态模型视频OCR能力，Gemini 准确率仅73.7%

多模态大模型（MLLM）在静态图像上已经展现出卓越的 OCR 能力，能准确识别和理解图像中的文字内容。MME-VideoOCR 致力于系统评估并推动MLLM在视频OCR中的感知、理解和推理能力。

来自主题: AI技术研报

9107 点击 2025-05-30 17:30

机器狗能当羽毛球搭子了！仅靠强化学习从0自学，还涌现出类人回位行为 | Science子刊

来和机器狗一起运动不？你的羽毛球搭子来了！无需人工协助，仅靠强化学习，机器狗子就学会了羽毛球哐哐对打。基于强化学习，研究人员开发了机器狗的全身视觉运动控制策略，同步控制腿部（18个自由度）移动，和手臂挥拍动作。

来自主题: AI技术研报

10728 点击 2025-05-30 17:08

全球首个AI智能体「自进化」开源框架来了！一次部署，终生可用

多AI智能体系统的复杂构建与优化，长期以来是用智能体解决科研问题和场景落地的瓶颈。来自英国格拉斯哥大学的研究团队发布了全球首个AI智能体自进化开源框架EvoAgentX，通过引入自我进化机制，打破了传统多智能体系统在构建和优化中的限制！

来自主题: AI技术研报

10024 点击 2025-05-30 16:57

让AI学着“看菜下碟”！港中大等新框架让推理长度减少90%，准确率反增17%

人类在面对简单提问时常常不假思索直接回答，只有遇到复杂难题才会认真推理。

来自主题: AI技术研报

9319 点击 2025-05-30 16:05