AI资讯新闻榜单内容搜索-CV

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: CV

CVPR2026满分论文：Proxy-GS为结构化3D高斯溅射引入统一遮挡先验

CVPR2026满分论文：Proxy-GS为结构化3D高斯溅射引入统一遮挡先验

CVPR2026满分论文：Proxy-GS为结构化3D高斯溅射引入统一遮挡先验

上海交通大学钟志航团队联合上海人工智能实验室、西北工业大学、四川大学等高校在 CVPR 2026 上提出Proxy-GS（Proxy-GS: Unified Occlusion Priors for Training and Inference in Structured 3D Gaussian Splatting），面向基于 MLP 的结构化 3D 高斯溅射（3DGS），

来自主题: AI技术研报

9553 点击 2026-03-18 16:10

打破视频推理「先看后想」惯性，实现真正的「边看边想」丨CVPR'26

打破视频推理「先看后想」惯性，实现真正的「边看边想」丨CVPR'26

打破视频推理「先看后想」惯性，实现真正的「边看边想」丨CVPR'26

今天的大型视觉语言模型（VLM）做离线视频分析很强，但一到实时场景就尴尬：视频在往前走，模型还在“补作业”。

来自主题: AI技术研报

7349 点击 2026-03-18 14:12

大象秒变挖掘机！三维变形新突破，无需额外训练 | CVPR'26

大象秒变挖掘机！三维变形新突破，无需额外训练 | CVPR'26

大象秒变挖掘机！三维变形新突破，无需额外训练 | CVPR'26

南京大学与北京大学提出MorphAny3D，无需训练即可让三维生成模型实现跨类别平滑变形。通过创新注意力机制融合源与目标特征，精准控制结构与时序，轻松完成复杂变形，效果远超传统方法。

来自主题: AI技术研报

10340 点击 2026-03-17 14:27

CVPR 2026 | 从视觉Token内在变化量出发，实现VLM无损加速1.87倍

CVPR 2026 | 从视觉Token内在变化量出发，实现VLM无损加速1.87倍

CVPR 2026 | 从视觉Token内在变化量出发，实现VLM无损加速1.87倍

随着高分辨率图像理解与长视频处理需求的爆发式增长，大型视觉语言模型（LVLMs）所需处理的视觉 Token 数量急剧膨胀，推理效率成为落地部署的核心瓶颈。Token 压缩是缩短序列、提升吞吐的直接手段，但现有方法普遍依赖注意力权重来判断 Token 重要性，这一路线暗藏两个致命缺陷：

来自主题: AI技术研报

9498 点击 2026-03-17 08:49

CVPR'26 | 以机器人为中心的ToM推理框架，从心智推理到决策行动

CVPR'26 | 以机器人为中心的ToM推理框架，从心智推理到决策行动

CVPR'26 | 以机器人为中心的ToM推理框架，从心智推理到决策行动

吉林大学&微软亚洲研究院等团队提出MindPower框架，让机器人像人一样理解他人想法并主动帮忙，构建了首个以机器人为中心的心智推理评测体系，通过六层推理链条，让AI不仅看懂场景，更能推断意图、做出决策、执行动作，显著提升助人能力。

来自主题: AI技术研报

6725 点击 2026-03-17 08:49

不会拍照有招了！北大彭宇新团队开源首个美学指导大模型Venus，帮你拍好照｜CVPR 2026

不会拍照有招了！北大彭宇新团队开源首个美学指导大模型Venus，帮你拍好照｜CVPR 2026

不会拍照有招了！北大彭宇新团队开源首个美学指导大模型Venus，帮你拍好照｜CVPR 2026

你随手拍下一张照片，AI也许只会夸“真好看”，却说不出一句真正有用的建议。

来自主题: AI技术研报

6255 点击 2026-03-16 10:38

CVPR 2026 | 还在为AI「鬼画符」发愁？TextPecker即插即用破解文字渲染难题

CVPR 2026 | 还在为AI「鬼画符」发愁？TextPecker即插即用破解文字渲染难题

CVPR 2026 | 还在为AI「鬼画符」发愁？TextPecker即插即用破解文字渲染难题

在生成式 AI 浪潮中，文生图技术已实现跨越式发展，在视觉呈现上达到了前所未有的高度。然而，在生成图像中准确合成拼写正确、结构规范且风格协调的文字 —— 视觉文本渲染（Visual Text Rendering, VTR），至今仍是该领域尚未攻克的核心难题。

来自主题: AI技术研报

9988 点击 2026-03-12 14:10

CVPR 2026｜清华联合美团推出3DThinker，首个用3D意象思考的工作

CVPR 2026｜清华联合美团推出3DThinker，首个用3D意象思考的工作

CVPR 2026｜清华联合美团推出3DThinker，首个用3D意象思考的工作

大家是否有这样的感觉？给定几张场景中拍摄的图片，往往能够在脑海中想象出这个场景的三维布局，然而当前的多模态大模型还停留于纯文本或者 2D 视觉的推理表示，限制了图像中隐含几何结构的表达能力。

来自主题: AI技术研报

8977 点击 2026-03-11 09:25

10秒视频token超5万，O(n²)跑不动？用后训练线性化框架实现1.71倍加速，推理成本大降｜CVPR'2026

10秒视频token超5万，O(n²)跑不动？用后训练线性化框架实现1.71倍加速，推理成本大降｜CVPR'2026

10秒视频token超5万，O(n²)跑不动？用后训练线性化框架实现1.71倍加速，推理成本大降｜CVPR'2026

视频生成进入大规模时代，但计算成本也炸了。

来自主题: AI技术研报

6566 点击 2026-03-10 14:32

CVPR 2026 | AI寒武纪时刻？字节世界模型新作，仅靠视觉学习真实世界知识

CVPR 2026 | AI寒武纪时刻？字节世界模型新作，仅靠视觉学习真实世界知识

CVPR 2026 | AI寒武纪时刻？字节世界模型新作，仅靠视觉学习真实世界知识

视觉世界模型 “VideoWorld 2” 由豆包大模型团队与北京交通大学联合提出。不同于 Sora 2 、Veo 3、Wan 2.2 等主流多模态模型，VideoWorld 系列工作在业界首次实现无需依赖语言模型，即可认知世界。

来自主题: AI技术研报

6334 点击 2026-03-09 14:29

上一页当前第6页,共28页下一页