AI资讯新闻榜单内容搜索-AI视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: AI视觉
最鲁棒的MLLM!港科大开源「退化感知推理新范式」 | AAAI'26

最鲁棒的MLLM!港科大开源「退化感知推理新范式」 | AAAI'26

最鲁棒的MLLM!港科大开源「退化感知推理新范式」 | AAAI'26

多模态大语言模型(MLLMs)已成为AI视觉理解的核心引擎,但其在真实世界视觉退化(模糊、噪声、遮挡等)下的性能崩溃,始终是制约产业落地的致命瓶颈。

来自主题: AI技术研报
8088 点击    2025-12-25 09:44
比LoRA更快更强,全新框架LoFA上线,秒级适配大模型

比LoRA更快更强,全新框架LoFA上线,秒级适配大模型

比LoRA更快更强,全新框架LoFA上线,秒级适配大模型

在个性化视觉生成的实际应用中,通用视觉基础模型的表现往往难以满足精准需求。为实现高度定制化的生成效果,通常需对大模型进行针对性的自适应微调,但当前以 LoRA 为代表的主流方法,仍受限于定制化数据收集与冗长的优化流程,耗时耗力,难以在真实场景中广泛应用。

来自主题: AI技术研报
5780 点击    2025-12-18 09:12
何恺明NeurIPS 2025演讲盘点:视觉目标检测三十年

何恺明NeurIPS 2025演讲盘点:视觉目标检测三十年

何恺明NeurIPS 2025演讲盘点:视觉目标检测三十年

不久前,NeurIPS 2025 顺利举办,作为人工智能学术界的顶级会议之一,其中不乏学术界大佬的工作和演讲。

来自主题: AI技术研报
9808 点击    2025-12-12 09:36
仅4B!阿里千问最强视觉模型新开源,网友:我的16GB Mac有救了

仅4B!阿里千问最强视觉模型新开源,网友:我的16GB Mac有救了

仅4B!阿里千问最强视觉模型新开源,网友:我的16GB Mac有救了

智东西10月15日报道,今日,阿里通义千问团队推出其最强视觉语言模型系列Qwen3-VL的4B与8B版本,两个尺寸均提供Instruct与Thinking版本,在几十项权威基准测评中超越Gemini 2.5 Flash Lite、GPT-5 Nano等同级别顶尖模型。

来自主题: AI资讯
10193 点击    2025-10-15 17:05
ICLR神秘论文曝光!SAM3用「概念」看世界,重构视觉AI新范式

ICLR神秘论文曝光!SAM3用「概念」看世界,重构视觉AI新范式

ICLR神秘论文曝光!SAM3用「概念」看世界,重构视觉AI新范式

2023年Meta推出SAM,随后SAM 2扩展到视频分割,性能再度突破。近日,SAM 3悄悄现身ICLR 2026盲审论文,带来全新范式——「基于概念的分割」(Segment Anything with Concepts),这预示着视觉AI正从「看见」迈向真正的「理解」。

来自主题: AI技术研报
8215 点击    2025-10-15 12:18
Being-VL的视觉BPE路线:把「看」和「说」真正统一起来

Being-VL的视觉BPE路线:把「看」和「说」真正统一起来

Being-VL的视觉BPE路线:把「看」和「说」真正统一起来

为此,北大、UC San Diego 和 BeingBeyond 联合提出一种新的方法——Being-VL 的视觉 BPE 路线。Being-VL 的出发点是把这一步后置:先在纯自监督、无 language condition 的设定下,把图像离散化并「分词」,再与文本在同一词表、同一序列中由同一 Transformer 统一建模,从源头缩短跨模态链路并保留视觉结构先验。

来自主题: AI技术研报
7637 点击    2025-10-14 09:58
Insta360最新全景综述:全景视觉的挑战、方法与未来

Insta360最新全景综述:全景视觉的挑战、方法与未来

Insta360最新全景综述:全景视觉的挑战、方法与未来

本文作者团队来自 Insta360 影石研究院及其合作高校。目前,Insta360 正在面向世界模型、多模态大模型、生成式模型等前沿方向招聘实习生与全职算法工程师,欢迎有志于前沿 AI 研究与落地的同

来自主题: AI技术研报
7141 点击    2025-10-06 14:46