横扫16大榜单,最强开源单目深度估计算法来了,精度可以直接用于3D重建|TPAMI 2024
横扫16大榜单,最强开源单目深度估计算法来了,精度可以直接用于3D重建|TPAMI 2024单目深度估计新成果来了!
单目深度估计新成果来了!
本文介绍清华大学的一篇关于长尾视觉识别的论文: Probabilistic Contrastive Learning for Long-Tailed Visual Recognition. 该工作已被 TPAMI 2024 录用,代码已开源。
尤洋团队新作,首个基于DiT的实时视频生成方法来了!
360AI陷盗图风波,周鸿祎沉默坐实侵权?
用KV缓存加速大模型的显存瓶颈,终于迎来突破。 北大、威斯康辛-麦迪逊、微软等联合团队提出了全新的缓存分配方案,只用2.5%的KV cache,就能保持大模型90%的性能。 这下再也不用担心KV占用的显存容量过高,导致显卡不够用了。
近年来,「scaling」是计算机视觉研究的主角之一。随着模型尺寸和训练数据规模的增大、学习算法的进步以及正则化和数据增强等技术的广泛应用,通过大规模训练得到的视觉基础网络(如 ImageNet1K/22K 上训得的 Vision Transformer、MAE、DINOv2 等)已在视觉识别、目标检测、语义分割等诸多重要视觉任务上取得了令人惊艳的性能。
预计到 2032 年将达到 882 亿美元,人工智能教育市场释放巨大潜力
视觉语言模型屡屡出现新突破,但ViT仍是图像编码器的首选网络结构。
最近,字节旗下的一款视频生成AI——Dreamina 开始大规模开放测试。 Dreamina 不算是新产品,但现在它与 Sora 最大的区别,不是模型能力,而是它真的是能使用的。
《DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models》