AI资讯新闻榜单内容搜索-Image

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Image
豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

当前的视觉语言模型(VLM)主要通过 QA 问答形式进行性能评测,而缺乏对模型基础理解能力的评测,例如 detail image caption 性能的可靠评测手段。

来自主题: AI技术研报
9677 点击    2024-07-13 20:01
将图像自动文本化,图像描述质量更高、更准确了

将图像自动文本化,图像描述质量更高、更准确了

将图像自动文本化,图像描述质量更高、更准确了

在当今的多模态大模型的发展中,模型的性能和训练数据的质量关系十分紧密,可以说是 “数据赋予了模型的绝大多数能力”。

来自主题: AI技术研报
5532 点击    2024-06-28 11:28
字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍

字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍

字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍

在生成式模型的迅速发展中,Image Tokenization 扮演着一个很重要的角色,例如Diffusion依赖的VAE或者是Transformer依赖的VQGAN。这些Tokenizers会将图像编码至一个更为紧凑的隐空间(latent space),使得生成高分辨率图像更有效率。

来自主题: AI技术研报
9735 点击    2024-06-22 23:00
3D 版 SORA 来了!DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

3D 版 SORA 来了!DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

3D 版 SORA 来了!DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

2024 年 5 月,DreamTech 官宣了其高质量 3D 生成大模型 Direct3D,并公开了相关学术论文 Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer。

来自主题: AI资讯
8854 点击    2024-06-17 19:23
AI首先替代的不是蓝领白领工作?

AI首先替代的不是蓝领白领工作?

AI首先替代的不是蓝领白领工作?

OpenAI在5月14日推出了新一代人工智能模型GPT-4o,支持文本、音频和图像的任意组合输入,并能够生成文本、音频和图像的任意组合输出。仅仅一天后,谷歌就在新一届I/O开发者大会上发布、更新了十多款产品,包括AI助手Project Astra、文生图模型Imagen3、对标Sora的文生视频模型Veo,以及备受瞩目的大模型Gemini 1.5 Pro的升级版。

来自主题: AI资讯
8696 点击    2024-06-11 15:15
首次证实白盒Transformer可扩展性!马毅教授CRATE-α:鲸吞14亿数据,性能稳步提升

首次证实白盒Transformer可扩展性!马毅教授CRATE-α:鲸吞14亿数据,性能稳步提升

首次证实白盒Transformer可扩展性!马毅教授CRATE-α:鲸吞14亿数据,性能稳步提升

CRATE-α是一种新型Transformer架构变体,通过设计改进提升了模型的可扩展性、性能和可解释性,CRATE-α-Base在ImageNet分类任务上的性能显著超过了之前最好的CRATE-B模型,其性能会随着模型和数据集规模扩大而继续提升。

来自主题: AI技术研报
8717 点击    2024-06-06 15:48
简单通用:视觉基础网络最高3倍无损训练加速,清华EfficientTrain++入选TPAMI 2024

简单通用:视觉基础网络最高3倍无损训练加速,清华EfficientTrain++入选TPAMI 2024

简单通用:视觉基础网络最高3倍无损训练加速,清华EfficientTrain++入选TPAMI 2024

近年来,「scaling」是计算机视觉研究的主角之一。随着模型尺寸和训练数据规模的增大、学习算法的进步以及正则化和数据增强等技术的广泛应用,通过大规模训练得到的视觉基础网络(如 ImageNet1K/22K 上训得的 Vision Transformer、MAE、DINOv2 等)已在视觉识别、目标检测、语义分割等诸多重要视觉任务上取得了令人惊艳的性能。

来自主题: AI技术研报
8567 点击    2024-05-22 13:33
李飞飞解读创业方向「空间智能」,让AI真正理解世界

李飞飞解读创业方向「空间智能」,让AI真正理解世界

李飞飞解读创业方向「空间智能」,让AI真正理解世界

前段时间,路透社独家报道了知名「AI 教母」李飞飞正在创建一家初创公司,并完成了种子轮融资。

来自主题: AI资讯
9658 点击    2024-05-16 17:39