AI资讯新闻榜单内容搜索-视觉语言大模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉语言大模型
北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务

北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务

北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务

训完130亿参数通用视觉语言大模型,只需3天!北大和中山大学团队又出招了——在最新研究中,研究团队提出了一种构建统一的图片和视频表征的框架。利用这种框架,可以大大减少VLM(视觉语言大模型)在训练和推理过程中的开销。

来自主题: AI资讯
6209 点击    2023-11-29 15:32
提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点

提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点

提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点

最近,来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA,使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能,并在图片、视频的13个基准上达到先进的性能。这个结果表明,统一LLM的输入能让LLM的视觉理解能力提升。

来自主题: AI技术研报
5163 点击    2023-11-24 15:10
北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源

北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源

北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源

AI能理解搞笑视频笑点在哪里了。北大等团队开源视觉语言大模型Video-LLaVA,将图像和视频表示对齐到统一的视觉特征空间,在13个图片和视频基准上达到先进的性能。

来自主题: AI技术研报
5155 点击    2023-11-21 12:24