AI资讯新闻榜单内容搜索-多模态大模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态大模型
突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源

突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源

突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源

视频多模态大模型(LMMs)的发展受限于从网络获取大量高质量视频数据。为解决这一问题,我们提出了一种替代方法,创建一个专为视频指令跟随任务设计的高质量合成数据集,名为 LLaVA-Video-178K。

来自主题: AI技术研报
4766 点击    2024-10-21 14:33
Evaluation is All You Need!首个开源多模态大模型通用评测器LLaVA-Critic

Evaluation is All You Need!首个开源多模态大模型通用评测器LLaVA-Critic

Evaluation is All You Need!首个开源多模态大模型通用评测器LLaVA-Critic

随着对现有互联网数据的预训练逐渐成熟,研究的探索空间正由预训练转向后期训练(Post-training),OpenAI o1 的发布正彰显了这一点。

来自主题: AI技术研报
5868 点击    2024-10-14 15:46
首个Mamba+Transformer混合架构多模态大模型来了,实现单卡千图推理

首个Mamba+Transformer混合架构多模态大模型来了,实现单卡千图推理

首个Mamba+Transformer混合架构多模态大模型来了,实现单卡千图推理

扩展多模态大语言模型(MLLMs)的长上下文能力对于视频理解、高分辨率图像理解以及多模态智能体至关重要。这涉及一系列系统性的优化,包括模型架构、数据构建和训练策略,尤其要解决诸如随着图像增多性能下降以及高计算成本等挑战。

来自主题: AI技术研报
8908 点击    2024-09-21 18:19
让大模型能听会说,国内机构开源全球首个端到端语音对话模型Mini-Omni

让大模型能听会说,国内机构开源全球首个端到端语音对话模型Mini-Omni

让大模型能听会说,国内机构开源全球首个端到端语音对话模型Mini-Omni

本文出自启元世界多模态算法组,共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥,研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1000+ 星标。

来自主题: AI技术研报
9223 点击    2024-09-07 11:04
大模型走向物理世界,TeleAI 发布大模型驱动的具身智能综述,覆盖300篇文献

大模型走向物理世界,TeleAI 发布大模型驱动的具身智能综述,覆盖300篇文献

大模型走向物理世界,TeleAI 发布大模型驱动的具身智能综述,覆盖300篇文献

近年来,大模型在人工智能领域掀起了一场革命,各种文本、图像、多模态大模型层出不穷,已经深深地改变了人们的工作和生活方式。

来自主题: AI技术研报
8629 点击    2024-09-04 23:24