
微软「小而美」系列三连发!视觉小钢炮PK GPT-4o,MoE新秀力压Llama 3.1
微软「小而美」系列三连发!视觉小钢炮PK GPT-4o,MoE新秀力压Llama 3.1微软Phi 3.5系列上新了!mini模型小而更美,MoE模型首次亮相,vision模型专注多模态。
微软Phi 3.5系列上新了!mini模型小而更美,MoE模型首次亮相,vision模型专注多模态。
随着大模型研究的深入,如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力,LLaVA-NeXT、MiniCPM、InternVL 等开源领域模型也展现出了越来越接近闭源的性能。
本期我们邀请到了 纽约大学计算机科学院博士 童晟邦 带来【多模态大模型:视觉为中心的探索】的主题分享。
现在,最强数学大模型,人人都可上手玩了!
4秒看完2小时电影,阿里团队新成果正式亮相——
大语言模型 (LLM) 经历了重大的演变,最近,我们也目睹了多模态大语言模型 (MLLM) 的蓬勃发展,它们表现出令人惊讶的多模态能力。 特别是,GPT-4o 的出现显著推动了 MLLM 领域的发展。然而,与这些模型相对应的开源模型却明显不足。开源社区迫切需要进一步促进该领域的发展,这一点怎么强调也不为过。
上海交通大学王德泉教授课题组在最新研究中提出了这样的一个问题。
谷歌版Her落地了!AI硬件全家桶深夜发布,现场提了近百次AI。
只用提示词,多模态大模型就能更懂场景中的人物关系了。
机器人多模态模型(RRMM)+双臂协作系统(RTACS)