
抛弃视觉编码器,这个「原生版」多模态大模型也能媲美主流方法
抛弃视觉编码器,这个「原生版」多模态大模型也能媲美主流方法近期,关于多模态大模型的研究如火如荼,工业界对此的投入也越来越多。
近期,关于多模态大模型的研究如火如荼,工业界对此的投入也越来越多。
最近,新加坡国立大学联合南洋理工大学和哈工深的研究人员共同提出了一个全新的视频推理框架,这也是首次大模型推理社区提出的面向视频的思维链框架(Video-of-Thought, VoT)。视频思维链VoT让视频多模态大语言模型在复杂视频的理解和推理性能上大幅提升。该工作已被ICML 2024录用为Oral paper。
支付宝医疗大模型亮相!
没等到GPT-4o,商汤先把《Her》给发布出来了!
最近,一个对标 GPT-4o 的开源实时语音多模态模型火了。
在今天揭幕的 2024 世界人工智能大会暨人工智能全球治理高级别会议(简称“WAIC 2024”)上,阶跃星辰首发了三款 Step 系列通用大模型新品:Step-2 万亿参数语言大模型正式版、Step-1.5V 多模态大模型、Step-1X 图像生成大模型。
最近,一个对标 GPT-4o 的开源实时语音多模态模型火了。
在 2024 年世界人工智能大会的现场,很多人在一个展台前排队,只为让 AI 大模型给自己在天庭「安排」一个差事。
GPT-4o或许还得等到今年秋季才对外开放。不过,由法国8人团队打造的原生多模态Moshi,已经实现了接近GPT-4o的水平,现场演示几乎0延迟,AI大佬纷纷转发。
国产多模态大模型的头号交椅,再次易主