
Meta斯坦福全新多模态Apollo,60分钟视频轻松理解!7B性能超越30B
Meta斯坦福全新多模态Apollo,60分钟视频轻松理解!7B性能超越30BMeta斯坦福大学联合团队全面研究多模态大模型(LMM)中驱动视频理解的机制,扩展了视频多模态大模型的设计空间,提出新的训练调度和数据混合方法,并通过语言先验或单帧输入解决了已有的评价基准中的低效问题。
Meta斯坦福大学联合团队全面研究多模态大模型(LMM)中驱动视频理解的机制,扩展了视频多模态大模型的设计空间,提出新的训练调度和数据混合方法,并通过语言先验或单帧输入解决了已有的评价基准中的低效问题。
“很长一段时间,Product Hunt上中国团队开发的产品以工具类为主,当我们作为一款社交产品出现在榜单上的时候,迅速引发了行业关注”GiddyGiddy创始人李国洪谈到上线不久的产品,惊讶中透露几分肯定,“这款产品在硅谷也非常受认可,包括IBM和斯坦福的相关人士和我们也有交流,大家都认为以人为本在社交产品中更重要。”
斯坦福天才少女,让AI视频的格局再次颠覆!Pika 2.0上线不久即引发全网狂潮,强大场景元素功能、超强文本对齐、深刻物理学理解,让它在AI视频大混战中脱颖而出,效果不输谷歌Veo 2.0。网友们疯狂实测,人手一部广告大片。
Mamba 这种状态空间模型(SSM)被认为是 Transformer 架构的有力挑战者。近段时间,相关研究成果接连不断。而就在不久前,Mamba 作者 Albert Gu 与 Karan Goel、Chris Ré、Arjun Desai、Brandon Yang 一起共同创立的 Cartesia 获得 2700 万美元种子轮融资。
遵循世界的 3D 特性,很多事就会变得自然而然。 说到斯坦福大学教授李飞飞(Fei-Fei Li),她提倡的「空间智能」最近正在引领 AI 发展方向。
多模态大模型在听觉上,居然也出现了「9.11>9.8」的现象,音量大小这种简单问题都识别不了!港中文、斯坦福等大学联合发布的AV-Odyssey基准测试,包含26个视听任务,覆盖了7种声音属性,跨越了10个不同领域,确保测试的深度和广度。
刚刚结束Pre-A轮融资,穹彻智能再次完成数亿元Pre-A+轮融资!至此,穹彻智能在短短半年内,已经完成两轮数亿元融资。该轮融资由红杉中国领投。
AI技术正重塑全球就业市场。在生成式AI、边缘计算等前沿领域,技术突破不断,职业需求迅猛增长。根据斯坦福《THE AI INDEX REPORT 2024》,生成式AI相关招聘岗位在2023年增长了13倍,成为就业市场增长最快的细分方向之一。
斯坦福大学推出的IKEA Video Manuals数据集,通过4D对齐组装视频和说明书,为AI理解和执行复杂空间任务提供了新的挑战和研究基准,让机器人或AR眼镜指导家具组装不再是梦。
近年来,文本到图像扩散模型为图像合成树立了新标准,现在模型可根据文本提示生成高质量、多样化的图像。然而,尽管这些模型从文本生成图像的效果令人印象深刻,但它们往往无法提供精确的控制、可编辑性和一致性 —— 而这些特性对于实际应用至关重要。