AI资讯新闻榜单内容搜索-多模态

冲出“包围圈”，阶跃星辰登顶国内多模态理解大模型榜首

说起阶跃星辰，可以说是 AI 六小强中最低调的一个，但最近这家公司在 AI 圈里频频“闹出动静”。

来自主题: AI资讯

7291 点击 2024-10-18 10:21

百万鲁棒数据训练，3D场景大语言模型新SOTA！IIT等发布Robin3D

Robin3D通过鲁棒指令数据生成引擎（RIG）生成的大规模数据进行训练，以提高模型在3D场景理解中的鲁棒性和泛化能力，在多个3D多模态学习基准测试中取得了优异的性能，超越了以往的方法，且无需针对特定任务的微调。

来自主题: AI技术研报

7303 点击 2024-10-15 14:39

【人工智能】多模态AI——融合多种数据源的智能系统

多模态AI是一种将不同形式的数据(如文本、图像、音频等)融合在一起的技术，旨在让模型从多个维度感知和理解信息。这种融合使得AI系统能够从每种模态中获取独特的但互补的信息，从而构建出更全面的世界观。例如，在一个自动驾驶场景中，图像数据可以帮助系统识别道路上的行人，而雷达数据则能够感知车距，两者结合能够显著提升决策准确性。

来自主题: AI资讯

7155 点击 2024-10-15 09:56

Evaluation is All You Need！首个开源多模态大模型通用评测器LLaVA-Critic

随着对现有互联网数据的预训练逐渐成熟，研究的探索空间正由预训练转向后期训练（Post-training），OpenAI o1 的发布正彰显了这一点。

来自主题: AI技术研报

5352 点击 2024-10-14 15:46

长文本、语音、视觉、结构化数据全覆盖，中国移动九天善智多模态大模型震撼发布

善智者，动于九天之上。

来自主题: AI资讯

6508 点击 2024-10-14 09:59

苹果多模态模型大升级！文本密集、多图理解，全能小钢炮

多模态大语言模型（MLLM）如今已是大势所趋。过去的一年中，闭源阵营的GPT-4o、GPT-4V、Gemini-1.5和Claude-3.5等模型引领了时代。

来自主题: AI资讯

4758 点击 2024-10-14 09:50

虚幻5加持，清华发布首个「真实开放环境具身智能平台」与基准测试集EmbodiedCity！

基于虚幻引擎5，清华大学构建了一个真实、动态、开放的具身智能平台EmbodiedCity，用于评估和研究具身智能在复杂城市场景中的应用；该平台提供在线接入和离线运行两种使用方式，支持多模态场景理解、问答、对话、导航和任务规划等一系列具身智能任务。

来自主题: AI资讯

3506 点击 2024-10-12 14:23

Radical Ventures合伙人：挖掘Agents的四大重要创业机会

如果您正在探寻人工智能未来的辉煌篇章，那么答案就在这里。 OpenAI的领导者Sam Altman和Greg Brockman最近表示：“现在正是我们展望未来的最佳时机。”他们预见了一个新时代，用户将不再只是与单一的模型对话，而是与由众多多模态模型和工具构成的系统互动，这些系统能够代表用户执行操作。

来自主题: AI资讯

4192 点击 2024-10-09 11:06

号称击败Claude 3.5 Sonnet，媲美GPT-4o，开源多模态模型Molmo挑战Scaling law

Molmo，开源多模态模型正在发力！

来自主题: AI资讯

8257 点击 2024-10-05 13:30

OpenAI 开发者大会！实时语音功能有API了，GPT-4o支持多模态微调，上下文cache功能上线

十一假期第1天， OpenAI一年一度的开发者大会又来了惹！今年的开发者大会分成三部分分别在美国、英国、新加坡三个地点举办，刚刚结束的是第一场。

来自主题: AI资讯

3712 点击 2024-10-03 13:07