AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
【人工智能】多模态AI——融合多种数据源的智能系统

【人工智能】多模态AI——融合多种数据源的智能系统

【人工智能】多模态AI——融合多种数据源的智能系统

多模态AI是一种将不同形式的数据(如文本、图像、音频等)融合在一起的技术,旨在让模型从多个维度感知和理解信息。这种融合使得AI系统能够从每种模态中获取独特的但互补的信息,从而构建出更全面的世界观。例如,在一个自动驾驶场景中,图像数据可以帮助系统识别道路上的行人,而雷达数据则能够感知车距,两者结合能够显著提升决策准确性。

来自主题: AI资讯
6142 点击    2024-10-15 09:56
Evaluation is All You Need!首个开源多模态大模型通用评测器LLaVA-Critic

Evaluation is All You Need!首个开源多模态大模型通用评测器LLaVA-Critic

Evaluation is All You Need!首个开源多模态大模型通用评测器LLaVA-Critic

随着对现有互联网数据的预训练逐渐成熟,研究的探索空间正由预训练转向后期训练(Post-training),OpenAI o1 的发布正彰显了这一点。

来自主题: AI技术研报
4058 点击    2024-10-14 15:46
苹果多模态模型大升级!文本密集、多图理解,全能小钢炮

苹果多模态模型大升级!文本密集、多图理解,全能小钢炮

苹果多模态模型大升级!文本密集、多图理解,全能小钢炮

多模态大语言模型(MLLM)如今已是大势所趋。 过去的一年中,闭源阵营的GPT-4o、GPT-4V、Gemini-1.5和Claude-3.5等模型引领了时代。

来自主题: AI资讯
3571 点击    2024-10-14 09:50
虚幻5加持,清华发布首个「真实开放环境具身智能平台」与基准测试集EmbodiedCity!

虚幻5加持,清华发布首个「真实开放环境具身智能平台」与基准测试集EmbodiedCity!

虚幻5加持,清华发布首个「真实开放环境具身智能平台」与基准测试集EmbodiedCity!

基于虚幻引擎5,清华大学构建了一个真实、动态、开放的具身智能平台EmbodiedCity,用于评估和研究具身智能在复杂城市场景中的应用;该平台提供在线接入和离线运行两种使用方式,支持多模态场景理解、问答、对话、导航和任务规划等一系列具身智能任务。

来自主题: AI资讯
2931 点击    2024-10-12 14:23
Radical Ventures合伙人:挖掘Agents的四大重要创业机会

Radical Ventures合伙人:挖掘Agents的四大重要创业机会

Radical Ventures合伙人:挖掘Agents的四大重要创业机会

如果您正在探寻人工智能未来的辉煌篇章,那么答案就在这里。 OpenAI的领导者Sam Altman和Greg Brockman最近表示:“现在正是我们展望未来的最佳时机。”他们预见了一个新时代,用户将不再只是与单一的模型对话,而是与由众多多模态模型和工具构成的系统互动,这些系统能够代表用户执行操作。

来自主题: AI资讯
3392 点击    2024-10-09 11:06
OpenAI 开发者大会!实时语音功能有API了,GPT-4o支持多模态微调,上下文cache功能上线

OpenAI 开发者大会!实时语音功能有API了,GPT-4o支持多模态微调,上下文cache功能上线

OpenAI 开发者大会!实时语音功能有API了,GPT-4o支持多模态微调,上下文cache功能上线

十一假期第1天, OpenAI一年一度的开发者大会又来了惹!今年的开发者大会分成三部分分别在美国、英国、新加坡三个地点举办,刚刚结束的是第一场。

来自主题: AI资讯
3048 点击    2024-10-03 13:07
mini-GPT4o来了? 能看、能听、会说,还情感丰富的多模态全能助手EMOVA

mini-GPT4o来了? 能看、能听、会说,还情感丰富的多模态全能助手EMOVA

mini-GPT4o来了? 能看、能听、会说,还情感丰富的多模态全能助手EMOVA

EMOVA(EMotionally Omni-present Voice Assistant),一个能够同时处理图像、文本和语音模态,能看、能听、会说的多模态全能助手,并通过情感控制,拥有更加人性化的交流能力。

来自主题: AI资讯
3145 点击    2024-10-02 11:17