AI资讯新闻榜单内容搜索-多模态模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态模型
吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务

吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务

吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务

本研究评估了先进多模态基础模型在 10 个数据集上的多样本上下文学习,揭示了持续的性能提升。批量查询显著降低了每个示例的延迟和推理成本而不牺牲性能。这些发现表明:利用大量演示示例可以快速适应新任务和新领域,而无需传统的微调。

来自主题: AI技术研报
9175 点击    2024-06-19 23:13
改变传统,吴恩达开源了一个机器翻译智能体项目

改变传统,吴恩达开源了一个机器翻译智能体项目

改变传统,吴恩达开源了一个机器翻译智能体项目

前段时间,随着 GPT-4o、Sora 的陆续问世,多模态模型在生成式方面取得的成绩无可否认,而人工智能的下一个革命性突破将从何处涌现,引起了大量学者和相关人士的关注。

来自主题: AI技术研报
7958 点击    2024-06-13 10:07
没有指数级数据就没有Zero-shot!生成式AI或已到达顶峰

没有指数级数据就没有Zero-shot!生成式AI或已到达顶峰

没有指数级数据就没有Zero-shot!生成式AI或已到达顶峰

近日,又一惊人结论登上Hacker News热榜:没有指数级数据,就没有Zero-shot!多模态模型被扒实际上没有什么泛化能力,生成式AI的未来面临严峻挑战。

来自主题: AI技术研报
9553 点击    2024-05-21 15:27
国产「小钢炮」一夜干翻巨无霸GPT-4V、Gemini Pro!稳坐端侧多模态铁王座

国产「小钢炮」一夜干翻巨无霸GPT-4V、Gemini Pro!稳坐端侧多模态铁王座

国产「小钢炮」一夜干翻巨无霸GPT-4V、Gemini Pro!稳坐端侧多模态铁王座

杀疯了!一夜之间,全球最强端侧多模态模型再次刷新,仅用8B参数,击败了多模态巨无霸Gemini Pro、GPT-4V。而且,其OCR长难图识别刷新SOTA,图像编码速度暴涨150倍。这是国产头部大模型公司献给开发者们最浪漫的520礼物。

来自主题: AI资讯
9646 点击    2024-05-20 15:54
OpenAI教谷歌做语音助手,新模型GPT-4o科幻级语音交互,零延迟满情绪,AI进入HER时代

OpenAI教谷歌做语音助手,新模型GPT-4o科幻级语音交互,零延迟满情绪,AI进入HER时代

OpenAI教谷歌做语音助手,新模型GPT-4o科幻级语音交互,零延迟满情绪,AI进入HER时代

5月14日凌晨,OpenAI终于发布了Sam Altman提前造势的“Magic(魔法)”,主要包括三个重点发布,ChatGPT新UI、桌面版GPT、以及最重要的,新的多模态模型GPT-4o。

来自主题: AI资讯
9822 点击    2024-05-14 19:18
14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?

14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?

14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?

2023-2024年,以 GPT-4V、Gemini、Claude、LLaVA 为代表的多模态大模型(Multimodal LLMs)已经在文本和图像等多模态内容处理方面表现出了空前的能力,成为技术新浪潮。

来自主题: AI技术研报
7413 点击    2024-05-10 23:32
参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?

参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?

参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?

多模态 AI 系统的特点在于能够处理和学习包括自然语言、视觉、音频等各种类型的数据,从而指导其行为决策。近期,将视觉数据纳入大型语言模型 (如 GPT-4V) 的研究取得了重要进展,但如何有效地将图像信息转化为 AI 系统的可执行动作仍面临挑战。

来自主题: AI技术研报
8093 点击    2024-05-01 19:35
8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare

8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare

8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare

近期,多模态大模型 (MLLM) 在文本中心的 VQA 领域取得了显著进展,尤其是多个闭源模型,例如:GPT4V 和 Gemini,甚至在某些方面展现了超越人类能力的表现。

来自主题: AI技术研报
9024 点击    2024-04-25 19:32