AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
HuggingFace教你怎样做出SOTA视觉模型

HuggingFace教你怎样做出SOTA视觉模型

HuggingFace教你怎样做出SOTA视觉模型

前有OpenAI的GPT-4o,后有谷歌的系列王炸,先进的多模态大模型接连炸场。

来自主题: AI技术研报
10124 点击    2024-05-17 17:49
国内外140+大模型、8万+考题测评结果出炉!智源评测体系出品

国内外140+大模型、8万+考题测评结果出炉!智源评测体系出品

国内外140+大模型、8万+考题测评结果出炉!智源评测体系出品

2024年5月17日,智源研究院举办大模型评测发布会,正式推出科学、权威、公正、开放的智源评测体系,发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。

来自主题: AI资讯
9905 点击    2024-05-17 17:25
蚂蚁百灵大模型一号位:GPT-4o发布不意外,原生多模态方向已明

蚂蚁百灵大模型一号位:GPT-4o发布不意外,原生多模态方向已明

蚂蚁百灵大模型一号位:GPT-4o发布不意外,原生多模态方向已明

与之前的版本相比,GPT-4o最大改进在于它在整合方面的精细度,它将所有模态集成在一个端到端的模型中(All in One)。

来自主题: AI技术研报
5555 点击    2024-05-15 21:51
OpenAI 重磅发布 GPT-4o :见证《Her》的诞生!

OpenAI 重磅发布 GPT-4o :见证《Her》的诞生!

OpenAI 重磅发布 GPT-4o :见证《Her》的诞生!

北京时间 5 月 14 日凌晨,备受期待的 OpenAI 春季更新发布会上,CTO Mira Murati 宣布发布新的模型迭代版本——GPT-4o,o 代表「omnimodel」(全能模型),原生多模态,改进了文本、视觉和音频的能力。

来自主题: AI资讯
4081 点击    2024-05-14 21:47
OpenAI教谷歌做语音助手,新模型GPT-4o科幻级语音交互,零延迟满情绪,AI进入HER时代

OpenAI教谷歌做语音助手,新模型GPT-4o科幻级语音交互,零延迟满情绪,AI进入HER时代

OpenAI教谷歌做语音助手,新模型GPT-4o科幻级语音交互,零延迟满情绪,AI进入HER时代

5月14日凌晨,OpenAI终于发布了Sam Altman提前造势的“Magic(魔法)”,主要包括三个重点发布,ChatGPT新UI、桌面版GPT、以及最重要的,新的多模态模型GPT-4o。

来自主题: AI资讯
9846 点击    2024-05-14 19:18
西浦、利物浦大学提出:点云数据增强首个全面综述

西浦、利物浦大学提出:点云数据增强首个全面综述

西浦、利物浦大学提出:点云数据增强首个全面综述

本文是对发表于模式识别领域顶刊Pattern Recognition 2024的最新综述论文:「Advancements in Point Cloud Data Augmentation for Deep Learning: A Survey 」的解读。

来自主题: AI技术研报
3215 点击    2024-05-14 13:17
一线创业者圆桌讨论:多模态 AI 的创业机会在于「有用」

一线创业者圆桌讨论:多模态 AI 的创业机会在于「有用」

一线创业者圆桌讨论:多模态 AI 的创业机会在于「有用」

多模态 AI 无疑是今年大模型的发展重点之一,Sora、Midjourney、Suno 等文生视频、文生图、文生音乐赛道的代表产品也是用户的关注热点。

来自主题: AI资讯
7216 点击    2024-05-13 09:37
14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?

14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?

14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?

2023-2024年,以 GPT-4V、Gemini、Claude、LLaVA 为代表的多模态大模型(Multimodal LLMs)已经在文本和图像等多模态内容处理方面表现出了空前的能力,成为技术新浪潮。

来自主题: AI技术研报
7440 点击    2024-05-10 23:32