AI资讯新闻榜单内容搜索-多模态

0.5秒，无需GPU，Stability AI与华人团队VAST开源单图生成3D模型TripoSR

最近，文生视频模型 Sora 掀起了新一轮生成式 AI 模型浪潮，模型的多模态能力引起广泛关注。

来自主题: AI技术研报

7739 点击 2024-03-05 14:30

复旦等发布AnyGPT：任意模态输入输出，图像、音乐、文本、语音都支持

最近，OpenAI 的视频生成模型 Sora 爆火，生成式 AI 模型在多模态方面的能力再次引起广泛关注。

来自主题: AI技术研报

6376 点击 2024-03-04 15:49

DeepMind CEO Demis Hassabis 专访：2030年有望达到AGI、AI会带来革命性的全民普惠

Google 最近在大模型上动作不断，先是发布了性能更强大的多模态 Gemini 1.5 Pro，然后是开源的小模型 Gemma，评测结果超过了 7b 量级的 Llama 2。

来自主题: AI资讯

8926 点击 2024-03-02 10:53

全新「多模态」生图AI文字渲染暴打Midjourney+DALL·E 3！5亿融资Karpathy都投了

Ideogram凭借不输Midjourney的生图能力和遥遥领先的图片中文字渲染能力，获得了包括Jeff Dean和Karpathy在内一众大佬的8000万美元融资，文生图这条离钱最近的AI赛道又加入了一名重量级选手。

来自主题: AI资讯

7758 点击 2024-03-01 17:28

OpenAI把GPT塞进机器人大脑，具身AGI奇点迫近！英伟达微软参投26亿美金独角兽Figure

人形机器人已然成为科技和投资界的新宠！刚刚，OpenAI官宣将与独角兽Figure合作，专为机器人打造下一代AI大模型，具身AGI真的要来了。

来自主题: AI资讯

9836 点击 2024-03-01 17:16

能力与可信度可以兼得？GPT-4、Gemini等多模态大模型评测报告来了

2023 年我们正见证着多模态大模型的跨越式发展，多模态大语言模型（MLLM）已经在文本、代码、图像、视频等多模态内容处理方面表现出了空前的能力，成为技术新浪潮。以 Llama 2，Mixtral 为代表的大语言模型（LLM），以 GPT-4、Gemini、LLaVA 为代表的多模态大语言模型跨越式发展。

来自主题: AI资讯

10166 点击 2024-03-01 13:47