AI资讯新闻榜单内容搜索-多模态模型

多模态模型免微调接入互联网，即插即用新框架，效果超闭源商用方案

一个5月份完成训练的大模型，无法对《黑神话·悟空》游戏内容相关问题给出准确回答。

来自主题: AI技术研报

4401 点击 2024-11-10 14:40

MME-Finance：来自同花顺的金融领域多模态模型专业评估基准

MME-Finance 是一个专为金融领域设计的多模态基准测试，由同花顺财经旗下的 HiThink 研究团队联合多家高校共同开发，旨在评估和提升多模态大型语言模型（MLLMs）在金融领域的专业理解和推理能力。

来自主题: AI资讯

4454 点击 2024-11-08 14:06

统一图像生成，无需繁杂插件！智源发布扩散模型框架OmniGen

多模态模型，统一图像生成。

来自主题: AI资讯

7307 点击 2024-10-30 13:39

新扩散模型OmniGen一统图像生成，架构还高度简化、易用

大型语言模型（LLM）的出现统一了语言生成任务，并彻底改变了人机交互。然而，在图像生成领域，能够在单一框架内处理各种任务的统一模型在很大程度上仍未得到探索。近日，智源推出了新的扩散模型架构 OmniGen，一种新的用于统一图像生成的多模态模型。

来自主题: AI技术研报

11640 点击 2024-10-29 13:38

比扩散模型快50倍！OpenAI发布多模态模型实时生成进展，作者还是清华校友，把休假总裁Greg都炸出来了

两位清华校友，在OpenAI发布最新研究—— 生成图像，但速度是扩散模型的50倍。路橙、宋飏再次简化了一致性模型，仅用两步采样，就能使生成质量与扩散模型相媲美。

来自主题: AI资讯

4309 点击 2024-10-24 15:51

视频、图像、文本，只需基于下一个Token预测：智源Emu3发布，验证多模态模型新范式

OpenAI 前首席科学家、联合创始人 Ilya Sutskever 曾在多个场合表达观点：只要能够非常好的预测下一个 token，就能帮助人类达到通用人工智能（AGI）。

来自主题: AI资讯

4378 点击 2024-10-21 14:23

苹果多模态模型大升级！文本密集、多图理解，全能小钢炮

多模态大语言模型（MLLM）如今已是大势所趋。过去的一年中，闭源阵营的GPT-4o、GPT-4V、Gemini-1.5和Claude-3.5等模型引领了时代。

来自主题: AI资讯

5045 点击 2024-10-14 09:50

Radical Ventures合伙人：挖掘Agents的四大重要创业机会

如果您正在探寻人工智能未来的辉煌篇章，那么答案就在这里。 OpenAI的领导者Sam Altman和Greg Brockman最近表示：“现在正是我们展望未来的最佳时机。”他们预见了一个新时代，用户将不再只是与单一的模型对话，而是与由众多多模态模型和工具构成的系统互动，这些系统能够代表用户执行操作。

来自主题: AI资讯

4465 点击 2024-10-09 11:06

号称击败Claude 3.5 Sonnet，媲美GPT-4o，开源多模态模型Molmo挑战Scaling law

Molmo，开源多模态模型正在发力！

来自主题: AI资讯

8516 点击 2024-10-05 13:30

长短大小样样精通！原始分辨率、超长视频输入：更灵活的全开源多模态架构Oryx

视觉数据的种类极其多样，囊括像素级别的图标到数小时的视频。现有的多模态大语言模型（MLLM）通常将视觉输入进行分辨率的标准化或进行动态切分等操作，以便视觉编码器处理。然而，这些方法对多模态理解并不理想，在处理不同长度的视觉输入时效率较低。

来自主题: AI资讯

4095 点击 2024-09-29 14:44