AI资讯新闻榜单内容搜索-多模态

新范式，自回归大一统！北大提出VARGPT：单一框架实现视觉「理解」与「生成」

VARGPT是一种新型多模态大模型，能够在单一框架内实现视觉理解和生成任务。通过预测下一个token完成视觉理解，预测下一个scale完成视觉生成，展现出强大的混合模态输入输出能力。

来自主题: AI技术研报

8338 点击 2025-01-28 12:07

DeepSeek大爆出圈，现在连夜发布新模型——多模态Janus-Pro-7B，发布即开源。在GenEval和DPG-Bench基准测试中击败了DALL-E 3和Stable Diffusion。

来自主题: AI资讯

12239 点击 2025-01-28 10:54

这款产品就是百度文库联合百度网盘最新推出的自由画布。在众多1V1对话式Chatbot竞相升级的大潮中，自由画布却另辟蹊径，宣称要“为用户提供一个全方位的创作空间”，让内容创作的全流程得以在同一个平台多线程并行处理，且支持多模态。

来自主题: AI资讯

8133 点击 2025-01-26 12:09

论文一作刘少腾，Adobe Research实习生，香港中文大学博士生（DV Lab），师从贾佳亚教授。主要研究方向是多模态大模型和生成模型，包含图像视频的生成、理解与编辑。作者Tianyu Wang、Soo Ye Kim等均为Adobe Research Scientist。

来自主题: AI技术研报

7045 点击 2025-01-26 11:39

近日中国AI大模型“六小虎”之一的智谱，管理层发生了以下变动：前Midjourney亚洲副总裁王玥婷加入智谱，主要负责多模态产品和市场；智谱首席战略官张阔、副总裁曲滕于近日离职。

来自主题: AI资讯

8530 点击 2025-01-24 21:53

我宣布，今年除夕夜拿春晚当BGM，但手里正儿八经真正在做的事，已经有了！

来自主题: AI资讯

8380 点击 2025-01-24 16:01

赶在放假前，支棱起来的国产 AI 大模型厂商井喷式发布了一大堆春节礼物。前脚 DeepSeek-R1 正式发布，号称性能对标 OpenAI o1 正式版，后脚 k1.5 新模型也正式登场，表示性能做到满血版多模态 o1 水平。

来自主题: AI资讯

8739 点击 2025-01-24 11:10

跟AI交互这事儿，商汤最新发布的大模型，是有点“够快、够准、够好”在身上的。

来自主题: AI资讯

9044 点击 2025-01-23 19:07

刚刚发布的豆包大模型1.5，不仅多模态能力全面提升，霸榜多个基准；更难得的是，它在训练过程中从未使用过任何其他模型生成的数据，坚决不走蒸馏「捷径」。

来自主题: AI资讯

11086 点击 2025-01-23 13:44

近年来视觉语⾔基础模型（Vision Language Models, VLMs）在多模态理解和⾼层次常识推理上⼤放异彩，如何将其应⽤于机器⼈以实现通⽤操作是具身智能领域的⼀个核⼼问题。这⼀⽬标的实现受两⼤关键挑战制约：

来自主题: AI技术研报

9208 点击 2025-01-23 13:09