AI资讯新闻榜单内容搜索-生成模型

告别“音画割裂”与“人物崩坏”！AutoMV：首个听懂歌词、卡准节拍的开源全曲级MV生成Agent

现有的AI视频生成模型虽然在短片上效果惊人，但面对一首完整的歌曲时往往束手无策——画面不连贯、人物换脸、甚至完全不理会歌词含义。

来自主题: AI技术研报

7355 点击 2025-12-30 10:29

港大联合字节跳动提出JoVA: 一种基于联合自注意力的视频-音频联合生成模型

视频 - 音频联合生成的研究近期在开源与闭源社区都备受关注，其中，如何生成音视频对齐的内容是研究的重点。

来自主题: AI技术研报

7756 点击 2025-12-30 10:27

挖到M2.1的7个神仙用法，有点上头。。

上周我还在折腾各种图片、视频生成模型，这周又到了编程周。前天MiniMax丢出了个在编程界绝对有分量的模型：MiniMax-M2.1。然后发现就在刚才已经开源了：

来自主题: AI资讯

10026 点击 2025-12-27 10:56

超越GPT-5、Gemini Deep Research！人大高瓴AI金融分析师，查数据、画图表、写研报样样精通

能自动查数据、写分析、画专业金融图表的AI金融分析师来了！最近，中国人民大学高瓴人工智能学院提出了一个面向真实金融投研场景的多模态研报生成系统——玉兰·融观（Yulan-FinSight）。

来自主题: AI资讯

8049 点击 2025-12-26 15:46

生成不遗忘，「超长时序」世界模型！北大EgoLCD长短时记忆加持

视频生成模型总是「记性不好」？生成几秒钟后物体就变形、背景就穿帮？北大、中大等机构联合发布EgoLCD，借鉴人类「长短时记忆」机制，首创稀疏KV缓存+LoRA动态适应架构，彻底解决长视频「内容漂移」难题，在EgoVid-5M基准上刷新SOTA！让AI像人一样拥有连贯的第一人称视角记忆。

来自主题: AI技术研报

7366 点击 2025-12-25 10:16

阿里开源图片分层新模型Qwen-lmage-Layered，PS危险了？

抽奖式的生图体验，确实让很多设计师在尝鲜之后又默默打开了 Photoshop。于是乎，阿里千问团队再次出手，开源了一个叫 Qwen-Image-Layered 的模型，试图从底层逻辑上解决这个问题。

来自主题: AI资讯

8969 点击 2025-12-23 17:08

李飞飞3D世界模型爆火后，国内首个免费版来了：我当了回「为所欲为」的造物主

还记得前段时间在 AI 圈刷屏的李飞飞「3D 世界生成模型」吗？现在，国产版终于来了。

来自主题: AI资讯

5793 点击 2025-12-23 09:25

MiniMax海螺视频团队首次开源：Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队不藏了！首次开源就揭晓了一个困扰行业已久的问题的答案——为什么往第一阶段的视觉分词器里砸再多算力，也无法提升第二阶段的生成效果？翻译成大白话就是，虽然图像/视频生成模型的参数越做越大、算力越堆越猛，但用户实际体验下来总有一种微妙的感受——这些庞大的投入与产出似乎不成正比，模型离完全真正可用总是差一段距离。

来自主题: AI技术研报

7455 点击 2025-12-22 17:07

相机运动误差降低40%！DualCamCtrl：给视频生成装上「深度相机」，让运镜更「听话」

你的生成模型真的「懂几何」吗？还是只是在假装对齐相机轨迹？

来自主题: AI技术研报

9859 点击 2025-12-22 09:33

LeCun的JEPA已进化为视觉-语言模型，1.6B参数比肩72B Qwen-VL

近日，来自 Meta、香港科技大学、索邦大学、纽约大学的一个联合团队基于 JEPA 打造了一个视觉-语言模型：VL-JEPA。据作者 Pascale Fung 介绍，VL-JEPA 是第一个基于联合嵌入预测架构，能够实时执行通用领域视觉-语言任务的非生成模型。

来自主题: AI技术研报

8490 点击 2025-12-21 12:39