AI资讯新闻榜单内容搜索-Vide

10×加速！DCM显著提升视频扩散模型推理效率！HunyuanVideo13B推理时间从1500秒缩短至120秒！

扩散模型在视频合成任务中取得了显著成果，但其依赖迭代去噪过程，带来了巨大的计算开销。尽管一致性模型（Consistency Models）在加速扩散模型方面取得了重要进展，直接将其应用于视频扩散模型却常常导致时序一致性和外观细节的明显退化。

来自主题: AI技术研报

8711 点击 2025-06-19 10:13

视频生成技术正以前所未有的速度革新着当前的视觉内容创作方式，从电影制作到广告设计，从虚拟现实到社交媒体，高质量且符合人类期望的视频生成模型正变得越来越重要。

来自主题: AI技术研报

5545 点击 2025-06-13 11:46

就在刚刚，Meta 又有新的动作，推出基于视频训练的世界模型 V-JEPA 2（全称 Video Joint Embedding Predictive Architecture 2）。其能够实现最先进的环境理解与预测能力，并在新环境中完成零样本规划与机器人控制。

来自主题: AI资讯

8078 点击 2025-06-12 10:33

大家好，这两个月我完成了一款产品——Videa。虽然过去一年，我做了很多东西，但是部分是套壳，部分是把别人的想法做出来，真正我一直想做的，其实是一款借助AI创作短视频的产品。现在，我把它做出来了。

来自主题: AI资讯

5405 点击 2025-06-05 16:20

智源研究院发布开源模型Video-XL-2，显著提升长视频理解能力。该模型在效果、处理长度与速度上全面优化，支持单卡处理万帧视频，编码2048帧仅需12秒。

来自主题: AI技术研报

6133 点击 2025-06-03 17:24

长视频理解是多模态大模型关键能力之一。尽管 OpenAI GPT-4o、Google Gemini 等私有模型已在该领域取得显著进展，当前的开源模型在效果、计算开销和运行效率等方面仍存在明显短板。

来自主题: AI技术研报

6065 点击 2025-06-03 14:44

多模态大模型（MLLM）在静态图像上已经展现出卓越的 OCR 能力，能准确识别和理解图像中的文字内容。MME-VideoOCR 致力于系统评估并推动MLLM在视频OCR中的感知、理解和推理能力。

来自主题: AI技术研报

6683 点击 2025-05-30 17:30

就是这两个黄毛小伙子，他们试图建立新的教育体系。他们为学生创建了一种制作自定义视频教程的方法，一键生成所有科目的讲解视频，比真人老师讲的更好更仔细，就像可汗学院一样，并允许他们像与真正的导师/老师交谈一样进行互动，让每位学生都有私教老师。

来自主题: AI资讯

8659 点击 2025-05-30 16:49

近年来，生成式人工智能的快速发展，在文本和图像生成领域都取得了很大的成功。

来自主题: AI技术研报

6050 点击 2025-05-18 16:01

在上一篇研究图谱中，我们指出医疗领域很可能是 Vertical Agent 最先落地的领域，其中最有代表性的公司之一是 OpenEvidence，一款专为医生设计的 AI 专业诊断 Copilot。

来自主题: AI商业项目

7992 点击 2025-05-09 16:45