AI资讯新闻榜单内容搜索-长视频

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 长视频
千帧长视频时代到来!MIT全新扩散算法让任意模型突破时长极限

千帧长视频时代到来!MIT全新扩散算法让任意模型突破时长极限

千帧长视频时代到来!MIT全新扩散算法让任意模型突破时长极限

进入到 2025 年,视频生成(尤其是基于扩散模型)领域还在不断地「推陈出新」,各种文生视频、图生视频模型展现出了酷炫的效果。其中,长视频生成一直是现有视频扩散的痛点。

来自主题: AI技术研报
8075 点击    2025-02-26 13:39
单卡3090帮你一口气看完《黑悟空》,港大百度打造超长视频理解引擎VideoRAG

单卡3090帮你一口气看完《黑悟空》,港大百度打造超长视频理解引擎VideoRAG

单卡3090帮你一口气看完《黑悟空》,港大百度打造超长视频理解引擎VideoRAG

今天向大家介绍一项来自香港大学黄超教授实验室的最新科研成果 VideoRAG。这项创新性的研究突破了超长视频理解任务中的时长限制,仅凭单张 RTX 3090 GPU (24GB) 就能高效理解数百小时的超长视频内容。

来自主题: AI技术研报
6288 点击    2025-02-14 10:04
生成越长越跑偏?浙大商汤新作StarGen让场景视频生成告别「短片魔咒」

生成越长越跑偏?浙大商汤新作StarGen让场景视频生成告别「短片魔咒」

生成越长越跑偏?浙大商汤新作StarGen让场景视频生成告别「短片魔咒」

本文介绍了一篇由浙江大学章国锋教授和商汤科技研究团队联合撰写的论文《StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation》。

来自主题: AI技术研报
9317 点击    2025-01-17 11:14
Claude三巨头回应一切!Opus3.5仍可能发布,5小时超长视频10万人围观

Claude三巨头回应一切!Opus3.5仍可能发布,5小时超长视频10万人围观

Claude三巨头回应一切!Opus3.5仍可能发布,5小时超长视频10万人围观

Claude团队三巨头同时接受采访,回应一切。 整整5个小时,创始人Dario Amodei、Claude性格设计师Amanda Askell、机制可解释性先驱Chris Olah无所不谈,透露了关于模型、公司和行业的很多内幕和细节。

来自主题: AI资讯
4332 点击    2024-11-13 09:22
无需训练即可大幅提升SAM 2!开源的SAM2Long来了,港中文、上海AI Lab出品

无需训练即可大幅提升SAM 2!开源的SAM2Long来了,港中文、上海AI Lab出品

无需训练即可大幅提升SAM 2!开源的SAM2Long来了,港中文、上海AI Lab出品

Segment Anything Model 2(SAM 2)在传统视频目标分割任务大放异彩,引起了众多关注。然而,港中文和上海 AI Lab 的研究团队发现 SAM 2 的贪婪选择策略容易陷入「错误累积」的问题,即一次错误的分割掩码选择将影响后续帧的分割结果,导致整个视频分割性能的下降。这个问题在长视频分割任务中显得更加严重。

来自主题: AI技术研报
8582 点击    2024-11-05 14:53
突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力

突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力

突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力

GPT-4o 四月发布会掀起了视频理解的热潮,而开源领军者Qwen2也对视频毫不手软,在各个视频评测基准上狠狠秀了一把肌肉。

来自主题: AI技术研报
4533 点击    2024-10-30 13:59
一张显卡看遍天下电影!智源联合高校开源Video-XL打破长视频理解极限,95%准确率刷爆纪录

一张显卡看遍天下电影!智源联合高校开源Video-XL打破长视频理解极限,95%准确率刷爆纪录

一张显卡看遍天下电影!智源联合高校开源Video-XL打破长视频理解极限,95%准确率刷爆纪录

长视频理解迎来新纪元!智源联手国内多所顶尖高校,推出了超长视频理解大模型Video-XL。仅用一张80G显卡处理小时级视频,未来AI看懂电影再也不是难事。

来自主题: AI技术研报
7831 点击    2024-10-28 17:38
一块显卡理解一部电影,最新超长视频理解大模型出炉!“大海捞针”准确率近95%,代码已开源

一块显卡理解一部电影,最新超长视频理解大模型出炉!“大海捞针”准确率近95%,代码已开源

一块显卡理解一部电影,最新超长视频理解大模型出炉!“大海捞针”准确率近95%,代码已开源

仅需1块80G显卡,大模型理解小时级超长视频。 智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校带来最新成果超长视频理解大模型Video-XL。

来自主题: AI技术研报
5412 点击    2024-10-28 16:52