AI资讯新闻榜单内容搜索-长视频

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 长视频

Claude三巨头回应一切！Opus3.5仍可能发布，5小时超长视频10万人围观

Claude三巨头回应一切！Opus3.5仍可能发布，5小时超长视频10万人围观

Claude三巨头回应一切！Opus3.5仍可能发布，5小时超长视频10万人围观

Claude团队三巨头同时接受采访，回应一切。整整5个小时，创始人Dario Amodei、Claude性格设计师Amanda Askell、机制可解释性先驱Chris Olah无所不谈，透露了关于模型、公司和行业的很多内幕和细节。

来自主题: AI资讯

4657 点击 2024-11-13 09:22

无需训练即可大幅提升SAM 2！开源的SAM2Long来了，港中文、上海AI Lab出品

无需训练即可大幅提升SAM 2！开源的SAM2Long来了，港中文、上海AI Lab出品

无需训练即可大幅提升SAM 2！开源的SAM2Long来了，港中文、上海AI Lab出品

Segment Anything Model 2（SAM 2）在传统视频目标分割任务大放异彩，引起了众多关注。然而，港中文和上海 AI Lab 的研究团队发现 SAM 2 的贪婪选择策略容易陷入「错误累积」的问题，即一次错误的分割掩码选择将影响后续帧的分割结果，导致整个视频分割性能的下降。这个问题在长视频分割任务中显得更加严重。

来自主题: AI技术研报

8888 点击 2024-11-05 14:53

突破短视频局限！MMBench 团队构建中长视频开放问答评测基准，全面评估多模态大模型视频理解能力

突破短视频局限！MMBench 团队构建中长视频开放问答评测基准，全面评估多模态大模型视频理解能力

突破短视频局限！MMBench 团队构建中长视频开放问答评测基准，全面评估多模态大模型视频理解能力

GPT-4o 四月发布会掀起了视频理解的热潮，而开源领军者Qwen2也对视频毫不手软，在各个视频评测基准上狠狠秀了一把肌肉。

来自主题: AI技术研报

4990 点击 2024-10-30 13:59

一张显卡看遍天下电影！智源联合高校开源Video-XL打破长视频理解极限，95%准确率刷爆纪录

一张显卡看遍天下电影！智源联合高校开源Video-XL打破长视频理解极限，95%准确率刷爆纪录

一张显卡看遍天下电影！智源联合高校开源Video-XL打破长视频理解极限，95%准确率刷爆纪录

长视频理解迎来新纪元！智源联手国内多所顶尖高校，推出了超长视频理解大模型Video-XL。仅用一张80G显卡处理小时级视频，未来AI看懂电影再也不是难事。

来自主题: AI技术研报

8163 点击 2024-10-28 17:38

一块显卡理解一部电影，最新超长视频理解大模型出炉！“大海捞针”准确率近95%，代码已开源

一块显卡理解一部电影，最新超长视频理解大模型出炉！“大海捞针”准确率近95%，代码已开源

一块显卡理解一部电影，最新超长视频理解大模型出炉！“大海捞针”准确率近95%，代码已开源

仅需1块80G显卡，大模型理解小时级超长视频。智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校带来最新成果超长视频理解大模型Video-XL。

来自主题: AI技术研报

5795 点击 2024-10-28 16:52

长短大小样样精通！原始分辨率、超长视频输入：更灵活的全开源多模态架构Oryx

长短大小样样精通！原始分辨率、超长视频输入：更灵活的全开源多模态架构Oryx

长短大小样样精通！原始分辨率、超长视频输入：更灵活的全开源多模态架构Oryx

视觉数据的种类极其多样，囊括像素级别的图标到数小时的视频。现有的多模态大语言模型（MLLM）通常将视觉输入进行分辨率的标准化或进行动态切分等操作，以便视觉编码器处理。然而，这些方法对多模态理解并不理想，在处理不同长度的视觉输入时效率较低。

来自主题: AI资讯

5003 点击 2024-09-29 14:44

相柳AI热度破亿，长视频平台押宝用户端AIGC

相柳AI热度破亿，长视频平台押宝用户端AIGC

相柳AI热度破亿，长视频平台押宝用户端AIGC

长视频平台的下一个必争之地？

来自主题: AI资讯

8052 点击 2024-09-14 11:36

阿里开源视觉大模型Qwen2-VL：可理解20分钟长视频，性能比肩GPT-4o

阿里开源视觉大模型Qwen2-VL：可理解20分钟长视频，性能比肩GPT-4o

阿里开源视觉大模型Qwen2-VL：可理解20分钟长视频，性能比肩GPT-4o

还能玩纸牌游戏。

来自主题: AI资讯

8844 点击 2024-09-01 11:31

支持1024帧、准确率近100％，英伟达「LongVILA」开始发力长视频

支持1024帧、准确率近100％，英伟达「LongVILA」开始发力长视频

支持1024帧、准确率近100％，英伟达「LongVILA」开始发力长视频

现在，长上下文视觉语言模型（VLM）有了新的全栈解决方案 ——LongVILA，它集系统、模型训练与数据集开发于一体。

来自主题: AI技术研报

10817 点击 2024-08-21 14:20

7B最强长视频模型！ LongVA视频理解超千帧，霸榜多个榜单

7B最强长视频模型！ LongVA视频理解超千帧，霸榜多个榜单

7B最强长视频模型！ LongVA视频理解超千帧，霸榜多个榜单

为什么说理解长视频难如 “大海捞针”？

来自主题: AI技术研报

10960 点击 2024-07-14 13:38

上一页当前第6页,共8页下一页