AI资讯新闻榜单内容搜索-长视频

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 长视频
从“一句成片”到“长轨推演”:探究多模态智能体在长视频编辑中的应用

从“一句成片”到“长轨推演”:探究多模态智能体在长视频编辑中的应用

从“一句成片”到“长轨推演”:探究多模态智能体在长视频编辑中的应用

近年来,大语言模型(LLMs)在长篇视觉叙事中展现出卓越潜力,生产方式正迅速从单一模型生成转向面向生产的智能体系统。但长视频剪辑仍然是一个极难控制的长期任务。模型有时会在缺乏素材依据的情况下强行生成,甚至在面对明显断档的转场或人物不一致时依然“盲目拼接”。

来自主题: AI技术研报
9831 点击    2026-06-21 10:41
MBench: 清华x腾讯联合定义视频世界模型的长期记忆能力

MBench: 清华x腾讯联合定义视频世界模型的长期记忆能力

MBench: 清华x腾讯联合定义视频世界模型的长期记忆能力

随着视频生成技术的发展,模型正在从短视频片段合成,向流式长视频生成演进。然而,仅仅做到视觉上的逼真是不够的。一个功能完备的视频世界模型,必须能够在长时序交互中保持稳定的内部状态,并遵循真实世界的物理定律与逻辑规则。

来自主题: AI技术研报
7230 点击    2026-06-11 14:30
京东开源音视频生成框架JoyAI-Echo,5分钟叙事角色不崩,声音不乱,秒出片

京东开源音视频生成框架JoyAI-Echo,5分钟叙事角色不崩,声音不乱,秒出片

京东开源音视频生成框架JoyAI-Echo,5分钟叙事角色不崩,声音不乱,秒出片

京东首次开源长音视频生成框架JoyAI-Echo。它直击长视频生成中的角色一致性、声音稳定性和生成速度三大核心难题,一举在多个核心指标上超越行业标杆模型。根据公开评测结果,JoyAI-Echo在跨镜头一致性、语音准确率、用户偏好等关键指标上均取得领先表现,与业内主流长视频生成模型相比优势明显,出道即跻身全球第一梯队。

来自主题: AI资讯
8817 点击    2026-06-05 22:06
东方理工团队提出HiDrop:重构MLLM计算路径,压缩90%视觉Token实现2.2倍加速

东方理工团队提出HiDrop:重构MLLM计算路径,压缩90%视觉Token实现2.2倍加速

东方理工团队提出HiDrop:重构MLLM计算路径,压缩90%视觉Token实现2.2倍加速

随着多模态大语言模型(MLLM)支持更长上下文,高分辨率图像和长视频会产生远多于文本的视觉 Token,在自注意力二次复杂度下迅速成为效率瓶颈。

来自主题: AI技术研报
9508 点击    2026-03-24 10:13
CVPR 2026 | 从视觉Token内在变化量出发,实现VLM无损加速1.87倍

CVPR 2026 | 从视觉Token内在变化量出发,实现VLM无损加速1.87倍

CVPR 2026 | 从视觉Token内在变化量出发,实现VLM无损加速1.87倍

随着高分辨率图像理解与长视频处理需求的爆发式增长,大型视觉语言模型(LVLMs)所需处理的视觉 Token 数量急剧膨胀,推理效率成为落地部署的核心瓶颈。Token 压缩是缩短序列、提升吞吐的直接手段,但现有方法普遍依赖注意力权重来判断 Token 重要性,这一路线暗藏两个致命缺陷:

来自主题: AI技术研报
9494 点击    2026-03-17 08:49
关于多模态大模型Token压缩技术进展,看这一篇就够了

关于多模态大模型Token压缩技术进展,看这一篇就够了

关于多模态大模型Token压缩技术进展,看这一篇就够了

近年来多模态大模型在视觉感知,长视频问答等方面涌现出了强劲的性能,但是这种跨模态融合也带来了巨大的计算成本。高分辨率图像和长视频会产生成千上万个视觉 token ,带来极高的显存占用和延迟,限制了模型的可扩展性和本地部署。

来自主题: AI技术研报
9952 点击    2026-01-26 14:22