一种视频理解的方法、装置及计算机程序产品

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种视频理解的方法、装置及计算机程序产品
申请号:CN202511093348
申请日期:2025-08-06
公开号:CN120598060B
公开日期:2025-12-09
类型:发明专利
摘要
本发明实施例提供一种视频理解的方法、装置及计算机程序产品,属于视频和大数据领域,该方法包括:获取目标视频的描述文本、查询文本令牌及视觉令牌;对所述描述文本进行LLM推理、检索及区域扩展得到候选时间区域;对所述候选时间区域进行密集采样、检索和区域合并得到连续时间区域;根据查询文本令牌及视觉令牌确定注意力矩阵;根据所述注意力矩阵对所述连续时间区域进行语义相关度评估、剪枝和位置编码重构得到时空特征;根据所述时空特征生成所述目标视频的回答。该方法实现了高效高精度的长视频理解。
技术关键词
令牌 注意力 语义相关度 文本 视觉 矩阵 计算机程序产品 重构 编码 答案 高效高精度 序列 视频帧 大语言模型 生成事件 连续性 模块 层级 解码
系统为您推荐了相关专利信息
误差抑制方法 惯性里程计 扩展卡尔曼滤波器 视觉 深度图
实时语音 解码方法 接收器 转换文本 标签
激光超声 自动化控制单元 薄壁加筋结构 成像模块 非接触式
文本 大语言模型 问答模型 生成方法 电子设备
吸盘组件 搬运系统 夹持机构 运输机构 夹持装置