一种视频理解的方法、装置及计算机程序产品
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
一种视频理解的方法、装置及计算机程序产品
申请号:
CN202511093348
申请日期:
2025-08-06
公开号:
CN120598060B
公开日期:
2025-12-09
类型:
发明专利
摘要
本发明实施例提供一种视频理解的方法、装置及计算机程序产品,属于视频和大数据领域,该方法包括:获取目标视频的描述文本、查询文本令牌及视觉令牌;对所述描述文本进行LLM推理、检索及区域扩展得到候选时间区域;对所述候选时间区域进行密集采样、检索和区域合并得到连续时间区域;根据查询文本令牌及视觉令牌确定注意力矩阵;根据所述注意力矩阵对所述连续时间区域进行语义相关度评估、剪枝和位置编码重构得到时空特征;根据所述时空特征生成所述目标视频的回答。该方法实现了高效高精度的长视频理解。
技术关键词
令牌
注意力
语义相关度
文本
视觉
矩阵
计算机程序产品
重构
编码
答案
高效高精度
序列
视频帧
大语言模型
生成事件
连续性
模块
层级
解码
系统为您推荐了相关专利信息
1
用于平面辅助视觉-惯性里程计的误差抑制方法和装置
误差抑制方法
惯性里程计
扩展卡尔曼滤波器
视觉
深度图
2
一种中文实时语音即时标点精准解码方法、装置及介质
实时语音
解码方法
接收器
转换文本
标签
3
一种大尺寸薄壁加筋结构内部质量非接触式检测系统
激光超声
自动化控制单元
薄壁加筋结构
成像模块
非接触式
4
问题提示词生成方法、系统及电子设备
文本
大语言模型
问答模型
生成方法
电子设备
5
片材分料搬运系统
吸盘组件
搬运系统
夹持机构
运输机构
夹持装置