一种基于大模型智能体多轮推理的长视频问答方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于大模型智能体多轮推理的长视频问答方法
申请号:CN202410943597
申请日期:2024-07-15
公开号:CN119202149A
公开日期:2024-12-27
类型:发明专利
摘要
本发明涉及一种基于大模型智能体多轮推理的长视频问答方法,根据问题和选项确定初始的关键帧序列,并生成选项的置信度分数,置信度分数用于提示大语言模型在输入信息不充分情况下依然能得到相对可靠的答案。定位的关键帧以网格化拼接的形式,和文本上下文一起输入大模型智能体推理预测答案。大模型智能体基于当前提供的信息和答案预测过程进行评估,决定是否需要进行下一轮次的迭代来补充缺失的视觉信息。自适应的多轮推理问答考虑到了不同类别的问题所需的视频帧数量的不同,有效提高了视频问答的准确率和质量。
技术关键词
视频问答方法 关键帧 查询特征 大语言模型 视频帧信息 视频帧特征 模块 图像编码器 生成答案 文本 序列 视觉特征 图片 多模态 时序 网格