一种基于大模型智能体多轮推理的长视频问答方法

申请号：CN202410943597

申请日期：2024-07-15

公开号：CN119202149A

公开日期：2024-12-27

类型：发明专利

摘要

本发明涉及一种基于大模型智能体多轮推理的长视频问答方法，根据问题和选项确定初始的关键帧序列，并生成选项的置信度分数，置信度分数用于提示大语言模型在输入信息不充分情况下依然能得到相对可靠的答案。定位的关键帧以网格化拼接的形式，和文本上下文一起输入大模型智能体推理预测答案。大模型智能体基于当前提供的信息和答案预测过程进行评估，决定是否需要进行下一轮次的迭代来补充缺失的视觉信息。自适应的多轮推理问答考虑到了不同类别的问题所需的视频帧数量的不同，有效提高了视频问答的准确率和质量。

技术关键词

视频问答方法关键帧查询特征大语言模型视频帧信息视频帧特征模块图像编码器生成答案文本序列视觉特征图片多模态时序网格