一种基于大语言模型的视频理解方法及系统

申请号：CN202410825619

申请日期：2024-06-25

公开号：CN118865196B

公开日期：2025-08-29

类型：发明专利

摘要

本发明涉及视频处理技术领域，具体说是一种基于大语言模型的视频理解方法及系统，包括获取视频问答示例，形成视频问答数据集，对所述视频问答数据集进行预处理，获得视频问答数据集的向量表示特征，将已有文本‑图像模型改组为视频特征提取模型，利用所述视频特征提取模型处理向量表示特征，获取视频分析结果向量特征，利用大语言模型分析视频分析结果向量特征，得到对应视频问答示例的答案，本发明通过数据预处理、模型训练以及冻结的大语言模型来进行视频理解问答，可以提高回答准确率，并节省训练算力以及数据资源。

技术关键词

视频特征提取视频分析视频理解方法空间注意力网络时序文本大语言模型多模态信息参数图像数据矩阵理解系统视频处理程序答案通道语言分析