摘要
本申请涉及一种知识密集型视觉问答自动化数据生成方法及装置,其中,方法包括:根据静态图像、视频流和多媒体内容构建包含目标领域专业知识的原始视觉数据集;提取代表性帧序列,将音频信息转换为文本信息,并提取静态图像中的文字信息,以构建结构化视觉实例数据库;根据满足预设专业深度条件的提示文本建立包含领域知识、评估标准和生成规范的三级提示体系;根据主智能体与领域专家智能体的动态协作,生成对应的视觉问答对数据集;根据质量评估结果生成多智能体的质量评估体系;根据负例样本设计难度分级机制。本申请显著提升了视觉问答数据的专业性、准确性和多样性,为多模态大模型的训练与评估提供了可靠的数据支持。