摘要
本发明公开了一种基于复杂任务的高质量伪标注数据集构建方法,涉及多模态学习技术领域,包括,基于多模态原始数据构建跨模态因果图,并加载领域知识图谱,识别模态间混淆变量,并生成初始伪标签;通过强制切断跨模态因果图中非因果路径生成反事实样本,并对比原始样本与反事实样本的伪标签差异,生成跨模态去偏伪标签;结合跨模态去偏伪标签与语义一致性伪标签,融合生成多模态对齐、实体关系明确且语义一致的标准化伪标注数据集。本发明采用反事实干预框架,通过分析概率分布差异识别并消除跨模态交互中的非因果路径影响,有效抑制虚假关联。