一种面向视觉文本交互的多模态数据融合方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种面向视觉文本交互的多模态数据融合方法及系统
申请号:CN202411115252
申请日期:2024-08-14
公开号:CN119203021A
公开日期:2024-12-27
类型:发明专利
摘要
本发明公开了一种面向视觉文本交互的多模态数据融合方法及系统,其中,所述方法包括:对原始视频数据和原始文本数据进行预处理;基于时空图卷积模型对该原始视频数据进行视觉特征嵌入,获得视觉特征表示;基于BERT模型对该原始文本数据进行分层语义聚合处理,获得文本特征表示;基于交互关系矩阵利用视觉特征表示和文本特征表示生成聚合外观节点表示和聚合运动节点表示以生成目标视觉表示;对目标视觉表示和文本特征表示进行融合,获得视觉文本联合表示,并基于视觉文本联合表示执行视觉文本交互任务。本发明解决了现有的多模态数据融合技术中,语义融合层次浅和视觉文本交互简单的问题。
技术关键词
数据融合方法 文本 视觉特征 运动特征 节点 BERT模型 矩阵 卷积模型 对象 表达式 视频 实体 语义模板 集成视觉 关系 句法分析技术