一种基于多模态大模型的视频审核方法

申请号：CN202411025607

申请日期：2024-07-29

公开号：CN118968380B

公开日期：2025-04-11

类型：发明专利

摘要

本发明公开了一种基于多模态大模型的视频审核方法，包括：获取待审核视频，进行视频格式转换、视频质量提升等预处理操作，得到待审核多模态数据作为输入数据；输入数据为待审核多模态数据，包括图像序列Images、音频序列Audios、文本序列Texts；预处理得到多模态分类大模型网络，将输入数据输入至多模态分类大模型网络后输出分类结果及其对应分数，当分类结果为违规标签且对应分数大于预设阈值时，判定待审核视频为违规视频。本发明将图像特征、音频特征、文本特征使用改进注意力多模态特征融合方法进行特征融合，该方法能够充分利用不同模态信息的互补性，提高审核的准确性和鲁棒性。

技术关键词

视频审核方法多模态特征融合嵌入特征融合特征音频特征注意力权重特征网络文本序列数据图像输出特征标签全局平均池化模块

系统为您推荐了相关专利信息

基于非线性时空相对位置偏置的视频动作检测方法

视频动作检测方法非线性动作检测模型坐标立方体

模型优化方法、装置、计算平台及计算机存储介质

点击概率预测点击率预测模型优化方法分支计算机存储介质

基于唇语增强的语音交互方法、装置、设备及存储介质

语音交互方法音频特征关键点检测算法唇语特征跨模态

数字人视频生成方法、装置及计算机设备

三维人脸模型视频生成方法动画序列面部

基于人工智能的视频剪辑方法、装置、设备及介质

视频剪辑方法融合特征分区视频帧轻量级神经网络