基于HDMI流的多模态智能语义理解与摘要生成系统及方法
申请号:CN202511130553
申请日期:2025-08-13
公开号:CN121029981A
公开日期:2025-11-28
类型:发明专利
摘要
本申请提供了一种基于HDMI流的多模态智能语义理解与摘要生成系统及方法,所述系统包括:HDMI输入模块,用于接收外部设备输出的视频信号;图像内容流式分析模块,被配置为对所述视频信号进行内容分割、光学字符识别、版面结构提取及图形要素检测,输出结构化图像数据;音频采集模块,用于采集音频信号并对所述音频信号进行预处理;语音识别模块,用于将预处理后的所述音频信号转写为语音文本;多模态融合与语义理解模块,被配置为对所述结构化图像数据和所述语音文本进行融合,生成摘要信息并输出至结果输出模块。本申请实现了多模态内容的实时同步分析以及摘要的智能化生成。
技术关键词
智能语义理解
摘要生成系统
版面结构
光学字符识别
HDMI输入
音频采集模块
语音识别模块
注意力机制
多尺度特征
内容分类
文本
大语言模型
图像
多模态
广义旁瓣抵消器
外部设备