摘要
本发明涉及通信箱系统技术领域,尤其为基于多模态大模型的智能通信箱系统及其控制方法,包括以下步骤:步骤1:视觉特征采集:采集现场多路摄像头图像,并提取视觉特征向量V,视觉特征向量V的数学表达式为:,式中,为第i路摄像头采集的视频帧,M为摄像头路数;步骤2:音频特征采集:采集麦克风阵列音频,并提取语音特征向量A,语音特征向量A的数学表达式为:,本发明中,基于基于多模态大模型,提升了带宽受限环境下的音视频保真度和链路鲁棒性,确保了关键区域和语义信息的高质量传输,并实现了从人工经验调参到端到端自动化的跨越式改进,满足救援通信对实时性、可靠性和可持续运行的严格要求。