摘要
本发明涉及计算机视觉与人工智能领域,尤其是涉及图像事件多模态语义分割方法、装置及设备,可应用于自动驾驶、机器人感知及智能交通等场景;通过固定时间窗口划分时间片并累积事件信息,将异步事件流转化为 T×H×W 体素张量;利用 Mamba 架构的选择性状态扫描机制,替代传统 Transformer 的自注意力机制,在建模全局特征依赖的同时将计算复杂度降低,解决 Transformer 高分辨率场景下显存与延迟问题;另外,通过跨空间交互对齐图像纹理与事件边缘、跨时间交互捕捉事件动态时序,再以残差连接保留模态固有特性,有效避免了过度融合导致的特征退化;最终有效提升了图像分割精度,同时提升了处理效率和模型鲁棒性。