Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强 Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强 关键词: Transformer+Mamba,Nemotron-H,模型训练,AI Nemotron-H模型混合了Transformer和Mamba架构,使长文本推理速度提升3倍,同时还能保持高性能,开源版本包括8B和56B尺寸。训练过程采用FP8训练和压缩技术,进一步提高了20%推理速度 来自主题: AI产品测评 6380 点击 2025-04-20 20:47