妈妈再也不用担心延迟了!斯坦福手搓Llama超级内核,推理仅需0.00068秒 妈妈再也不用担心延迟了!斯坦福手搓Llama超级内核,推理仅需0.00068秒 关键词: AI,Megakernel,模型训练,人工智能 斯坦福Hazy实验室推出新一代低延迟推理引擎「Megakernel」,将Llama-1B模型前向传播完整融合进单一GPU内核,实现推理时间低于1毫秒。在B200上每次推理仅需680微秒,比vLLM快3.5倍。 来自主题: AI技术研报 7871 点击 2025-05-30 12:36