
AMD GPU性能暴涨7倍,优化算法首次开源!高效MoE支持任意专家数量
AMD GPU性能暴涨7倍,优化算法首次开源!高效MoE支持任意专家数量通过完全启用并发多块执行,支持任意专家数量(MAX_EXPERT_NUMBER==256),并积极利用共享内存(5kB LDS)和寄存器(52 VGPRs,48 SGPRs),MoE Align & Sort逻辑被精心设计,实现了显著的性能提升:A100提升3倍,H200提升3倍,MI100提升10倍,MI300X/MI300A提升7倍...
通过完全启用并发多块执行,支持任意专家数量(MAX_EXPERT_NUMBER==256),并积极利用共享内存(5kB LDS)和寄存器(52 VGPRs,48 SGPRs),MoE Align & Sort逻辑被精心设计,实现了显著的性能提升:A100提升3倍,H200提升3倍,MI100提升10倍,MI300X/MI300A提升7倍...
DeepSeek-R1掀起新一轮购卡潮的同时,AMD的含金量也上升了。
毅伯智算TORA3000性能超H20 1.8倍,FP8优化降本增效。
什么?H20都变抢手货,涨价10万那种?!
继首台DGX H200之后,OpenAI再次收到了英伟达的首批工程版DGX B200。外媒爆料称,由于微软提供算力不足,OpenAI正与甲骨文开始谈判了。
有经销商称已无法下单英伟达H20芯片,有终端厂商称部分国内经销商不再接H20订单。H20或将遭停售的传闻早已在业内传开,其命运走向受关注。业内多方反馈称,H20年内到货已超出全年预期。
两天前,马斯克得意自曝:团队仅用122天,就建成了10万张H100的Colossus集群,未来还会扩展到15万张H100和5万张H200。此消息一出,奥特曼都被吓到了:xAI的算力已经超过OpenAI了,还给员工承诺了价值2亿期权,这是要上天?
整个市场不再追求大而全,都在走小而精的路线了。
3D生成是生成式人工智能和计算机图形学领域最引人注目的话题之一,符合影视、游戏标准的3D生成尤其受产业界关注。在生产流程中,一般品类的3D资产往往通过手工建模或者扫描的方式制作。但作为3D资产的一个重要类别,服装资产的往往来源于平面板片与物理模拟等流程,而不是直接在3D上建模。
AMD在Computex主题演讲上大出风头,推出了首批Zen 5处理器,包括台式机用Ryzen 9000 CPU和笔记本电脑用Ryzen AI 300「Strix Point 」APU。除此之外,AMD还宣布了芯片年更计划以及备受期待的第五代EPYC Turin处理器。