
AI生成苹果Metal内核,PyTorch推理速度提升87%
AI生成苹果Metal内核,PyTorch推理速度提升87%AI自动生成的苹果芯片Metal内核,比官方的还要好?
AI自动生成的苹果芯片Metal内核,比官方的还要好?
当前AI大模型(LLM)训练与推理对算力的巨大需求,以及传统计算精度(如FP16/BF16)面临的功耗、内存带宽和计算效率瓶颈。
DeepSeek发布DeepSeek-V3.1,使用的UE8M0 FP8 Scale针对下一代国产芯片设计
这期对话把火力对准了一个不体面的真相:更聪明的“路由”和更苛刻的“成本”正重写 AI 商业化的脚本。
在AI以指数级加速迈向ASI的2025年,新智元迎来十周年历史时刻,将于9月7日在北京中关村软件园举办盛大峰会。大会以「新天终启,万象智生」为主题,汇聚百度王海峰、英伟达赖俊杰、百川智能王小川、昆仑万维方汉、未来智能胡郁等多位重量级嘉宾,共同探讨芯片、大模型、Agent、具身智能及医疗智能等全球ASI最前沿突破,展望ASI重塑人类社会的恢弘篇章。
阿里巴巴,被曝开发了一种新型AI芯片: 比“含光800”功能更强大,可服务于更广泛的AI推理任务。 而且不再由台积电代工,而是转为另一家中国大陆企业代工生产。
短短两天,寒武纪两度超越贵州茅台,成为 A 股第一高价「股王」。而推动用户预期不断攀升的,离不开 AI 市场的持续火热。
前些天,DeepSeek 在发布 DeepSeek V3.1 的文章评论区中,提及了 UE8M0 FP8 的量化设计,声称是针对即将发布的下一代国产芯片设计。
英伟达最新财报,营收和每股收益双双超预期! 刚刚公布的第二季度营收467亿美元,高出市场预期1.3%。 调整后每股收益1.05美元,也高于市场预期的1.01美元。
对于计算任务负载来说,越是专用,效率就越高,谷歌的 TPU 就是其中的一个典型例子。它自 2015 年开始在谷歌数据中心部署后,已经发展到了第 7 代。目前的最新产品不仅使用了最先进的制程工艺打造,也在架构上充分考虑了对于机器学习推理任务的优化。TPU 的出现,促进了 Gemini 等大模型技术的进展。