AI资讯新闻榜单内容搜索-内存

将KV Cache预算降至1.5%！他们用进化算法把大模型内存占用砍下来了

只用 1.5% 的内存预算，性能就能超越使用完整 KV cache 的模型，这意味着大语言模型的推理成本可以大幅降低。EvolKV 的这一突破为实际部署中的内存优化提供了全新思路。

来自主题: AI技术研报

6404 点击 2025-09-15 08:33

“FP8 精度”如何赋能国产AI?

当前AI大模型（LLM）训练与推理对算力的巨大需求，以及传统计算精度（如FP16/BF16）面临的功耗、内存带宽和计算效率瓶颈。

来自主题: AI技术研报

5557 点击 2025-09-02 12:47

手机内存也有“公摊”，谷歌新机搞了个“AI专用”

不使用端侧AI的话，谷歌在Pixel 10上就有虚假宣传的嫌疑了。

来自主题: AI资讯

6817 点击 2025-09-02 12:37

英伟达再出手！新型混合架构模型问世，两大创新实现53.6倍吞吐提速

Transformer 架构对计算和内存的巨大需求使得大模型效率的提升成为一大难题。为应对这一挑战，研究者们投入了大量精力来设计更高效的 LM 架构。

来自主题: AI技术研报

6374 点击 2025-08-27 11:46

售价2万5！英伟达推出机器人“最强大脑”：AI算力飙升750%配128GB大内存，宇树已经用上了

英伟达直接把服务器级别的算力塞进了机器人体内。全新的机器人计算平台Jetson Thor正式发售，基于最新的Blackwell GPU架构，AI算力直接飙升到2070 TFLOPS，比上一代Jetson Orin提高至整整7.5倍，同时能效提高至3.5倍。

来自主题: AI资讯

7243 点击 2025-08-26 12:28

DeepSeek删豆包冲上热搜，大模型世子之争演都不演了

大模型“世子之争”，果然暗潮汹涌（doge）。这不“手机内存不够”怎么办，如果你问问DeepSeek老师：你和豆包删一个你删谁？

来自主题: AI资讯

5779 点击 2025-08-21 16:48

在笔记本上，部署 gpt-oss-120b 模型

今天，OpenAI 开源了俩模型：120B/20B 117B 的 gpt-oss-120b 对标 o4-min，按官方说法至少需要 80G 内存，推荐使用单卡 H100 GPU 而刚买的的游戏本，刚好满足gpt-oss-120b 的部署条件

来自主题: AI资讯

7947 点击 2025-08-07 15:27

速递｜字节旗下AI编程工具Trae涉嫌“偷跑”用户数据，内存占用超VSCode 5倍，官方回应新版本已大幅优化

近日，一位开发者在 GitHub 上公开警告称，字节跳动旗下 AI 编程环境 Trae IDE 存在在用户未明确知情的情况下，将数据上传至字节服务器的行为，即便用户已在设置中手动关闭遥测（Telemetry）功能。

来自主题: AI资讯

5980 点击 2025-07-31 11:39

ICML25|标点符号竟是LLM记忆核心！正确处理性能暴涨

近年来，大语言模型（LLM）的能力越来越强，但它们的“饭量”也越来越大。这个“饭量”主要体现在计算和内存上。当模型处理的文本越来越长时，一个叫做“自注意力（Self-Attention）”的核心机制会导致计算量呈平方级增长。这就像一个房间里的人开会，如果每个人都要和在场的其他所有人单独聊一遍，那么随着人数增加，总的对话次数会爆炸式增长。

来自主题: AI技术研报

5862 点击 2025-07-29 12:29

「有望成为Transformer杀手」，谷歌DeepMind新架构MoR实现两倍推理速度

大型语言模型已展现出卓越的能力，但其部署仍面临巨大的计算与内存开销所带来的挑战。随着模型参数规模扩大至数千亿级别，训练和推理的成本变得高昂，阻碍了其在许多实际应用中的推广与落地。

来自主题: AI技术研报

6007 点击 2025-07-18 11:58