AI资讯新闻榜单内容搜索-推理成本

速递｜Base44推出自研氛围编程模型Base1，降低对Anthropic等外部API依赖，降低推理成本

Base44 是一家 vibe-coding 平台，一年前被 Wix 以 8000 万美元收购。当时，这家公司成立还不到六个月，团队只有 8 个人。如今，Base44 开始推出自己的 AI 模型，帮助用户通过自然语言创建应用。

来自主题: AI资讯

8870 点击 2026-07-02 14:53

ICML 2026 Spotlight| 拒绝盲目猜token，阿里x浙大将投机解码带入弹性预算时代

随着大模型参数规模持续扩大，推理成本已经成为生产级 LLM 服务的核心瓶颈。投机解码（Speculative Decoding, SD）通过「小模型 draft + 大模型 verify」的方式，将多个候选 token 放到一次目标模型前向中并行验证，从而缓解自回归解码的串行瓶颈。

来自主题: AI技术研报

8447 点击 2026-05-13 15:01

国内首家百亿估值纯推理GPU独角兽诞生！专访曦望联席CEO王湛：谁的推理成本更低谁就是赢家

杭州速度，这个词组的含金量还在上升。

来自主题: AI资讯

9628 点击 2026-04-24 09:42

Transformer可以改装成Mamba了：苹果把推理成本直接打成线性

最近，苹果又整了个活儿，很工程、也挺关键：把又贵又强的 Transformer，改造成又便宜又差不多强的 Mamba。而且，性能基本没怎么掉。

来自主题: AI技术研报

8532 点击 2026-04-23 14:46

10秒视频token超5万，O(n²)跑不动？用后训练线性化框架实现1.71倍加速，推理成本大降｜CVPR'2026

视频生成进入大规模时代，但计算成本也炸了。

来自主题: AI技术研报

6560 点击 2026-03-10 14:32

腾讯AngelSlim升级，首个集LLM、VLM及语音多模态为一体的投机采样训练框架，推理速度飙升1.8倍

随着大模型步入规模化应用深水区，日益高昂的推理成本与延迟已成为掣肘产业落地的核心瓶颈。在 “降本增效” 的行业共识下，从量化、剪枝到模型蒸馏，各类压缩技术竞相涌现，但往往难以兼顾性能损耗与通用性。

来自主题: AI技术研报

10850 点击 2026-01-19 08:54

黄仁勋CES放出大杀器：下一代Rubin架构推理成本降10倍

「每隔 10 到 15 年，计算行业就会革新一次，每次都会催生出新形态的平台。现在，有两个转变在同时进行：应用将会构建于 AI 之上，你构建软件的方式也将改变。」

来自主题: AI资讯

9586 点击 2026-01-06 10:18

检索做大，生成做轻：CMU团队系统评测RAG的语料与模型权衡

在检索增强生成中，扩大生成模型规模往往能提升准确率，但也会显著抬高推理成本与部署门槛。CMU 团队在固定提示模板、上下文组织方式与证据预算，并保持检索与解码设置不变的前提下，系统比较了生成模型规模与检索语料规模的联合效应，发现扩充检索语料能够稳定增强 RAG，并在多项开放域问答基准上让小中型模型在更大语料下达到甚至超过更大模型在较小语料下的表现，同时在更高语料规模处呈现清晰的边际收益递减。

来自主题: AI技术研报

8495 点击 2026-01-06 09:30

OpenAI的2026：要么封神，要么破产

2026 年将是 OpenAI 的生死赛点。面对预计 170 亿美元的惊人现金黑洞和谷歌 Gemini 的凶猛反扑，奥特曼被迫启动「红色代码」。一边是史无前例的千亿融资计划，一边是推理成本倒挂的财务危机，这究竟是通往 AGI 的必经之路，还是硅谷最大的泡沫破裂前夜？

来自主题: AI资讯

8435 点击 2026-01-04 11:33

为MoE解绑：全新「专家即服务」推理架构发布，超细粒度扩展锐减37.5%成本

近年来，大型语言模型的参数规模屡创新高，随之而来的推理开销也呈指数级增长。如何降低超大模型的推理成本，成为业界关注的焦点之一。Mixture-of-Experts (MoE，混合专家) 架构通过引入大量 “专家” 子模型，让每个输入仅激活少数专家，从而在参数规模激增的同时避免推理计算量同比增长。

来自主题: AI技术研报

9342 点击 2025-10-13 15:49