AI资讯新闻榜单内容搜索-模型推理

阿里智能化研发起飞！RTP-LLM 实现 Cursor AI 1000 token/s 推理技术揭秘

RTP-LLM 是阿里巴巴大模型预测团队开发的高性能 LLM 推理加速引擎。它在阿里巴巴集团内广泛应用，支撑着淘宝、天猫、高德、饿了么等核心业务部门的大模型推理需求。在 RTP-LLM 上，我们实现了一个通用的投机采样框架，支持多种投机采样方法，能够帮助业务有效降低推理延迟以及提升吞吐。

来自主题: AI技术研报

7722 点击 2025-04-14 15:13

众所周知，大语言模型（LLM）往往对硬件要求很高。

来自主题: AI资讯

4130 点击 2025-04-09 08:51

Kimi 开放平台的朋友们，基于 Moonshot AI 一年来的技术积累和性能优化，我们已经在北京时间 2025 年 04 月 07 日 0 点对 Kimi 开放平台提供的模型推理服务进行价格调整，具体调整方案如下：

来自主题: AI资讯

4911 点击 2025-04-08 09:49

近年来，大语言模型（LLM）的性能提升逐渐从训练时规模扩展转向推理阶段的优化，这一趋势催生了「测试时扩展（test-time scaling）」的研究热潮。

来自主题: AI技术研报

9429 点击 2025-04-06 16:55

DeepSeek新论文来了！在清华研究者共同发布的研究中，他们发现了奖励模型推理时Scaling的全新方法。DeepSeek R2，果然近了。

来自主题: AI技术研报

8993 点击 2025-04-05 01:14

在大模型推理能力提升的探索中，工具使用一直是克服语言模型计算局限性的关键路径。不过，当今的大模型在使用工具方面还存在一些局限，比如预先确定了工具的使用模式、限制了对最优策略的探索、实现透明度不足等。

来自主题: AI技术研报

9706 点击 2025-04-02 10:09

本文探讨基于树搜索的大语言模型推理过程中存在的「过思考」与「欠思考」问题，并提出高效树搜索框架——Fetch。本研究由腾讯 AI Lab 与厦门大学、苏州大学研究团队合作完成。

来自主题: AI技术研报

5679 点击 2025-03-22 11:06

只要微调模型生成的前8-32个词，就能让大模型推理能力达到和传统监督训练一样的水平？

来自主题: AI技术研报

7816 点击 2025-03-12 13:41

本文介绍了一项突破性的AI推理技术创新——思维草图(SoT)框架。该框架从人类认知过程中获取灵感，通过一个200M大小的路由模型将LLM引导到概念链、分块符号化和专家词汇三种推理范式，巧妙地解决了大语言模型推理过程中的效率瓶颈。

来自主题: AI技术研报

7210 点击 2025-03-11 16:21

本文介绍了英特尔®至强®处理器在AI推理领域的优势，如何使用一键部署的镜像进行纯CPU环境下基于AMX加速后的DeepSeek-R1 7B蒸馏模型推理，以及纯CPU环境下部署DeepSeek-R1 671B满血版模型实践。

来自主题: AI技术研报

8558 点击 2025-03-04 10:23