AI资讯新闻榜单内容搜索-Token

扩散语言模型新发现：其计算潜力正在被浪费？

按从左到右的顺序依次生成下一个 token 真的是大模型生成方式的最优解吗？最近，越来越多的研究者对此提出质疑。其中，有些研究者已经转向一个新的方向 —— 掩码扩散语言模型（MDLM）。

来自主题: AI技术研报

9586 点击 2025-10-31 09:50

最新进展，Cursor 2.0正式发布，并且首次搭载了「内部」大模型。没错，不是GPT、不是Claude，如今模型栏多了个新名字——Composer。实力相当炸裂：据官方说法，Composer仅需30秒就能完成复杂任务，比同行快400%

来自主题: AI资讯

8010 点击 2025-10-30 09:14

彭超曾在华为印度、阿里任消费硬件业务1号位；联合创始人齐炜祯为Multi-token架构开创学者，被Deepseek、Qwen引入预训练方法。

来自主题: AI资讯

6597 点击 2025-10-28 10:43

自回归（AR）大语言模型逐 token 顺序解码的范式限制了推理效率；扩散 LLM（dLLM）以并行生成见长，但过去难以稳定跑赢自回归（AR）模型，尤其是在 KV Cache 复用、和可变长度支持上仍存挑战。

来自主题: AI技术研报

7522 点击 2025-10-27 16:46

太卷了，DeepSeek-OCR刚发布不到一天，智谱就开源了自家的视觉Token方案——Glyph。既然是同台对垒，那自然得请这两天疯狂点赞DeepSeek的卡帕西来鉴赏一下：

来自主题: AI技术研报

8357 点击 2025-10-22 23:58

魔幻啊魔幻。全球顶级咨询公司麦肯锡，居然收到了OpenAI最近给Tokens消耗大客户颁发的奖牌。麦肯锡自己还怪自豪的，第一时间就把奖牌po到了领英上。

来自主题: AI资讯

6543 点击 2025-10-21 16:42

针对「大模型推理速度慢，生成token高延迟」的难题，莫纳什、北航、浙大等提出R-Stitch框架，通过大小模型动态协作，衡量任务风险后灵活选择：简单任务用小模型，关键部分用大模型。实验显示推理速度提升最高4倍，同时保证高准确率。

来自主题: AI技术研报

6568 点击 2025-10-18 12:21

目前，所有主流 LLM 都有一个固定的上下文窗口（如 200k, 1M tokens）。一旦输入超过这个限制，模型就无法处理。即使在窗口内，当上下文变得非常长时，模型的性能也会急剧下降，这种现象被称为「上下文腐烂」（Context Rot）：模型会「忘记」开头的信息，或者整体推理能力下降。

来自主题: AI资讯

7187 点击 2025-10-17 16:12

在AI浪潮中，蚂蚁集团重磅推出万亿参数思考模型Ring-1T，不仅在数学竞赛上刷新开源SOTA，还在逻辑推理和医疗问答中脱颖而出。实测显示，其推理能力直逼闭源巨头，开源AI迈入万亿参数时代。

来自主题: AI资讯

7046 点击 2025-10-15 14:48

对于大模型的强化学习已在数学推理、代码生成等静态任务中展现出不俗实力，而在需要与开放世界交互的智能体任务中，仍面临「两朵乌云」：高昂的 Rollout 预算（成千上万的 Token 与高成本的工具调用）和极其稀疏的「只看结果」的奖励信号。

来自主题: AI技术研报

8060 点击 2025-10-15 12:07