AI资讯新闻榜单内容搜索-Test-Time

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: Test-Time

仅0.2B就比GPT-4.1强？加州大学新指标：组合推理基准首次超越人类

仅0.2B就比GPT-4.1强？加州大学新指标：组合推理基准首次超越人类

仅0.2B就比GPT-4.1强？加州大学新指标：组合推理基准首次超越人类

加州大学河滨分校团队发现，AI组合推理表现不佳部分源于评测指标过于苛刻。他们提出新指标GroupMatch和Test-Time Matching算法，挖掘模型潜力，使GPT-4.1在Winoground测试中首次超越人类，0.2B参数的SigLIP-B16在MMVP-VLM基准测试上超越GPT-4.1并刷新最优结果。这表明模型的组合推理能力早已存在，只需合适方法在测试阶段解锁。

来自主题: AI技术研报

8086 点击 2025-11-09 15:33

扩展外部测试时Scaling Law，中关村学院新发现：轻量级验证器可解锁LLM推理最优选择

扩展外部测试时Scaling Law，中关村学院新发现：轻量级验证器可解锁LLM推理最优选择

扩展外部测试时Scaling Law，中关村学院新发现：轻量级验证器可解锁LLM推理最优选择

在大语言模型（LLM）席卷各类复杂任务的今天，“测试时扩展”（Test-Time Scaling，TTS）已成为提升模型推理能力的核心思路 —— 简单来说，就是在模型 “答题” 时分配更多的计算资源来让它表现更好。严格来说，Test-Time Scaling 分成两类：

来自主题: AI技术研报

8441 点击 2025-11-06 14:59

突破单链思考上限，清华团队提出原生「并行思考」scale范式

突破单链思考上限，清华团队提出原生「并行思考」scale范式

突破单链思考上限，清华团队提出原生「并行思考」scale范式

近年来，大语言模型（LLMs）在复杂推理任务上的能力突飞猛进，这在很大程度上得益于深度思考的策略，即通过增加测试时（test-time）的计算量，让模型生成更长的思维链（Chain-of-Thought）。

来自主题: AI技术研报

7970 点击 2025-09-18 14:49

告别无效计算！新TTS框架拯救19%被埋没答案，推理准确率飙升

告别无效计算！新TTS框架拯救19%被埋没答案，推理准确率飙升

告别无效计算！新TTS框架拯救19%被埋没答案，推理准确率飙升

大语言模型通过 CoT 已具备强大的数学推理能力，而 Beam Search、DVTS 等测试时扩展（Test-Time Scaling, TTS）方法可通过分配额外计算资源进一步提升准确性。然而，现有方法存在两大关键缺陷：路径同质化（推理路径趋同）和中间结果利用不足（大量高质量推理分支被丢弃）。

来自主题: AI技术研报

9674 点击 2025-09-03 12:03

蛋白质基座的GPT时代来了？！

蛋白质基座的GPT时代来了？！

蛋白质基座的GPT时代来了？！

蛋白质模型的GPT时刻来了！清华大学智能产业研究院（AIR）周浩副教授课题组联合上海人工智能实验室发布了AMix-1：首次以Scaling Law、Emergent Ability、In-Context Learning和Test-time Scaling的系统化方法论来构建蛋白质基座模型。

来自主题: AI技术研报

8224 点击 2025-08-10 16:00

视频生成1.3B碾压14B、图像生成直逼GPT-4o！港科&快手开源测试时扩展新范式

视频生成1.3B碾压14B、图像生成直逼GPT-4o！港科&快手开源测试时扩展新范式

视频生成1.3B碾压14B、图像生成直逼GPT-4o！港科&快手开源测试时扩展新范式

测试时扩展（Test-Time Scaling）极大提升了大语言模型的性能，涌现出了如 OpenAI o 系列模型和 DeepSeek R1 等众多爆款。那么，什么是视觉领域的 test-time scaling？又该如何定义？

来自主题: AI技术研报

8850 点击 2025-06-10 16:18

翁荔最新万字长文：Why We Think

翁荔最新万字长文：Why We Think

翁荔最新万字长文：Why We Think

《Why We Think》。这就是北大校友、前OpenAI华人VP翁荔所发布的最新万字长文—— 围绕“测试时计算”（Test-time Compute）和“思维链”（Chain-of-Thought，CoT），讨论了如何通过这些技术显著提升模型性能。

来自主题: AI资讯

9540 点击 2025-05-19 13:15

突破大模型推理瓶颈！首篇「Test-Time Scaling」全景综述，深入剖析AI深思之道

突破大模型推理瓶颈！首篇「Test-Time Scaling」全景综述，深入剖析AI深思之道

突破大模型推理瓶颈！首篇「Test-Time Scaling」全景综述，深入剖析AI深思之道

当训练成本飙升、数据枯竭，如何继续激发大模型潜能？

来自主题: AI技术研报

9334 点击 2025-05-13 14:48

清华耶鲁推理模型新范式：动态推理实现高效测试时扩展，大大节省Token消耗

清华耶鲁推理模型新范式：动态推理实现高效测试时扩展，大大节省Token消耗

清华耶鲁推理模型新范式：动态推理实现高效测试时扩展，大大节省Token消耗

推理性能提升的同时，还大大减少Token消耗！

来自主题: AI技术研报

8862 点击 2025-04-08 09:25

三思而后行，让大模型推理更强的秘密是「THINK TWICE」？

三思而后行，让大模型推理更强的秘密是「THINK TWICE」？

三思而后行，让大模型推理更强的秘密是「THINK TWICE」？

近年来，大语言模型（LLM）的性能提升逐渐从训练时规模扩展转向推理阶段的优化，这一趋势催生了「测试时扩展（test-time scaling）」的研究热潮。

来自主题: AI技术研报

10379 点击 2025-04-06 16:55

上一页当前第2页,共3页下一页