扩展外部测试时Scaling Law,中关村学院新发现:轻量级验证器可解锁LLM推理最优选择
扩展外部测试时Scaling Law,中关村学院新发现:轻量级验证器可解锁LLM推理最优选择在大语言模型(LLM)席卷各类复杂任务的今天,“测试时扩展”(Test-Time Scaling,TTS)已成为提升模型推理能力的核心思路 —— 简单来说,就是在模型 “答题” 时分配更多的计算资源来让它表现更好。严格来说,Test-Time Scaling 分成两类:
在大语言模型(LLM)席卷各类复杂任务的今天,“测试时扩展”(Test-Time Scaling,TTS)已成为提升模型推理能力的核心思路 —— 简单来说,就是在模型 “答题” 时分配更多的计算资源来让它表现更好。严格来说,Test-Time Scaling 分成两类:
“用户”这个身份从人类转移到了Agent本身。换句话说,现在真正写代码的“程序员”,已经不再是人类,而是AI。
2025年11月4日,一家总部位于英国伦敦的人工智能公司Stability AI,赢得了一项具有里程碑意义的高等法院案件,该案审查了人工智能模型在未经许可的情况下使用大量受版权保护数据的合法性。而本案的原告,Getty Images 在针对人工智能公司 Stability AI 图像生成产品的英国诉讼中基本败诉。
1万伏的高压配网线路上,一台亮黄色的具身智能机器人正在替人类干活。
AI 驱动的商业革命,正在重新定义一个古老的问题——什么才是「会做生意」。
美国人工智能初创企业Perplexity宣布推出世界首个AI专利智能体(agent)——Perplexity Patents。Perplexity表示,其目标是带来人人可用的专利智能体,让知识产权情报触手可及。其瞄准的正是专利情报分析的行业痛点:长期以来,工程师、研究人员、专利从业者和企业领导者在进行专利检索时,往往需要结合关键词组合和对专利晦涩行文的掌握,才能获得全面的研究结果。
过去一年,AI模型的价格暴跌百倍!同样一句话,去年要10块,现在只要几分钱。可与此同时,家政、育儿、心理咨询、维修.....这些「手工活」越来越贵。科技正在疯狂通缩,生活却越来越通胀。这不是经济学笑话,而是Jevons与Baumol共同制造的现实:当机器更聪明,人工就更昂贵。
正与三星共同研发HBM4。
随着生成式 AI(如 Sora)的发展,合成视频几乎可以以假乱真,带来了深度伪造与虚假信息传播的风险。现有检测方法多依赖表层伪影或数据驱动学习,难以在高质量生成视频中保持较好的泛化能力。其根本原因在于,这些方法大都未能充分利用自然视频所遵循的物理规律,挖掘自然视频的更本质的特征。
谷歌遗珠与IBM预言:一文点醒Karpathy,扩散模型或成LLM下一步。