AI资讯新闻榜单内容搜索-算法

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 算法

AlphaGo之父找到创造强化学习算法新方法：让AI自己设计

AlphaGo之父找到创造强化学习算法新方法：让AI自己设计

AlphaGo之父找到创造强化学习算法新方法：让AI自己设计

强化学习是近来 AI 领域最热门的话题之一，新算法也在不断涌现。

来自主题: AI技术研报

7327 点击 2025-10-29 16:37

TPAMI 2025 | AI对抗迁移性评估的「拨乱反正」：那些年效果虚高的攻防算法们

TPAMI 2025 | AI对抗迁移性评估的「拨乱反正」：那些年效果虚高的攻防算法们

TPAMI 2025 | AI对抗迁移性评估的「拨乱反正」：那些年效果虚高的攻防算法们

对抗样本（adversarial examples）的迁移性（transferability）—— 在某个模型上生成的对抗样本能够同样误导其他未知模型 —— 被认为是威胁现实黑盒深度学习系统安全的核心因素。尽管现有研究已提出复杂多样的迁移攻击方法，却仍缺乏系统且公平的方法对比分析：（1）针对攻击迁移性，未采用公平超参设置的同类攻击对比分析；（2）针对攻击隐蔽性，缺乏多样指标。

来自主题: AI技术研报

7590 点击 2025-10-29 16:05

用「进化+压力测试」自动生成的竞赛级编程题，各家大模型谁更hold住？

用「进化+压力测试」自动生成的竞赛级编程题，各家大模型谁更hold住？

用「进化+压力测试」自动生成的竞赛级编程题，各家大模型谁更hold住？

在当前评测生成式模型代码能力的浪潮中，传统依赖人工编写的算法基准测试集，正日益暴露出可扩展性不足与数据污染严重两大瓶颈。

来自主题: AI技术研报

7997 点击 2025-10-29 10:03

DeepMind再登Nature：AI Agent造出了最强RL算法！

DeepMind再登Nature：AI Agent造出了最强RL算法！

DeepMind再登Nature：AI Agent造出了最强RL算法！

当AI开始「自己学会学习」，人类的角色正在被重写。DeepMind最新研究DiscoRL，让智能体在多环境交互中自主发现强化学习规则——无需人类设计算法。它在Atari基准中击败MuZero，在从未见过的游戏中依旧稳定高效。

来自主题: AI技术研报

10779 点击 2025-10-28 14:56

地理学的AlphaEvolve？MIT斯坦福让AI自我生长、懂地理、懂世界

地理学的AlphaEvolve？MIT斯坦福让AI自我生长、懂地理、懂世界

地理学的AlphaEvolve？MIT斯坦福让AI自我生长、懂地理、懂世界

让AI懂地理，它才会走得更远。GeoEvolve让AI从助理变成「地理学博士生」，自己修bug、改算法、进化模型——这下，科学家可能真的要有个AI同事了。MIT和斯坦福学者提出了GeoEvolve，尝试了这样一种探索：

来自主题: AI资讯

10198 点击 2025-10-28 13:34

腾讯发布SpecExit算法，无损压缩端到端加速2.5倍！解决大模型长思考效率难题

腾讯发布SpecExit算法，无损压缩端到端加速2.5倍！解决大模型长思考效率难题

腾讯发布SpecExit算法，无损压缩端到端加速2.5倍！解决大模型长思考效率难题

为破解大模型长思维链的效率难题，并且为了更好的端到端加速落地，我们将思考早停与投机采样无缝融合，提出了 SpecExit 方法，利用轻量级草稿模型预测 “退出信号”，在避免额外探测开销的同时将思维链长度缩短 66%，vLLM 上推理端到端加速 2.5 倍。

来自主题: AI技术研报

8908 点击 2025-10-24 16:53

AI五小时发现MoE新算法，比人类算法快5倍，成本狂降26%

AI五小时发现MoE新算法，比人类算法快5倍，成本狂降26%

AI五小时发现MoE新算法，比人类算法快5倍，成本狂降26%

加州大学伯克利分校的研究团队提出了一种AI驱动的系统研究方法ADRS（AI-Driven Research for Systems），它可以通过“生成—评估—改进”的迭代循环，实现算法的持续优化。

来自主题: AI资讯

8004 点击 2025-10-24 16:52

不用强化学习也能推理，哈佛新采样算法竟能让基础模型比肩GRPO后训练版本

不用强化学习也能推理，哈佛新采样算法竟能让基础模型比肩GRPO后训练版本

不用强化学习也能推理，哈佛新采样算法竟能让基础模型比肩GRPO后训练版本

强化学习能力强大，几乎已经成为推理模型训练流程中的标配，也有不少研究者在探索强化学习可以为大模型带来哪些涌现行为。

来自主题: AI技术研报

6387 点击 2025-10-24 10:33

X上63万人围观的Traning-Free GRPO：把GRPO搬进上下文空间学习

X上63万人围观的Traning-Free GRPO：把GRPO搬进上下文空间学习

X上63万人围观的Traning-Free GRPO：把GRPO搬进上下文空间学习

年初的 DeepSeek-R1，带来了大模型强化学习（RL）的火爆。无论是数学推理、工具调用，还是多智能体协作，GRPO（Group Relative Policy Optimization）都成了最常见的 RL 算法。

来自主题: AI技术研报

7854 点击 2025-10-23 11:41

AGI前夜重磅：RL突破模型「认知上限」，真·学习发生了！

AGI前夜重磅：RL突破模型「认知上限」，真·学习发生了！

AGI前夜重磅：RL突破模型「认知上限」，真·学习发生了！

UC Berkeley、UW、AI2 等机构联合团队最新工作提出：在恰当的训练范式下，强化学习（RL）不仅能「打磨」已有能力，更能逼出「全新算法」级的推理模式。他们构建了一个专门验证这一命题的测试框架 DELTA，并观察到从「零奖励」到接近100%突破式跃迁的「RL grokking」现象。

来自主题: AI技术研报

8891 点击 2025-10-22 11:33

上一页当前第11页,共46页下一页