AI资讯新闻榜单内容搜索-Zero

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: Zero

李飞飞/DeepSeek前员工领衔，复现R1强化学习框架，训练Agent在行动中深度思考

李飞飞/DeepSeek前员工领衔，复现R1强化学习框架，训练Agent在行动中深度思考

李飞飞/DeepSeek前员工领衔，复现R1强化学习框架，训练Agent在行动中深度思考

什么开源算法自称为DeepSeek-R1（-Zero）框架的第一个复现？

来自主题: AI技术研报

8538 点击 2025-04-25 15:35

业内首次! 全面复现DeepSeek-R1-Zero数学代码能力，训练步数仅需其1/10

业内首次! 全面复现DeepSeek-R1-Zero数学代码能力，训练步数仅需其1/10

业内首次! 全面复现DeepSeek-R1-Zero数学代码能力，训练步数仅需其1/10

OpenAI 的 o1 系列和 DeepSeek-R1 的成功充分证明，大规模强化学习已成为一种极为有效的方法，能够激发大型语言模型（LLM) 的复杂推理行为并显著提升其能力。

来自主题: AI技术研报

7960 点击 2025-04-23 14:04

用IBM的AutoPDL，让Agent的prompt实现数据驱动的自动优化，性能飙升68.9% |重磅

用IBM的AutoPDL，让Agent的prompt实现数据驱动的自动优化，性能飙升68.9% |重磅

用IBM的AutoPDL，让Agent的prompt实现数据驱动的自动优化，性能飙升68.9% |重磅

早在去年10月底IBM推出了PDL声明式提示编程语言，本篇是基于PDL的一种对Agent的自动优化方法，是工业界前沿的解决方案。当你在开发基于大语言模型的Agent产品时，是否曾经在提示模式选择和优化上浪费了大量时间？在各种提示模式（Zero-Shot、CoT、ReAct、ReWOO等）中选择最佳方案，再逐字斟酌提示内容，这一过程不仅耗时，而且常常依赖经验和直觉而非数据驱动的决策。

来自主题: AI技术研报

7489 点击 2025-04-16 09:18

AI涌现人类情感！希腊「乐之神」Orpheus开源，单卡可跑语音流式推理

AI涌现人类情感！希腊「乐之神」Orpheus开源，单卡可跑语音流式推理

AI涌现人类情感！希腊「乐之神」Orpheus开源，单卡可跑语音流式推理

开源语音模型Orpheus让LLM涌现出人类情感！在A100 40GB显卡上，30亿参数模型的流式推理速度甚至超过了音频播放速度。甚至可以zero-shot克隆声音。

来自主题: AI技术研报

7352 点击 2025-04-15 15:26

魔改AlphaZero后，《我的世界》AI老玩家问世，干活不用下指令

魔改AlphaZero后，《我的世界》AI老玩家问世，干活不用下指令

魔改AlphaZero后，《我的世界》AI老玩家问世，干活不用下指令

人和智能体共享奖励参数，这才是强化学习正确的方向？

来自主题: AI技术研报

8125 点击 2025-04-12 21:59

南洋理工&普渡大学提出CFG-Zero*：在Flow Matching模型中实现更稳健的无分类器引导方法

南洋理工&普渡大学提出CFG-Zero*：在Flow Matching模型中实现更稳健的无分类器引导方法

南洋理工&普渡大学提出CFG-Zero*：在Flow Matching模型中实现更稳健的无分类器引导方法

本篇论文是由南洋理工大学 S-Lab 与普渡大学提出的无分类引导新范式，支持所有 Flow Matching 的生成模型。目前已被集成至 Diffusers 与 ComfyUI。

来自主题: AI技术研报

9529 点击 2025-04-09 15:40

揭秘DeepSeek R1-Zero训练方式，GRPO还有极简改进方案

揭秘DeepSeek R1-Zero训练方式，GRPO还有极简改进方案

揭秘DeepSeek R1-Zero训练方式，GRPO还有极简改进方案

其实大模型在DeepSeek-V3时期就已经「顿悟」了？

来自主题: AI技术研报

10697 点击 2025-03-22 15:46

MM-Eureka：极少数据实现多模态推理的R1-Zero时刻

MM-Eureka：极少数据实现多模态推理的R1-Zero时刻

MM-Eureka：极少数据实现多模态推理的R1-Zero时刻

尽管 DeepSeek-R1 在单模态推理中取得了显著成功，但已有的多模态尝试（如 R1-V、R1-Multimodal-Journey、LMM-R1）尚未完全复现其核心特征。

来自主题: AI技术研报

8182 点击 2025-03-14 15:32

32B IOI奥赛击败DeepSeek-R1！Open R1开源复刻第三弹，下一步R1-Zero

32B IOI奥赛击败DeepSeek-R1！Open R1开源复刻第三弹，下一步R1-Zero

32B IOI奥赛击败DeepSeek-R1！Open R1开源复刻第三弹，下一步R1-Zero

Hugging Face的Open R1重磅升级，7B击败Claude 3.7 Sonnet等一众前沿模型。凭借CodeForces-CoTs数据集的10万高质量样本、IOI难题的严苛测试，以及模拟真实竞赛的提交策略优化，这款模型展现了惊艳的性能。

来自主题: AI资讯

9255 点击 2025-03-12 18:35

全球首次！2B复现DeepSeek-R1「啊哈时刻」，UCLA等用纯RL实现多模态推理

全球首次！2B复现DeepSeek-R1「啊哈时刻」，UCLA等用纯RL实现多模态推理

全球首次！2B复现DeepSeek-R1「啊哈时刻」，UCLA等用纯RL实现多模态推理

由UCLA等机构共同组建的研究团队，全球首次在20亿参数非SFT模型上，成功实现了多模态推理的DeepSeek-R1「啊哈时刻」！就在刚刚，我们在未经监督微调的2B模型上，见证了基于DeepSeek-R1-Zero方法的视觉推理「啊哈时刻」！

来自主题: AI技术研报

8031 点击 2025-03-05 20:42

上一页当前第3页,共6页下一页