AI资讯新闻榜单内容搜索-Zero

00后融资420万美金，用数学天才的方法解决AI最头疼的"找错信息"问题

你有没有发现，即使是最先进的AI系统，在面对复杂问题时仍然会给出令人沮丧的错误答案？问题往往不在于大语言模型本身，而在于它们根本找不到正确的信息。

来自主题: AI资讯

8831 点击 2025-07-17 11:08

性能提升84%-166%！L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

大模型可以不再依赖人类调教，真正“自学成才”啦？新研究仅通过RLVR（可验证奖励的强化学习），成功让模型自主进化出通用的探索、验证与记忆能力，让模型学会“自学”！

来自主题: AI技术研报

7214 点击 2025-07-01 10:06

刚刚，Bengio官宣创业！急筹3000万专治AI欺骗人类，图灵三巨头全下场

图灵奖得主Yoshua Bengio重磅官宣创办非营利机构LawZero，致力研发「设计即安全」的AI系统，以对抗AI军备竞赛带来的风险。主张构建不具行动性、以理解世界为目标的可信AI。

来自主题: AI资讯

6430 点击 2025-06-04 14:53

自进化零监督多Agent框架： MAS-ZERO，让AI因地制宜动态适应

主席在《矛盾论》中强调"具体问题具体分析，是Marxism的活的灵魂"。而在AI领域，我们终于有了一个能够践行这一哲学思想的技术框架——MAS-ZERO，帮我们构建能够因地制宜、因时制宜的智能系统。

来自主题: AI技术研报

7484 点击 2025-05-30 12:03

成本暴降88%！通义实验室、北大发布ZeroSearch，无需搜索即可激活LLM检索能力

信息检索能力对提升大语言模型 (LLMs) 的推理表现至关重要，近期研究尝试引入强化学习 (RL) 框架激活 LLMs 主动搜集信息的能力，但现有方法在训练过程中面临两大核心挑战：

来自主题: AI技术研报

6137 点击 2025-05-29 14:48

Qwen3-0.6B 能击败 Bert 吗？

新增 Qwen3-0.6B 在 Ag_news 数据集 Zero-Shot 的效果。新增 Qwen3-0.6B 线性层分类方法的效果。

来自主题: AI技术研报

9665 点击 2025-05-26 10:14

DeepSeek用的GRPO有那么特别吗？万字长文分析四篇精品论文

本文详细解读了 Kimi k1.5、OpenReasonerZero、DAPO 和 Dr. GRPO 四篇论文中的创新点，读完会对 GRPO 及其改进算法有更深的理解，进而启发构建推理模型的新思路。

来自主题: AI技术研报

10926 点击 2025-05-24 14:33

通义实验室新研究：大模型自己「扮演」搜索引擎，提升推理能力无需搜索API

强化学习（RL）+真实搜索引擎，可以有效提升大模型检索-推理能力。

来自主题: AI技术研报

8579 点击 2025-05-17 15:41

清华&通院推出"绝对零"训练法，零外部数据大模型自我博弈解锁推理能力

不用引入外部数据，通过自我博弈（Self-play）就能让预训练大模型学会推理？

来自主题: AI技术研报

7046 点击 2025-05-12 15:18

绝对零监督Absolute Zero：类AlphaZero自博弈赋能大模型推理，全新零数据训练范式问世

在人工智能领域，推理能力的进化已成为通向通用智能的核心挑战。近期，Reinforcement Learning with Verifiable Rewards（RLVR）范式下涌现出一批「Zero」类推理模型，摆脱了对人类显式推理示范的依赖，通过强化学习过程自我学习推理轨迹，显著减少了监督训练所需的人力成本。

来自主题: AI技术研报

8302 点击 2025-05-08 14:49

AI资讯新闻榜单内容搜索-Zero

00后融资420万美金，用数学天才的方法解决AI最头疼的"找错信息"问题

性能提升84%-166%！L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

刚刚，Bengio官宣创业！急筹3000万专治AI欺骗人类，图灵三巨头全下场

自进化零监督多Agent框架： MAS-ZERO，让AI因地制宜动态适应

成本暴降88%！通义实验室、北大发布ZeroSearch，无需搜索即可激活LLM检索能力

Qwen3-0.6B 能击败 Bert 吗？

DeepSeek用的GRPO有那么特别吗？万字长文分析四篇精品论文

通义实验室新研究：大模型自己「扮演」搜索引擎，提升推理能力无需搜索API

清华&通院推出"绝对零"训练法，零外部数据大模型自我博弈解锁推理能力

绝对零监督Absolute Zero：类AlphaZero自博弈赋能大模型推理，全新零数据训练范式问世

绝对零监督Absolute Zero：类AlphaZero自博弈赋能大模型推理，全新零数据训练范式问世