AI资讯新闻榜单内容搜索-Zero

Qwen负责人转发2025宝藏论文，年底重读「视觉领域GPT时刻」

2025最后几天，是时候来看点年度宝藏论文了。

来自主题: AI技术研报

5356 点击 2025-12-31 14:12

华人一作！Meta等复刻AlphaZero神话，AI甩开人类自修成神

当模型学会「左右互搏」的那一刻，平庸的模仿时代结束了，真正的硅基编程奇迹刚刚开始。

来自主题: AI技术研报

9563 点击 2025-12-29 09:06

告别GUI Agent工程基建噩梦：阶跃开源4B Agent模型，跑通所有安卓设备，手搓党一键部署

首次将GUI Agent模型与完整配套基建同步开放，支持手搓党一键部署！这就是阶跃星辰刚刚开源的GELab-Zero。其中4B版本的GUI Agent模型在手机端、电脑端等多个GUI榜单上全面刷新同尺寸模型性能纪录，取得SOTA成绩。

来自主题: AI资讯

8484 点击 2025-11-30 15:12

BFM-Zero，让人形机器人不再依赖高质量动捕数据

CMU×Meta 联手，姚班李忆唐最新论文成果。

来自主题: AI技术研报

7545 点击 2025-11-25 10:01

牛津VGG、港大、上交发布ELIP：超越CLIP等，多模态图片检索的增强视觉语言大模型预训练

多模态图片检索是计算机视觉和多模态机器学习领域很重要的一个任务。现在大家做多模态图片检索一般会用 CLIP/SigLIP 这种视觉语言大模型，因为他们经过了大规模的预训练，所以 zero-shot 的能力比较强。

来自主题: AI技术研报

6429 点击 2025-10-30 10:42

DeepMind再登Nature：AI Agent造出了最强RL算法！

当AI开始「自己学会学习」，人类的角色正在被重写。DeepMind最新研究DiscoRL，让智能体在多环境交互中自主发现强化学习规则——无需人类设计算法。它在Atari基准中击败MuZero，在从未见过的游戏中依旧稳定高效。

来自主题: AI技术研报

9687 点击 2025-10-28 14:56

仅100种子题，合成数据质量超GPT-5，阿里、上交提出Socratic-Zero框架

阿里巴巴与上海交通大学 EPIC Lab 联合提出 Socratic-Zero，一个完全无外部数据依赖的自主推理训练框架。该方法仅从 100 个种子问题出发，通过三个智能体的协同进化，自动生成高质量、难度自适应的课程，并持续提升模型推理能力。

来自主题: AI技术研报

7506 点击 2025-10-24 16:45

大模型智能体不止能写代码，还能被训练成白帽黑客

当人们还在惊叹大模型能写代码、能自动化办公时，它们正在悄然踏入一个更敏感、更危险的领域 —— 网络安全。

来自主题: AI技术研报

6075 点击 2025-09-12 11:36

Writing-Zero: 打破 AI 写作天花板, 让 AI 写作更像"人"

近年来, 大语言模型 (LLM) 在数学、编程等 "有标准答案" 的任务上取得了突破性进展, 这背后离不开 "可验证奖励" (Reinforcement Learning with Verifiable Rewards, RLVR) 技术的加持。RLVR 依赖于参考信号, 即通过客观标准答案来验证模型响应的可靠性。

来自主题: AI资讯

7715 点击 2025-07-31 11:02

首次结合RL与SFT各自优势，动态引导模型实现推理⾼效训练

新一代大型推理模型，如 OpenAI-o3、DeepSeek-R1 和 Kimi-1.5，在复杂推理方面取得了显著进展。该方向核心是一种名为 ZERO-RL 的训练方法，即采用可验证奖励强化学习（RLVR）逐步提升大模型在强推理场景 (math, coding) 的 pass@1 能力。

来自主题: AI技术研报

7093 点击 2025-07-28 10:36