AI资讯新闻榜单内容搜索-模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型
英伟达笑到最后!训练2000步,1.5B逆袭7B巨兽,Scaling真来了

英伟达笑到最后!训练2000步,1.5B逆袭7B巨兽,Scaling真来了

英伟达笑到最后!训练2000步,1.5B逆袭7B巨兽,Scaling真来了

强化学习可以提升LLM推理吗?英伟达ProRL用超2000步训练配方给出了响亮的答案。仅15亿参数模型,媲美Deepseek-R1-7B,数学、代码等全面泛化。

来自主题: AI技术研报
6506 点击    2025-06-22 16:32
大模型到底是怎么「思考」的?第一篇系统性综述SAE的文章来了

大模型到底是怎么「思考」的?第一篇系统性综述SAE的文章来了

大模型到底是怎么「思考」的?第一篇系统性综述SAE的文章来了

在 ChatGPT 等大语言模型(LLMs)席卷全球的今天,越来越多的研究者意识到:我们需要的不只是 “会说话” 的 LLM,更是 “能解释” 的 LLM。

来自主题: AI技术研报
7842 点击    2025-06-22 16:25
5年白领下岗,AGI靠RL一飞冲天?网友:这是让狗学会打麻将!

5年白领下岗,AGI靠RL一飞冲天?网友:这是让狗学会打麻将!

5年白领下岗,AGI靠RL一飞冲天?网友:这是让狗学会打麻将!

只靠强化学习,AGI就能实现?Claude-4核心成员放话「5年内AI干掉白领」,却被Karpathy等联手泼冷水!持续学习真的可能吗?RL的真正边界、下一代智能的关键转折点到底在哪儿?

来自主题: AI资讯
6952 点击    2025-06-22 16:13
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

强化学习(RL)已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习(Agentic RL),你几乎能在当今 AI 领域的每个领域看到强化学习的身影。

来自主题: AI技术研报
5813 点击    2025-06-22 16:08
7B智能体仅凭9个任务训练即超越R1!上交大打造AI-for-AI新范式

7B智能体仅凭9个任务训练即超越R1!上交大打造AI-for-AI新范式

7B智能体仅凭9个任务训练即超越R1!上交大打造AI-for-AI新范式

尽管人工智能(AI)在飞速发展,当前 AI 开发仍严重依赖人类专家大量的手动实验和反复的调参迭代,过程费时费力。

来自主题: AI技术研报
6833 点击    2025-06-22 15:58
假老罗打败真老罗?618一夜爆卖5500万!真相揭穿网友傻眼

假老罗打败真老罗?618一夜爆卖5500万!真相揭穿网友傻眼

假老罗打败真老罗?618一夜爆卖5500万!真相揭穿网友傻眼

刚刚过去的618,罗永浩又创下炸裂新纪录——被自己的AI分身打败了!在百度电商直播间,罗永浩数字人强势登场,不仅爆梗频出、神似度拉满,还一举打破老罗本人首秀纪录,成交额破5500万。这背后,大模型已成为幕后操盘手!

来自主题: AI资讯
6563 点击    2025-06-22 11:56
知识储备≠模型能力!DeepMind强化学习微调:大幅缩小「知行差距」

知识储备≠模型能力!DeepMind强化学习微调:大幅缩小「知行差距」

知识储备≠模型能力!DeepMind强化学习微调:大幅缩小「知行差距」

大语言模型(LLMs)在决策场景中常因贪婪性、频率偏差和知行差距表现欠佳。研究者提出强化学习微调(RLFT),通过自我生成的推理链(CoT)优化模型,提升决策能力。实验表明,RLFT可增加模型探索性,缩小知行差距,但探索策略仍有改进空间。

来自主题: AI技术研报
6162 点击    2025-06-22 11:34
月之暗面「调教」出最强Agent,在「人类最后一场考试」拿下最新 SOTA

月之暗面「调教」出最强Agent,在「人类最后一场考试」拿下最新 SOTA

月之暗面「调教」出最强Agent,在「人类最后一场考试」拿下最新 SOTA

这款 Agent 擅长多轮搜索和推理,平均每项任务执行 23 个推理步骤,访问超过 200 个网址。它是基于 Kimi k 系列模型的内部版本构建,并完全通过端到端智能体强化学习进行训练,也是国内少有的基于自研模型打造的 Agent。

来自主题: AI资讯
6683 点击    2025-06-21 19:42