
陈丹琦新作:大模型强化学习的第三条路,8B小模型超越GPT-4o
陈丹琦新作:大模型强化学习的第三条路,8B小模型超越GPT-4o结合RLHF+RLVR,8B小模型就能超越GPT-4o、媲美Claude-3.7-Sonnet。陈丹琦新作来了。他们提出了一个结合RLHF和RLVR优点的方法,RLMT(Reinforcement Learning with Model-rewarded Thinking,基于模型奖励思维的强化学习)。
结合RLHF+RLVR,8B小模型就能超越GPT-4o、媲美Claude-3.7-Sonnet。陈丹琦新作来了。他们提出了一个结合RLHF和RLVR优点的方法,RLMT(Reinforcement Learning with Model-rewarded Thinking,基于模型奖励思维的强化学习)。
GPT-5,你这家伙! 究竟还有什么事是我不知道的? 在一篇最新论文中,研究人员让它挑战了5个尚未解决的优化猜想。 结果它居然解出了其中3个!
老天奶,奥特曼对GPT的谈论,都跨越好几代来到GPT-8了!最近他在一档节目上,和量子计算奠基人戴维・多伊奇(David Deutsch)展开对话,针对两人存在分歧的“AI能否发展为具备意识的超级智能”议题,奥特曼搬出GPT-8来试图说服多伊奇:
采访时间不到1小时,信息密度却堪称爆炸! OpenAI首席科学家Jakub Pachocki和首席研究官Mark Chen开启同台爆料模式:氛围编码的下一步或许是氛围研究(Vibe Researching);
据 9to5Mac 报道,iOS 26.1、iPadOS 26.1 和 macOS Tahoe 26.1 开发者测试版隐藏的代码显示,苹果正在为 App Intents 引入 MCP 支持打基础。这也意味着未来,我们能让 ChatGPT、Claude 或其他任何兼容 MCP 的 AI 模型直接与 Mac、iPhone 和 iPad 应用交互。
王兴兴的大实话,在高通攒的这场局上,全交代了。目前机器人领域技术路线都不一样,导致看着热闹,但是进展没那么显著;既然现在大家开发的模型都还不能部署直接用,那还不如开放出来,就像OpenAI开源GPT-1/2一样;
ChatGPT Pulse(随时随地脉动回来)。OpenAI应用程序首席执行官Fidji Simo曾表示,“下一个前沿将是智能体,是能够代表你执行操作,并像队友一样与你并肩作战的AI助手。”
这是 OpenAI CEO 山姆・奥特曼迄今为止最喜欢的 ChatGPT 功能。本周五凌晨,OpenAI 宣布推出 ChatGPT 新功能「Pulse」的预览版,首先向 Pro 订阅用户开放。ChatGPT 现在会每天晚上主动进行研究,根据你每天的聊天记录、反馈以及日历等关联应用提供个性化更新。每天清晨,你都会收到一组自定义生成的,可能感兴趣的内容,出现在手机 App 上。
AGI解放80%日常工作,ASI创造超级科学家——阿里巴巴首次公开ASI蓝图,通义千问家族模型性能飙升,超越GPT-5,开启全模态智能时代。
GPT-5首次通过「哥德尔测试」,连破三大组合优化猜想!甚至,它能自主推翻原有猜想,给出全新有效解法,当场惊呆OpenAI研究科学家。OpenAI科学家Sebastien Bubeck惊叹地表示,这类开放性问题,顶尖博士生往往耗费数日才能解决。