1.5B推理模型新SOTA,RL训练新解法打破「简单题过拟合、难题学不动」的魔咒
1.5B推理模型新SOTA,RL训练新解法打破「简单题过拟合、难题学不动」的魔咒QuestA(问题增强)引入了一种方法,用于提升强化学习中的推理能力。通过在训练过程中注入部分解题提示,QuestA 实现两项重大成果
QuestA(问题增强)引入了一种方法,用于提升强化学习中的推理能力。通过在训练过程中注入部分解题提示,QuestA 实现两项重大成果
2025年9月30日,荣耀阿尔法全球旗舰店在深圳湾万象城正式开业。作为荣耀阿尔法战略线下落地的核心载体,该旗舰店以“AI终端智慧生活创新工坊”为核心定位,既是科技与人文交融的全球旗舰新地标,也是链接AI领域志趣人群、生态伙伴的开放平台,为大湾区AI产业升级、新质生产力提升带来了具象化场景支撑,也为国庆中秋双节的大众科技文旅体验注入全新动能。
面向自动驾驶的多模态大模型在 “推理链” 上多以文字或符号为中介,易造成空间 - 时间关系模糊与细粒度信息丢失。FSDrive(FutureSightDrive)提出 “时空视觉 CoT”(Spatio-Temporal Chain-of-Thought),让模型直接 “以图思考”,用统一的未来图像帧作为中间推理步骤,联合未来场景与感知结果进行可视化推理。
AI Agent赋能出行领域,将带来怎样的全新体验?滴滴给出了自己的答案,于近日面向公众内测上线了小滴这款打车Agent,颠覆了滴滴自己亲手开创的打网约车的传统模式。
模型上下文协议 (MCP) 是连接 LLM/Agent 与外部工具的通信标准。它允许 LLM 动态发现并调用 API工具,将他们串成一个完整的工作流,从而实现自主规划、推理与执行。 上个月我们悄悄发布
近年来,以强化学习为核心的训练方法显著提升了大语言模型(Large Language Models, LLMs)的推理能力与对齐性能,尤其在理解人类意图、遵循用户指令以及增强推理能力方面效果突出。尽管现有综述对强化学习增强型 LLMs 进行了概述,但其涵盖范围较为有限,未能全面总结强化学习在 LLMs 全生命周期中的作用机制。
OpenAI DevDay不只是发布会,更是硅谷势力扩张的宣言。相比2023年仅靠ChatGPT撑场,如今生态布局已覆盖硬件、社交和浏览器,奥特曼或将发布ChatGPT浏览器,点燃AI编程新战场。
AI又又又帮陶哲轩解决了一个难题!消息来自陶本人最新发帖,他直言不讳地表示:甚至,如果没有AI,他也不会决定采用目前已经取得成功的关键策略。
全球文生图大模型王座,易主了。就在刚刚,LMArena竞技场发布了最新的文生图榜单,第一名来自中国,属于腾讯混元图像3.0!不仅超越了谷歌的Nano Banana,也超越了字节的Seedream和OpenAI的gpt-Image,在全球26个大模型中稳居第一。
奥特曼在一期访谈中,表示ChatGPT从1到10的艰难过程已过去,接下来从10到100可能会容易很多。除此之外,奥特曼也为我们揭秘了ChatGPT是如何诞生的,以及OpenAI的未来愿景等问题。