Agent的RL和LLM的RL是一回事吗?牛津用500+论文写成综述,一次说清Agentic RL
Agent的RL和LLM的RL是一回事吗?牛津用500+论文写成综述,一次说清Agentic RL当我们谈论大型语言模型(LLM)的"强化学习"(RL)时,我们在谈论什么?从去年至今,RL可以说是当前AI领域最炙手可热的词汇。
当我们谈论大型语言模型(LLM)的"强化学习"(RL)时,我们在谈论什么?从去年至今,RL可以说是当前AI领域最炙手可热的词汇。
最近,小编注意到一位全栈工程师 Rohith Singh 在Reddit上发表了一篇帖子,介绍他如何对四个模型(Kimi K2 Thinking、Sonnet 4.5、GPT-5 Codex 和 GPT-5.1 Codex)进行了实测。
为了同时解决知识的实时性和推理的复杂性这两大挑战,搜索智能体(Search Agent)应运而生。它与 RAG 的核心区别在于,Search Agent 能够通过与实时搜索引擎进行多轮交互来分解并执行复杂任务。这种能力在人物画像构建,偏好搜索等任务中至关重要,因为它能模拟人类专家进行深度、实时的资料挖掘。
今天的朋友圈,被一款叫「灵光」的APP刷屏了。了解了一下,这是一款来自蚂蚁集团的AI 应用,定位是面向普通人的零门槛全模态 AI 助手,还可以自然语言30秒生成可互动的小应用。这让我想到了还在预热,这周即将发布的Gemini3.0,一句话生成操作系统,这都给了我们一个无限想象力的画面。未来,AI生成的边界是什么?
近日,外媒一篇关于阿里 AI 全面入局 C 端之战,秘密启动「千问」项目的报道,在坊间引起各种猜测,甚至连相关的「阿里食堂烧鸭饭」都上了好几次热搜。没办法,大家太好奇了。
2025 年,AI 产业正在经历一场关键转折。
AI新王来了!马斯克Grok 4.1静默上线,一夜之间登顶LMArena,Gemini 2.5 Pro却被按在地上摩擦。主打情商智商在线,算力又扩增一个数量级。这一次,Grok 4.1一共放出了两大版本:Grok 4.1 Thinking和Grok 4.1。
昨天千问之后。 今天,一个全新的AI助手,灵光,正式宣布加入战场。。 来自蚂蚁,对,就是做支付宝的那个蚂蚁。 咱就是说,最近是发生了什么... 怎么感觉,零售大战打完,整个阿里系,决定要来大AI入口大
基层医生的AI好助手来了!国产AI,更懂中国医生。
具身智能领域影响力最大的两位博士创业了。
高强度招聘 AI 人才的同时,字节 Seed 的核心研究者也在外流。
你敢信,国内大厂的万人年度大会,从邀请函、官网到留资、参会、签到、现场活动的整套系统由AI凭几句话生成,智能体正在从“可玩”走向“可用”。
大家好,我是Jomy,是智跃Zleap的CEO,也是Zleap产品和技术的主要设计者。此前在报道中,我曾粗略介绍过Zleap产品背后的技术:一个能帮助CEO自动整理、总结海量企业内部信息的智能Agent。今天,我要正式为大家介绍驱动这个Agent的底层技术:SAG。
贝佐斯亲身下场物理AI了,亲自担任CEO的那种。 纽约时报消息,这名前世界首富创立了一家新公司并亲自担任联席CEO。而且资金实力雄厚,包括贝佐斯本人出资在内,该公司已获得62亿美元资金。
最近看了不少早期硬件创业项目,逐渐发现 AI 的能力确实是一批新兴硬件公司和硬件品类的「惊蛰」时刻。
疯狂小扎他急了……
GPT-5不再只是更聪明的模型,而是一台学会犹豫的机器。它能判断问题的难度,分配自己的思考时间,甚至决定何时该停下。OpenAI副总裁Jerry Tworek在最新访谈中透露:GPT-5的真正突破,是让AI拥有了「时间感」。当机器学会克制,人类却愈加焦躁。也许我们教给AI的,不只是如何思考,而是如何重新做人。
我们的大脑蕴藏着待解的进化密码,而AI的未来或许正系于此。
CUDA 代码的性能对于当今的模型训练与推理至关重要,然而手动编写优化 CUDA Kernel 需要很高的知识门槛和时间成本。与此同时,近年来 LLM 在 Code 领域获得了诸多成功。
AI创作正在成为B站上新的流量密码。而且诸多信号显示着这种密码的有效性。
中科大 LDS 实验室何向南、王翔团队与 Alpha Lab 张岸团队联合开源 MiniOneRec,推出生成式推荐首个完整的端到端开源框架,不仅在开源场景验证了生成式推荐 Scaling Law,还可轻量复现「OneRec」,为社区提供一站式的生成式推荐训练与研究平台。
今年阿里第三次集中力量办大事。
离开Meta的大佬们,留下作品还在陆续发表,今天轮到田渊栋。
在多数基层门诊里,一个医生往往要从早忙到晚,患者一拨接一拨。
「Voice Image」创始人 Nick Lahoika 出生在白俄罗斯,后来移民到爱沙尼亚才开始学习英语,跨语言的生活环境让他在很长一段时间内都对表达缺乏自信,直到遇到了一位专业声音教练。他才意识到表达是可以训练的,这也成为其创业的起点。
根据投资实习所的报道,前字节跳动算法负责人陈志杰创立的 Verdent AI 近期完成了由腾讯领投、红杉中国等老股东跟投的 A 轮融资,金额在数千万美元,估值或已突破 2 亿美元。这使 Verdent
具身智能的Scaling Law正蓄势待发。
上周,来自 Anthropic 的研究人员表示,他们最近观察到“首个由 AI 协同操作的网络攻击行动”,在一次针对数十个目标的攻击活动中,他们检测到有黑客使用该公司的 Claude AI 工具参与行动。不过,外部研究人员对 Anthropic 这一发现的评价要谨慎得多。
世界模型,着实有点火!今天,李飞飞重磅访谈放出,从AI革命兴起到下一个智能前沿——具备空间智能的世界模型。一场访谈,可以窥见AI教母关于AI未来的深刻洞察。
在号称「史上最严管控AI」的顶级会议ICLR 2026上,评审区却悄悄被大模型攻占。每五条审稿意见里,就有一条几乎全由AI一键生成。当作者怀疑评审是机器人写的、审稿人又怀疑论文是模型拼的,同行评审这台「科学秩序的发动机」,正一点点滑向一场没人承认、却无处不在的自动化实验。