RLinf上新πRL:在线强化学习微调π0和π0.5
RLinf上新πRL:在线强化学习微调π0和π0.5近年来,基于流匹配的 VLA 模型,特别是 Physical Intelligence 发布的 π0 和 π0.5,已经成为机器人领域备受关注的前沿技术路线。流匹配以极简方式建模多峰分布,能够生成高维且平滑的连续动作序列,在应对复杂操控任务时展现出显著优势。
近年来,基于流匹配的 VLA 模型,特别是 Physical Intelligence 发布的 π0 和 π0.5,已经成为机器人领域备受关注的前沿技术路线。流匹配以极简方式建模多峰分布,能够生成高维且平滑的连续动作序列,在应对复杂操控任务时展现出显著优势。
在 3D 视觉领域,如何从二维图像快速、精准地恢复三维世界,一直是计算机视觉与计算机图形学最核心的问题之一。从早期的 Structure-from-Motion (SfM) 到 Neural Radiance Fields (NeRF),再到 3D Gaussian Splatting (3DGS),技术的演进让我们离实时、通用的 3D 理解越来越近。
静默中的时代转折:RockAlpha铺展AI交易、思考与对话的明日图景,用户不再旁观,而是与AI共博弈,开启AI交易新时代。
大模型一个token一个token生成,效率太低怎么办?
机器人使用灵巧手帮人类在工厂里拧螺丝,在家里切菜做饭的一天何时可以到来?为了实现这一愿景,旨在解决灵巧操作技能 sim-to-real 难题的 DexNDM 应运而生。
在大语言模型(LLM)席卷各类复杂任务的今天,“测试时扩展”(Test-Time Scaling,TTS)已成为提升模型推理能力的核心思路 —— 简单来说,就是在模型 “答题” 时分配更多的计算资源来让它表现更好。严格来说,Test-Time Scaling 分成两类:
一直以来,关于人工生命(Artificial Life, ALife)的研究致力于回答这样一个问题:生命的复杂性能否在计算系统中自然涌现?
当前机器人领域,基础模型主要基于「视觉-语言预训练」,这样可将现有大型多模态模型的语义泛化优势迁移过来。但是,机器人的智能确实能随着算力和数据的增加而持续提升吗?我们能预测这种提升吗?
智东西11月4日消息,11月3日,美国生成式AI医疗独角兽Hippocratic AI宣布完成1.26亿美元(约合人民币8.97亿元)的C轮融资,谷歌母公司Alphabet旗下独立成长基金CapitalG参投。此轮融资也让该公司的估值达35亿美元(约合人民币249.24亿元),总融资额达到4.04亿美元(约合人民币28.77亿美元)。
十年前,「黑手党」这个词还属于PayPal。十年后,它成了OpenAI。那些离开OpenAI的人,没有远去,而是在外部重建另一个OpenAI。他们互相投资、互相背书,从算法到资本,织出一张无形的权力网。AI的故事,看似在讲技术,其实是在讲权力的继承。当算法学会模仿人类,人类也在用算法,复制自己的帝国。