
仅看视频就能copy人类动作,宇树G1分分钟掌握100+,UC伯克利提出机器人训练新方式
仅看视频就能copy人类动作,宇树G1分分钟掌握100+,UC伯克利提出机器人训练新方式不用动作捕捉,只用一段视频就能教会机器人学会人类动作,效果be like:
不用动作捕捉,只用一段视频就能教会机器人学会人类动作,效果be like:
随着 Deepseek 等强推理模型的成功,强化学习在大语言模型训练中越来越重要,但在视频生成领域缺少探索。复旦大学等机构将强化学习引入到视频生成领域,经过强化学习优化的视频生成模型,生成效果更加自然流畅,更加合理。并且分别在 VDC(Video Detailed Captioning)[1] 和 VBench [2] 两大国际权威榜单中斩获第一。
a16z (Andreessen Horowitz)是一家风险投资公司,以其多元化的投资领域著称。其热衷于为其投资公司提供策略和资源协助进而帮助它们取得成功。被投资公司包括Airbnb、Meta和Twitter等。Yoko和Justine为其投资合伙人。本次访谈两位合伙人分享了颠覆传统编程方式的AI编程——Vide Coding编程方式。
最近在看 Agent 方向的论文和产品,已经被各种进展看花了眼。但我发现,真正能超越 demo,能在 B 端场景扎实落地的却寥寥无几。
港中文和清华团队推出Video-R1模型,首次将强化学习的R1范式应用于视频推理领域。通过升级的T-GRPO算法和混合图像视频数据集,Video-R1在视频空间推理测试中超越了GPT-4o,展现了强大的推理能力,并且全部代码和数据集均已开源。
虽然扩散模型在视频生成领域展现出了卓越的性能,但是视频扩散模型通常需要大量的推理步骤对高斯噪声进行去噪才能生成一个视频。这个过程既耗时又耗计算资源。例如,HunyuanVideo [1] 需要 3234 秒才能在单张 A100 上生成 5 秒、720×1280、24fps 的视频。
随着 VR/AR、游戏娱乐、自动驾驶等领域对 3D 场景生成的需求不断攀升,从稀疏视角重建 3D 场景已成为一大热点课题。
又一家新晋AI独角兽出现了。
AI能像人类一样理解长视频。
AI 医疗公司 OpenEvidence 在 2 月份获得红杉资本新一轮的 7500 万美元融资,估值超过 10 亿美元,成为了新的 AI 独角兽。