
具身世界模型新突破,地平线 & 极佳提出几何一致视频世界模型增强机器人策略学习
具身世界模型新突破,地平线 & 极佳提出几何一致视频世界模型增强机器人策略学习近年来,随着人工智能从感知智能向决策智能演进,世界模型 (World Models)逐渐成为机器人领域的重要研究方向。世界模型旨在让智能体对环境进行建模并预测未来状态,从而实现更高效的规划与决策。
近年来,随着人工智能从感知智能向决策智能演进,世界模型 (World Models)逐渐成为机器人领域的重要研究方向。世界模型旨在让智能体对环境进行建模并预测未来状态,从而实现更高效的规划与决策。
近年来,diffusion Transformers已经成为了现代视觉生成模型的主干网络。随着数据量和任务复杂度的进一步增加,diffusion Transformers的规模也在快速增长。然而在模型进一步扩大的过程中,如何调得较好的超参(如学习率)已经成为了一个巨大的问题,阻碍了大规模diffusion Transformers释放其全部的潜能。
总是“死记硬背”“知其然不知其所以然”?
第一作者孙秋实是香港大学计算与数据科学学院博士生,硕士毕业于新加坡国立大学数据科学系。
中科院自动化所提出BridgeVLA模型,通过将3D输入投影为2D图像并利用2D热图进行动作预测,实现了高效且泛化的3D机器人操作学习。
今年的大模型已经「保底985、冲刺清北」了,明年还考吗? 果然,高考已经快被 AI 攻克了。
突破传统检索增强生成(RAG)技术的单一文本局限,实现对文档中文字、图表、表格、公式等复杂内容的统一智能理解。
谷歌把最新的文生图模型 Imagen 4,以及它的 Pro Max 版 Imagen 4 Ultra,放到了 AI Studio 和 API 里。
大模型公司之外的玩家,怎么参与AGI?这家公司来打样了!一枚磁吸超薄「随身大脑」,录音转写翻译思考样样精通。别不信,这简直是我们见过的Agent最有用的玩法,无数海外用户已经夸爆了。
我们先来回顾一下近期相关事件: 6 月 18 日,Midjourney 发布首个 AI 视频生成模型 V1,标志其从静态图像创作向动态多媒体内容生产转型。V1 支持上传或用其他模型生成图像来生成视频片段,但有无法生成音频、时长限制等不足。Midjourney 透露长期目标是将多种技术融合为"世界模型",使用户能在动态生成的虚拟环境中自由探索。