
让机器人在人群中穿梭自如,港科广&港科大突破社交导航盲区 | ICRA 2025
让机器人在人群中穿梭自如,港科广&港科大突破社交导航盲区 | ICRA 2025机器人落地复杂场景,社交导航能力一定是避不开的关键一点。
机器人落地复杂场景,社交导航能力一定是避不开的关键一点。
你是否曾经用最先进的大语言模型处理企业文档,却发现它把财务报表中的“$1,234.56”读成了“123456”?或者在处理医疗记录时,将“0.5mg”误读为“5mg”?对于依赖数据准确性的运营和采购团队来说,这些问题不仅影响工作效率,更可能导致财务损失、法律风险甚至造成医疗事故。
今日,Dyna Robotics 宣布完成数千万美元的种子轮融资。本轮融资由硅谷风投 CRV 和 First Round Capital 领投,真格基金参与投资。Dyna Robotics 致力于为各类企业打造AI驱动的机器人。公司机器人通过「一次专注一个任务」的方式,从折叠到备餐等各类任务入手,让其具身智能基础模型能在真实生产场景中以高性价比不断学习和成长,最终迈向通用型具身智能的目标。
香港科技大学谭平教授团队在 CVPR 2025 发表两项三维生成技术框架,核心代码全部开源,助力三维生成技术的开放与进步。其中 Craftman3D 获得三个评委一致满分,并被全球多家知名企业如全球最大的多人在线游戏创作平台 Roblox, 腾讯混元 Hunyuan3D-2,XR 实验室的 XR-3DGen 和海外初创公司 CSM 的 3D 创作平台等重量级项目的引用与认可。
虽然大多数强化学习(RL)方法都在使用浅层多层感知器(MLP),但普林斯顿大学和华沙理工的新研究表明,将对比 RL(CRL)扩展到 1000 层可以显著提高性能,在各种机器人任务中,性能可以提高最多 50 倍。
随着传统的人工智能基准测试技术显得力不从心,AI 构建者正转向更具创意的方法来评估生成式 AI 模型的能力。
就在刚刚,OpenAI 宣布在其 API 中推出全新一代音频模型,包括语音转文本和文本转语音功能,让开发者能够轻松构建强大的语音 Agent。据 OpenAI 介绍,新推出的 gpt-4o-transcribe 采用多样化、高质量音频数据集进行了长时间的训练,能更好地捕获语音细微差别,减少误识别,大幅提升转录可靠性。
如果你让当今的 LLM 给你生成一个创意时钟设计,使用提示词「a creative time display」,它可能会给出这样的结果:
科技圈再掀波澜,一家名为Graphite的纽约人工智能初创公司,正式名称为Screenplay Studios Inc.,今日宣布成功斩获高达5200万美元的B轮融资,为这家专注于颠覆传统代码审查模式的新星注入了强劲动力。
从自动驾驶、机器人导航,到AR/VR等前沿应用,SLAM都是离不开的核心技术之一。