MIT融合新旧视觉技术,破解救援机器人导航瓶颈,无需标定,数秒生成3D场景
MIT融合新旧视觉技术,破解救援机器人导航瓶颈,无需标定,数秒生成3D场景在一场矿难救援中,时间意味着生命。想象一台搜救机器人在部分坍塌的矿井中穿行:浓烟、碎石、扭曲的金属梁。它必须在险象环生的环境中迅速绘制地图,识别路径,并精准定位自己的位置。
在一场矿难救援中,时间意味着生命。想象一台搜救机器人在部分坍塌的矿井中穿行:浓烟、碎石、扭曲的金属梁。它必须在险象环生的环境中迅速绘制地图,识别路径,并精准定位自己的位置。
在7000多种人类语言中,只有少数被现代语音技术听见,如今这种不平等或将被打破。Meta发布的Omnilingual ASR系统能识别1600多种语言,并可通过少量示例快速学会新语言。以开源与社区共创为核心,这项技术让每一种声音都有机会登上AI的舞台。
编程模型最新卷王来了。就在今天,火山引擎推出了面向Agentic编程任务深度优化的全新代码模型Doubao-Seed-Code。价格,调用价格国内最低,火山引擎还配套推出9块9套餐,一杯咖啡钱,就能搞定各种摸鱼小游戏——比如办公室躲老板(doge)。
昨晚,商汤正式发布并开源SenseNova-SI系列空间智能大模型,涵盖2B与8B两个版本。该系列模型在多个空间智能基准测试中均表现突出,其中SenseNova-SI-8B模型在VSI-Bench、MMSI-Bench、MindCube-Tiny与ViewSpatial四个核心任务上获得60.99的平均成绩
全开源多模态大模型(MLLM)的性能,长期被闭源和半开源模型“卡脖子”。
通用人工智能的终极瓶颈不是算法、算力和数据的“三驾马车”,而在思想史。
上周 Kimi K2 Thinking 发布,开源模型打败 OpenAI 和 Anthropic,让它社交媒体卷起不小的声浪,网友们都在说它厉害,我们也实测了一波,在智能体、代码和写作能力上确实进步明
AI的下一个十年,是构建空间智能的机器。李飞飞最新硬核长文,揭秘了空间智能「世界模型」核心框架和三大核心支柱。但「空间智能」究竟是什么?为何如此重要?该如何构建它?又该如何应用它?今天,李飞飞撰万字长文分享了自己关于构建和使用「世界模型」以解锁空间智能的思考。
在AI技术飞速发展的当下,「驻场交付工程师」(FDE)正成为连接实验室与市场的关键角色。他们兼具算法能力与业务洞察,深入客户现场,将抽象模型转化为可落地的解决方案。OpenAI、Anthropic、Cohere等公司纷纷扩充FDE团队,这个趋势也开始在国内蔓延,以打通AI落地的「最后一公里」。
本文基于研究者的系统性综述,围绕“AI Scientist(AI科学家)”这一新的概念展开,核心线索是研究者的六阶段方法论与三阶段演进轨迹;您如果正搭建一个可验证、可协作、可扩展的研究自动化体系,这篇综述更像一张总路线图而非空洞口号,有不少思路可以借鉴。