从VLA到RoboOmni,全模态具身新范式让机器人察言观色、听懂话外音
从VLA到RoboOmni,全模态具身新范式让机器人察言观色、听懂话外音复旦⼤学、上海创智学院与新加坡国立⼤学联合推出全模态端到端操作⼤模型 RoboOmni,统⼀视觉、⽂本、听觉与动作模态,实现动作⽣成与语⾳交互的协同控制。开源 140K 条语⾳ - 视觉 - ⽂字「情境指令」真机操作数据,引领机器⼈从「被动执⾏⼈类指令」迈向「主动提供服务」新时代。
复旦⼤学、上海创智学院与新加坡国立⼤学联合推出全模态端到端操作⼤模型 RoboOmni,统⼀视觉、⽂本、听觉与动作模态,实现动作⽣成与语⾳交互的协同控制。开源 140K 条语⾳ - 视觉 - ⽂字「情境指令」真机操作数据,引领机器⼈从「被动执⾏⼈类指令」迈向「主动提供服务」新时代。
AI万丈高楼,终究要建在物理世界的地基之上。没有电,再强的GPU也只是一堆沙子。
「紫荆智康」日前完成近亿元天使轮融资,由星连资本领投,英诺天使和尚势资本跟投,本轮融资将主要用于紫荆AI医院(Agent Hospital)系统的研发、迭代与升级。紫荆智康成立于2024年9月,由清华大学智能产业研究院(AIR)孵化,清华大学计算机系教授、智能产业研究院执行院长刘洋发起
在一场矿难救援中,时间意味着生命。想象一台搜救机器人在部分坍塌的矿井中穿行:浓烟、碎石、扭曲的金属梁。它必须在险象环生的环境中迅速绘制地图,识别路径,并精准定位自己的位置。
在7000多种人类语言中,只有少数被现代语音技术听见,如今这种不平等或将被打破。Meta发布的Omnilingual ASR系统能识别1600多种语言,并可通过少量示例快速学会新语言。以开源与社区共创为核心,这项技术让每一种声音都有机会登上AI的舞台。
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 忍无可忍,LeCun离职Meta。 金融时报消息,LeCun向同事透露了自己的离职计划,下一步打算创业。 数个月的重重挤兑之下,一忍再忍的LeC
编程模型最新卷王来了。就在今天,火山引擎推出了面向Agentic编程任务深度优化的全新代码模型Doubao-Seed-Code。价格,调用价格国内最低,火山引擎还配套推出9块9套餐,一杯咖啡钱,就能搞定各种摸鱼小游戏——比如办公室躲老板(doge)。
昨晚,商汤正式发布并开源SenseNova-SI系列空间智能大模型,涵盖2B与8B两个版本。该系列模型在多个空间智能基准测试中均表现突出,其中SenseNova-SI-8B模型在VSI-Bench、MMSI-Bench、MindCube-Tiny与ViewSpatial四个核心任务上获得60.99的平均成绩
淘金者可能一无所获,但只要有人去淘金,铲子就总有销路。
2020年,当Grant Lee决定从微软的高级产品经理岗位上抽身而出时,他心中有一个巨大的“冲突”:他服务过的企业用户,每年要花费数百万小时在PowerPoint上进行重复的、毫无美感可言的排版工作。这些沉重且效率低下的工具,似乎成为了现代办公中不可撼动的“数字官僚主义”。Lee相信,这种低效的、基于静态幻灯片的演示方式,在即将到来的AI时代将彻底终结。他需要一把“剃刀”,来切断这种低效的循环。