AI老司机现身重庆!徐峥挑战赛车手,上演「不再囧途」
AI老司机现身重庆!徐峥挑战赛车手,上演「不再囧途」从重庆魔幻山城到全球Robotaxi布局,千里科技展现出将AI融入物理世界的雄心。董事长印奇的「千里计划」——One Brain, One OS, One Agent——勾勒出跨场景智能生态,让汽车成为高效、安全的现实世界入口和未来的人类伙伴。
从重庆魔幻山城到全球Robotaxi布局,千里科技展现出将AI融入物理世界的雄心。董事长印奇的「千里计划」——One Brain, One OS, One Agent——勾勒出跨场景智能生态,让汽车成为高效、安全的现实世界入口和未来的人类伙伴。
由华中科技大学与小米汽车提出了业内首个无需 OCC 引导的多模态的图像 - 点云联合生成框架 Genesis。该算法只需基于场景描述和布局(包括车道线和 3D 框),就可以生成逼真的图像和点云视频。
视觉-语言-动作模型是实现机器人在复杂环境中灵活操作的关键因素。然而,现有训练范式存在一些核心瓶颈,比如数据采集成本高、泛化能力不足等。
谷歌最新发布的Gemini Robotics 1.5系列模型,让机器人真正学会了「思考」,还能跨不同具身形态学习技能。这意味着,未来的机器人将成为和人类协作、主动完成复杂任务的智能伙伴。
本论文第一作者张勇为北京理工大学医学技术学院计算机技术专业硕士生,主要研究方向为联邦学习,多专家大模型,多任务学习和并行代理。通讯作者是深圳北理莫斯科大学人工智能研究院梁锋博士和胡希平教授。梁锋博士毕
深夜,阿里通义大模型团队连放三个大招:开源原生全模态大模型Qwen3-Omni、语音生成模型Qwen3-TTS、图像编辑模型Qwen-Image-Edit-2509更新。Qwen3-Omni能无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音输出。
近日,明略科技推出的基于多模态基础模型的网页 GUI 智能体 Mano,凭借其强大的性能,在行业内公认的两大挑战基准 ——Mind2Web 和 OSWorld 上同时刷新纪录,取得当前最佳成绩(SOTA)。
谢集,浙江大学竺可桢学院大四学生,于加州大学伯克利分校(BAIR)进行访问,研究方向为统一多模态理解生成大模型。第二作者为加州大学伯克利分校的 Trevor Darrell,第三作者为华盛顿大学的 Luke Zettlemoyer,通讯作者是 XuDong Wang, Meta GenAl Research Scientist、
阿里昨晚放大招,正式开源通义DeepResearch,一举登顶碾压OpenAI、DeepSeek。模型、框架、方案全部开源,背后核心技术报告一同公开了。
这听起来像科幻电影,但Phota Labs正在让这一切成为现实。这家由前Adobe AI研究员创立的公司刚刚获得了由Andreessen Horowitz领投的560万美元种子轮融资,他们正在用个性化的视觉AI技术彻底重新定义摄影的边界。