「星动纪元」完成近3亿元Pre-A轮融资,专注原生机器人大模型+AI硬件平台
「星动纪元」完成近3亿元Pre-A轮融资,专注原生机器人大模型+AI硬件平台基于端到端纯学习方法,提高机器人复杂环境下的泛化性。
基于端到端纯学习方法,提高机器人复杂环境下的泛化性。
本期AGI路线图中关键节点:DiT架构、Stable Diffusion 3.0、Flux.1、ControlNet、1024×1024分辨率、医学影像、英伟达Eagle模型、谷歌Med-Gemini系列模型、GPT-4o端到端、Meta Transfusion模型。
大语言模型(Large Language Models, LLMs)的强大能力推动了 LLM Agent 的迅速发展。围绕增强 LLM Agent 的能力,近期相关研究提出了若干关键组件或工作流。然而,如何将核心要素集成到一个统一的框架中,能够进行端到端优化,仍然是一个亟待解决的问题。
芯片加速AI发展,AI反过来又推动芯片进步?
两个多月前那个对标GPT-4o的端到端语音模型,终于开源了。大神Karpathy体验之后表示:nice!
拔草星人的好消息来啦!中科院自动化所和阿里云一起推出了街景定位大模型,只要一张照片就能实现街道级精度的定位。
在AI-2.0时代,OCR模型的研究难道到头了吗!?
本文出自启元世界多模态算法组,共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥,研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1000+ 星标。
视频理解仍然是计算机视觉和人工智能领域的一个主要挑战。最近在视频理解上的许多进展都是通过端到端地训练多模态大语言模型实现的[1,2,3]。然而,当这些模型处理较长的视频时,内存消耗可能会显著增加,甚至变得难以承受,并且自注意力机制有时可能难以捕捉长程关系 [4]。这些问题阻碍了将端到端模型进一步应用于视频理解。
在"无人泊车show挑战"环节,64辆小鹏汽车实现了车辆离人自动泊车;在"编队相互绕行挑战"中,6辆小鹏G9以8分57秒创造了AI智驾“语音操控6辆汽车轮流绕桩时间最快”吉尼斯世界纪录荣誉。