
清华赵明国:智能人形机器人≠智能+人形 | 智者访谈
清华赵明国:智能人形机器人≠智能+人形 | 智者访谈2024 年,人形机器人领域迎来爆发式增长。特斯拉 Optimus 的持续迭代、OpenAI 对 1X 的战略投资,众多初创公司异军突起,以及包括 Mobile ALOHA 在内学术界的不断创新,共同描绘出一幅激动人心的未来图景。
2024 年,人形机器人领域迎来爆发式增长。特斯拉 Optimus 的持续迭代、OpenAI 对 1X 的战略投资,众多初创公司异军突起,以及包括 Mobile ALOHA 在内学术界的不断创新,共同描绘出一幅激动人心的未来图景。
Transformer自问世后就大放异彩,但有个小毛病一直没解决: 总爱把注意力放在不相关的内容上,也就是信噪比低。 现在微软亚研院、清华团队出手,提出全新改进版Differential Transformer,专治这个老毛病,引起热议。
随着扩散生成模型的发展,人工智能步入了属于 AIGC 的新纪元。扩散生成模型可以对初始高斯噪声进行逐步去噪而得到高质量的采样。当前,许多应用都涉及扩散模型的反演,即找到一个生成样本对应的初始噪声。当前的采样器不能兼顾反演的准确性和采样的质量。
探索更高效的模型架构, MoE是最具代表性的方向之一。 MoE架构的主要优势是利用稀疏激活的性质,将大模型拆解成若干功能模块,每次计算仅激活其中一小部分,而保持其余模块不被使用,从而大大降低了模型的计算与学习成本,能够在同等计算量的情况下产生性能优势。
清华大学推出的SonicSim平台和SonicSet数据集针对动态声源的语音处理研究提供了强有力的工具和数据支持,有效降低了数据采集成本,实验证明这些工具能有效提升模型在真实环境中的性能。
PUMA(emPowering Unified MLLM with Multi-grAnular visual generation)是一项创新的多模态大型语言模型(MLLM),由商汤科技联合来自香港中文大学、港大和清华大学的研究人员共同开发。它通过统一的框架处理和生成多粒度的视觉表示,巧妙地平衡了视觉生成任务中的多样性与可控性。
清华物理系传奇特奖得主Yao Shunyu,正式投身大模型,加入Anthropic的Claude团队。
视频内容的快速增长给视频检索技术,特别是细粒度视频片段检索(VCMR),带来了巨大挑战。VCMR 要求系统根据文本查询从视频库中精准定位视频中的匹配片段,需具备跨模态理解和细粒度视频理解能力。
国产AI视频大模型牵手国际顶尖IP!
家人们,OpenAI 又上新了!推出了全新的生成式模型sCM(Simplifying Continuous-Time Consistency Models),支持视频、图像、三维模型和音频的生成。