
高效、可泛化的高斯重建框架,只需3张视图即可快速推理,45秒便可完成优化
高效、可泛化的高斯重建框架,只需3张视图即可快速推理,45秒便可完成优化3D 重建和新视图合成技术在虚拟现实和增强现实等领域有着广泛的应用。NeRF 通过隐式地将场景编码为辐射场,在视图合成上取得了显著的成功。
3D 重建和新视图合成技术在虚拟现实和增强现实等领域有着广泛的应用。NeRF 通过隐式地将场景编码为辐射场,在视图合成上取得了显著的成功。
深度学习领域知名研究者、Lightning AI 的首席人工智能教育者 Sebastian Raschka 对 AI 大模型有着深刻的洞察,也会经常把一些观察的结果写成博客。在一篇 5 月中发布的博客中,他盘点分析了 4 月份发布的四个主要新模型:Mixtral、Meta AI 的 Llama 3、微软的 Phi-3 和苹果的 OpenELM。
最近的一系列研究表明,纯解码器生成模型可以通过训练利用下一个 token 预测生成有用的表征,从而成功地生成多种模态(如音频、图像或状态 - 动作序列)的新序列,从文本、蛋白质、音频到图像,甚至是状态序列。
AlphaFold3的横空出世再次震撼了整个学术界,然而谷歌DeepMind的「不开源」引起学界不满,AlphaFold服务器遭到黑客攻击,开源项目也开始发力。
Anthropic的25岁参谋长自曝因为深感AGI,未来三年自己的工作将被AI取代。她在最近的一篇文章中预言了未来即将要被淘汰的工种。难道说,Claude 3模型已经初现AGI了吗?
通过视觉信息识别、理解人群的行为是视频监测、交互机器人、自动驾驶等领域的关键技术之一,但获取大规模的人群行为标注数据成为了相关研究的发展瓶颈。如今,合成数据集正成为一种新兴的,用于替代现实世界数据的方法,但已有研究中的合成数据集主要聚焦于人体姿态与形状的估计。它们往往只提供单个人物的合成动画视频,而这并不适用于人群的视频识别任务。
机器翻译 (MT) 的最新进展显着提高了各个领域的翻译质量。然而,由于其复杂的语言、比喻表达和文化差异,文学文本的翻译仍然是一个艰巨的挑战。
乘法和排序也有效。
虽然多模态大模型都能挑西瓜了,但理解复杂文档方面还是差点意思。
时空预测技术,迎来ChatGPT时刻。
最近,《柳叶刀》上的一篇医学文章发表了有关心血管疾病风险预测的里程碑式结果。之所以如此有影响力,是因为这项名为CaRi-Heart的技术结合了AI视觉识别和预测算法,可以在没有明显症状时提前10年识别出重大的心血管疾病风险。
LLM有记忆能力吗?有,也没有。虽然ChatGPT聊天时好像可以记住你之前说的话,但实际上,模型在推理时记不住任何内容,而且它们在训练时的记忆方式也不像我们想象的那么简单。
刚刚,谷歌DeepMind、JHU、牛津等发布研究,证实GPT-4的心智理论已经完全达到成年人类水平,在更复杂的第6阶推理上,更是大幅超越人类!此前已经证实,GPT-4比人类更能理解语言中的讽刺和暗示。在心智理论上,人类是彻底被LLM甩在后面了。
基于人工智能的数字内容生成,即 AIGC 在二维图像生成领域取得了很大的成功,但在三维生成方面仍存在挑战。智能化生成三维模型在 AR/VR、工业设计、建筑设计和游戏影视等方面都有应用价值,现有的智能化三维生成方法已经可以生成高质量的三维模型,但如何对生成结果进行精确控制,并对真实模型或生成的模型进行细节的修改,从而让用户自由定制高质量的三维模型仍然是一个待解决的问题。
未来人与人的交流,难道是这个样?
无需采集3D数据,也能训练出高质量的3D自动驾驶场景生成模型。
清华类脑计算研究中心施路平团队新成果,登上最新一期Nature封面。
中国的AI技术,登上联合国了!
由业内大佬Amnon Shashua创立的Mentee Robotics,突然放出大招,将AI的能力嵌入到机器人的各个层面,实现了与世界的动态交互。
Aya23在模型性能和语言种类覆盖度上达到了平衡,其中最大的35B参数量模型在所有评估任务和涵盖的语言中取得了最好成绩。
谁能想到,某天和你聊天的那个人竟是一个AI。来自TUM等研究人员提出了一种全新算法NPGA,能够生成高保真3D头像,表情逼真到让你怀疑自己的眼睛。
达摩院医疗AI,又达新里程碑!国际顶刊《自然·医学》直接将其评价为,开启「医疗影像AI的黄金时代」。就在昨天,世卫组织亦宣布与达摩院合作,向发展中国家推广这项来自中国的AI多癌早筛技术。
我国在类脑计算、类脑感知两个重要方向均已取得基础性突破。
每个token只需要5.28%的算力,精度就能全面对标Llama 3。
在LLM能力突飞猛进的当下,所有研究者似乎都在关注数据、算力、算法等模型开发的各个方面,但OpenAI研究员Jason Wei最近发布的一篇博客文章提醒我们,模型评估的工作同样非常重要。如何开发出优秀的评估测试,对AI能力的发展方向至关重要。
就在刚刚,法国AI初创公司Mistral发布了自家首款代码生成模型Codestral。不仅支持32K长上下文窗口以及80多种编程语言,而且还用22B的参数量取得了与70B的Llama 3相近的性能。目前,已经开放API与IDE插件供用户使用。
一直以来,UC伯克利团队的LMSYS大模型排行榜,深受AI圈欢迎。如今,最有实力的全新大模型排行榜SEAL诞生,得到AI大佬的转发。它最大的特点是在私有数据上,由专家严格评估,并随时间不断更新数据集和模型。
时隔3年,清华团队的研究再次登上Nature封面。刚刚,世界首个类脑互补视觉芯片Tianmouc重磅发布,灵感来源于人类视觉系统。它能以极低带宽和功耗采集图像信息,突破了传统的视觉感知挑战,自如应对开放世界中极端场景难题。
高质量图像编辑的方法有很多,但都很难准确表达出真实的物理世界。 那么,Edit the World试试。
搜集了328×204条数据,只为让机器人把开门这一件事做到极致。