
ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天
ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天在 2024 世界经济论坛的一次会谈中,图灵奖得主 Yann LeCun 提出用来处理视频的模型应该学会在抽象的表征空间中进行预测,而不是具体的像素空间 [1]。借助文本信息的多模态视频表征学习可抽取利于视频理解或内容生成的特征,
在 2024 世界经济论坛的一次会谈中,图灵奖得主 Yann LeCun 提出用来处理视频的模型应该学会在抽象的表征空间中进行预测,而不是具体的像素空间 [1]。借助文本信息的多模态视频表征学习可抽取利于视频理解或内容生成的特征,
Sora 的发布让整个 AI 领域为之狂欢,但 LeCun 是个例外。
最近几天,Sora 成为了全世界关注的焦点。与之相关的一切,都被放大到极致。
扩散模型,迎来了一项重大新应用——像Sora生成视频一样,给神经网络生成参数,直接打入了AI的底层!
去年年底,谷歌 Gemini 震撼了业界,它是谷歌「最大、最有能力和最通用」的 AI 系统,号称第一个原生多模态大模型,能力超越 GPT-4,也被认为是谷歌反击微软和 OpenAI 的强大工具。
现实不存在了?这么说还为时尚早。最近,Sora各种不符合现实的图出圈了,惹网友爆笑。LeCun、DeepMind大佬、马斯克都纷纷下场了,而一位动画师表示,自己完全不担心被Sora淘汰。
短短几天,「世界模型」雏形相继诞生,AGI真的离我们不远了?Sora之后,LeCun首发AI视频预测架构V-JEPA,能够以人类的理解方式看世界。
把小扎从元宇宙大坑中拯救出来的,居然是开源AI!市值大涨的Meta,现在能让小扎一年分红7亿美元。股价图一出,LeCun都评论:有意思。
只需一张照片,整个过程无需训练 LoRA 模型,多风格 AI 写真即刻呈现!
一项ICLR拒稿结果让AI研究者集体破防,纷纷刷起小丑符号。争议论文为Transformer架构挑战者Mamba,开创了大模型的一个新流派。发布两个月不到,后续研究MoE版本、多模态版本等都已跟上。