
统一视觉理解与生成,MetaMorph模型问世,LeCun、谢赛宁、刘壮等参与
统一视觉理解与生成,MetaMorph模型问世,LeCun、谢赛宁、刘壮等参与如今,多模态大模型(MLLM)已经在视觉理解领域取得了长足进步,其中视觉指令调整方法已被广泛应用。该方法是具有数据和计算效率方面的优势,其有效性表明大语言模型(LLM)拥有了大量固有的视觉知识,使得它们能够在指令调整过程中有效地学习和发展视觉理解。
如今,多模态大模型(MLLM)已经在视觉理解领域取得了长足进步,其中视觉指令调整方法已被广泛应用。该方法是具有数据和计算效率方面的优势,其有效性表明大语言模型(LLM)拥有了大量固有的视觉知识,使得它们能够在指令调整过程中有效地学习和发展视觉理解。
近段时间,世界模型的相关研究成果正如雨后春笋版不断涌现,光是我们报道过的就已有南大周志华团队的世界模型 Whale、Yann LeCun 团队的世界模型研究、李飞飞 World Labs 的空间智能研究、谷歌的强大世界模型 Genie 2 以及刚刚开源的像是能模拟万物的生成式物理引擎 Genesis。
Ilya「预训练结束了」言论一出,圈内哗然。谷歌大佬Logan Klipatrick和LeCun站出来反对说:预训练还没结束!Scaling Law真的崩了吗?Epoch AI发布报告称,我们已经进入「小模型」周期,但下一代依然会更大。
三家最具价值的AI初创公司——Anthropic、OpenAI和xAI——都扎根美国。且美国有7家科技公司的市值达到万亿美元,而欧洲一家都没有。
最近,世界模型(World Models)似乎成为了 AI 领域最热门的研究方向。
Yoshua Bengio最近在《金融时报》的专栏文章中表示,「AI可以在说话之前学会思考」,实现内部的深思熟虑将成为AGI道路的里程碑。无独有偶,就在几个月前,Yann LeCun也多次表达过类似的观点。
就在刚刚,LeCun一反常态地表示:AGI离我们只有5到10年了!这个说法,跟之前的「永远差着10到20年」大相径庭。当然,他还是把LLM打为死路,坚信自己的JEPA路线。至此,各位大佬们的口径是对齐了,有眼力见儿的投资人该继续投钱了。
自从 Sora 横空出世,业界便掀起了一场「视频生成模型到底懂不懂物理规律」的争论。图灵奖得主 Yann LeCun 明确表示,基于文本提示生成的逼真视频并不代表模型真正理解了物理世界。之后更是直言,像 Sora 这样通过生成像素来建模世界的方式注定要失败。
今年诺贝尔奖颁给AI,是诺奖委员会感到压力的结果,需要承认深度学习的影响。 但物理奖颁给Hinton和Hopefield,获奖成果玻尔兹曼机和Hopefield网络现在完全无用。
当奥特曼、马斯克、Anthropic CEO都纷纷将AGI实现锚定在2026年前后,LeCun无疑是直接浇了冷水:完全是胡说八道。