NeurIPS 2025 Spotlight | NYU提出QSVD,仅数学压缩让模型更轻、更快、更稳
NeurIPS 2025 Spotlight | NYU提出QSVD,仅数学压缩让模型更轻、更快、更稳在多模态智能浪潮中,视觉语言模型(Vision-Language Models, VLM)已成为连接视觉理解与语言生成的核心引擎。从图像描述、视觉问答到 AI 教育和交互系统,它们让机器能够「看懂世界、说人话」。
在多模态智能浪潮中,视觉语言模型(Vision-Language Models, VLM)已成为连接视觉理解与语言生成的核心引擎。从图像描述、视觉问答到 AI 教育和交互系统,它们让机器能够「看懂世界、说人话」。
近年来,Stable Diffusion、CogVideoX 等视频生成模型在自然场景中表现惊艳,但面对科学现象 —— 如流体模拟或气象过程 —— 却常常 “乱画”:如下视频所示,生成的流体很容易产生违背物理直觉的现象,比如气旋逆向旋转或整体平移等等。
谷歌这次真要甩王炸了!CEO劈柴两个神秘表情,或暗示Gemini 3.0下周登场。一句话秒生OS、UI网页,前端工程师看完集体沉默。三年追赶,成败就在此一举。
数据处理显然就是打工人最核心的痛点之一,哪个职场“牛马”没有被工作中几百到上万条繁杂的Excel数据为难过呢?过程中不仅要从多种数据源粘贴数据,还要处理图片、文字等非结构化内容……
来⾃阿⾥巴巴夸克、北京⼤学、中⼭⼤学的研究者提出了⼀种新的解决⽅案:搜索自博弈 Search Self-play(SSP)⸺⼀种⾯向深度搜索 Agent 的⾃我博弈训练范式。其核⼼思路是:让⼀个模型同时扮演两个⻆⾊⸺「出题者」和「解题者」,它们在对抗训练中共同进化,使训练难度随着模型能⼒动态提升,最终形成⼀个⽆需⼈⼯标注的动态博弈⾃我进化过程。
糟糕!现在Agent也会这招了:原神,启动!咳咳,这其实是字节最新手搓出来的原神Agent——Lumine。不仅在《原神》里玩得很6,跑图开荒以及动辄几个小时的长主线任务,Lumine都能自己搞定,而且水平还不菜。
昨天测试了一款很拉跨的 AIGC 类产品,再也不用了。 我不清楚,为什么有些生成类的产品还在可劲强调生成能力,而不花心思做修改和编辑的体验。 一个项目做到九成,我们脑子里经常会冒出个错觉,好像离终点只
AGI之路,终于交汇到了世界模型的战场。 李飞飞,发布了旗下首款商用世界模型Marble;几乎同一时间,Lecun离职Meta,准备创立自己的世界模型公司;在此之前,谷歌旗下的世界模型Genie 3,也曾掀起业界轰动。
今年也是阿里从芯片到云到 PaaS 到大模型,再到顶层 agent 等全栈 AI 能力接入的首个双 11——世界范围内,从未有过如此大规模生产场景 AI 落地。 场景变化,用户量增加,叠加全栈 AI 接入——当双 11 技术备战进入第 17 个年头,其意义早已超越一次促销的技术保障。
这不,Flowith最近也搞了个新东西:FlowithOS,全球首款专为AI Agent打造的操作系统,重点是Windows用户也能用,终于不是Mac专属了:它的最大特点是:虽然长得像浏览器,但干的却是执行的事儿,能让Agent自己动鼠标、跑流程、干活。