CameraSquad:精准运镜,多视角一致——视频世界模型的空间智能新范式
CameraSquad:精准运镜,多视角一致——视频世界模型的空间智能新范式如今,CameraSquad 的出现,让这种多视角一致的视频生成与 3D 世界状态构建成为现实。近日,中国科学院大学高林研究员团队联合卡迪夫大学、香港科技大学和快手可灵团队,提出了一种面向多轨迹并行生成的相机可控视频生成方法 CameraSquad [1],相关论文已被 ACM SIGGRAPH 2026 录用。
搜索
如今,CameraSquad 的出现,让这种多视角一致的视频生成与 3D 世界状态构建成为现实。近日,中国科学院大学高林研究员团队联合卡迪夫大学、香港科技大学和快手可灵团队,提出了一种面向多轨迹并行生成的相机可控视频生成方法 CameraSquad [1],相关论文已被 ACM SIGGRAPH 2026 录用。
对于 AI 生成图像中可能存在的不自然伪影,我们是否不仅能够将其定位和解释,还能进一步对其进行修复,使图像恢复为更加真实、自然的视觉外观?围绕这一问题,来自北京大学等机构的研究者提出了 GenShield:一个统一的自回归框架,将 AI 生成图像检测 与 图像伪影修复 结合到同一个闭环中,实现从 “诊断” 到 “修复” 的一体化建模。
很多人认为这个数字不是随便挑的:美国政府向 Anthropic 下发出口管制指令、切断 Fable 5 与 Mythos 5 境外访问权限的那一刻,正是美国东部时间下午 5 点 21 分。「5 点 21」这个数字上的重复,被多家媒体解读为一次刻意设计的呼应。智谱选择在这个节点站出来,相当于当着全世界开发者的面说了一句话:你们担心的「模型随时可能被收回」,开源这边没有这个问题。
一觉醒来,AI的新潮流变成了养猫???火速围观一下,刚刚全球流式音视频模型赛道闯进了一匹黑马,能力SOTA级,模型名字就叫缅因猫(MaineCoon)。养过缅因猫的朋友都知道,这个品种有个外号叫「猫狗」,意思是几乎你走到哪儿,它就跟到哪儿,相当粘人,互动感MAX。
美国政府出口管制令刚落,坊间以为Anthropic最强模型Mythos要彻底消失。结果彭博社一锤炸响:仍有200多家银行和科技巨头,通过「玻璃之翼计划」继续使用Mythos预览版挖网络漏洞!
2011 年,Judea Pearl 凭借在因果推理领域的奠基性贡献获得图灵奖。他提出AI必须跨越三层:关联、干预、反事实。2018 年,他在面向大众的著作《The Book of Why》中将这一框架系统化为“因果之梯”。
今天,流形空间宣布完成新一轮数亿元融资。本轮投资方包括中国国新旗下国新基金,淡马锡旗下毅峰资本,产业资本北汽产投、芯能创投等。流形空间成立于2025年5月,一年以来已经累计完成6轮融资,Pre-A轮累计近10亿元,
早在3月20日,纽约时报的凯文·罗斯就发现了在硅谷开发者中,出现了一种叫做 Tokenmaxxing的现象。这个现象最早出现在OpenAI、Anthropic等前沿模型开发公司。OpenAI 的工程师一周用了 2100 亿个token,大概是 33 个维基百科的量;Claude Code 的工程师则一个月单人可以烧15万美元token。
银河通用团队用史上最大、整整 20 亿帧的动捕数据,训练出了全球首个人形机器人全身实时运控基座大模型,该模型零样本泛化全新动作,成功率从 MLP 架构的 76.89% 跃至 92.58%,推理延迟仅 0.39ms,效果超越英伟达 SONIC,甚至比目前业内主流 TWIST 系统速度提升至五倍。
属实给我整精神了,AI啥时候会干的这事??不卖关子了,这是HappyOyster 1.0(快乐生蚝)实现的,阿里ATH推出的可实时构建和交互的开放式世界模型产品。看到世界模型四个字,可能有朋友好奇:这和我之前玩的Sora那些有啥区别?不都是AI生成画面嘛?