对标GPT-4o和香蕉!浙大开源ContextGen:布局身份协同新SOTA
对标GPT-4o和香蕉!浙大开源ContextGen:布局身份协同新SOTA浙江大学ReLER团队开源ContextGen框架,攻克多实例图像生成中布局与身份协同控制难题。基于Diffusion Transformer架构,通过双重注意力机制,实现布局精准锚定与身份高保真隔离,在基准测试中超越开源SOTA模型,对标GPT-4o等闭源系统,为定制化AI图像生成带来新突破。
浙江大学ReLER团队开源ContextGen框架,攻克多实例图像生成中布局与身份协同控制难题。基于Diffusion Transformer架构,通过双重注意力机制,实现布局精准锚定与身份高保真隔离,在基准测试中超越开源SOTA模型,对标GPT-4o等闭源系统,为定制化AI图像生成带来新突破。
在文生图(Text-to-Image)和视频生成领域,以FLUX.1、Emu3为代表的扩散模型与自回归模型已经能生成极其逼真的画面。
长期以来,具身智能系统主要依赖「感知 - 行动」的反应式回路,缺乏对未来的预测能力。而世界模型的引入,让智能体拥有了「想象」未来的能力。
还记得之前非常火的雪宝Olaf机器人吗?
2025 年还有一周结束,年底,AI 视频圈又卷起来了。
Sebastian 在分析中指出,Profit AI 的核心功能非常简单:用户上传一张股票图表的照片,AI 就会给出分析。他甚至直接展示了这个应用的全部技术:就是调用 ChatGPT API,上传图片,发送提示词,然后返回分析结果。如果你直接用 ChatGPT 做同样的事情,得到的信息几乎一模一样。这个应用唯一做的,就是把这个过程包装得更精美一些,界面更友好一些。
在 SIGGRAPH Asia 2025 期间,盛大 AI 东京研究院(Shanda AI Research Tokyo)以展台活动、BoF 学术讨论与顶尖教授闭门交流等形式完成首次公开亮相,标志着盛大在数字人的 “交互智能 (Interactive Intelligence)” 与世界模型的 “时空智能 (Spatiotemporal Intelligence)” 等两大方向的研究
最绝望的事,莫过于,错过了自己那个本该精彩的人生。所以,我突然有一个想法,就是AI明明现在都这么强了。那,为什么不可以,帮我挖掘我们自己真正的天赋呢?说干就干,在花了一下午时间,迭代了好多版Prompt之后。
和传统的游戏自动化脚本不同,这是一个完整的通用的大模型,不仅限于单一游戏的操作,能够玩遍市面上几乎全部的游戏类型。于是,让我们正式介绍主角,来自英伟达的最新开源基础模型 NitroGen。该模型的训练目标是玩 1000 款以上的游戏 —— 无论是 RPG、平台跳跃、吃鸡、竞速,还是 2D、3D 游戏,统统不在话下!
硬氪获悉,具身智能机器人公司飒智智能近期连续完成A++轮及A+++轮融资,累计金额达数亿元。我们总结了最新两轮融资信息和该公司几大亮点: