对标GPT-4o和香蕉!浙大开源ContextGen:布局身份协同新SOTA
对标GPT-4o和香蕉!浙大开源ContextGen:布局身份协同新SOTA浙江大学ReLER团队开源ContextGen框架,攻克多实例图像生成中布局与身份协同控制难题。基于Diffusion Transformer架构,通过双重注意力机制,实现布局精准锚定与身份高保真隔离,在基准测试中超越开源SOTA模型,对标GPT-4o等闭源系统,为定制化AI图像生成带来新突破。
浙江大学ReLER团队开源ContextGen框架,攻克多实例图像生成中布局与身份协同控制难题。基于Diffusion Transformer架构,通过双重注意力机制,实现布局精准锚定与身份高保真隔离,在基准测试中超越开源SOTA模型,对标GPT-4o等闭源系统,为定制化AI图像生成带来新突破。
在文生图(Text-to-Image)和视频生成领域,以FLUX.1、Emu3为代表的扩散模型与自回归模型已经能生成极其逼真的画面。
在 SIGGRAPH Asia 2025 期间,盛大 AI 东京研究院(Shanda AI Research Tokyo)以展台活动、BoF 学术讨论与顶尖教授闭门交流等形式完成首次公开亮相,标志着盛大在数字人的 “交互智能 (Interactive Intelligence)” 与世界模型的 “时空智能 (Spatiotemporal Intelligence)” 等两大方向的研究
和传统的游戏自动化脚本不同,这是一个完整的通用的大模型,不仅限于单一游戏的操作,能够玩遍市面上几乎全部的游戏类型。于是,让我们正式介绍主角,来自英伟达的最新开源基础模型 NitroGen。该模型的训练目标是玩 1000 款以上的游戏 —— 无论是 RPG、平台跳跃、吃鸡、竞速,还是 2D、3D 游戏,统统不在话下!
硬氪获悉,具身智能机器人公司飒智智能近期连续完成A++轮及A+++轮融资,累计金额达数亿元。我们总结了最新两轮融资信息和该公司几大亮点:
如果你的 Gemini 突然告诉你,它感到深深的羞耻,或者它因为害怕犯错而夜不能寐,你会怎么想?
前阵子带大家盘的学生 Gemini Pro会员,今天排上用场了。6 块钱拿下 Gemini 教育优惠,12.12 实测有效(5分钟搞定)最近在折腾 Gemini 的反重力,因为是真的香。(真香.jpg)
2025年底,最令人印象深刻的AI圈大事莫过于Gemini 3 Flash的发布。
尽管扩散模型在单图像生成上已经日渐成熟,但当任务升级为高度定制化的多实例图像生成(Multi-Instance Image Generation, MIG)时,挑战随之显现:
你还记得小时候玩电子宠物的感觉吗?每天按时喂食、陪它玩耍、看着它一天天长大,那种责任感和成就感让人上瘾。一家叫 First Voyage 的创业公司正在做这样的事情。他们开发的 AI 伴侣应用 Momo Self Care 刚刚完成了 250 万美元的种子轮融资