RAE+VAE? 预训练表征助力扩散模型Tokenizer,加速像素压缩到语义提取
RAE+VAE? 预训练表征助力扩散模型Tokenizer,加速像素压缩到语义提取近期,RAE(Diffusion Transformers with Representation Autoencoders)提出以「 冻结的预训练视觉表征」直接作为潜空间,以显著提升扩散模型的生成性能。
近期,RAE(Diffusion Transformers with Representation Autoencoders)提出以「 冻结的预训练视觉表征」直接作为潜空间,以显著提升扩散模型的生成性能。
《LeJEPA:无需启发式的可证明且可扩展的自监督学习》。
多模态大语言模型(MLLM)在目标定位精度上被长期诟病,难以匹敌传统的基于坐标回归的检测器。近日,来自 IDEA 研究院的团队通过仅有 3B 参数的通用视觉感知模型 Rex-Omni,打破了这一僵局。
近日,来自北京大学与BeingBeyond的研究团队提出DemoHLM框架,为人形机器人移动操作(loco-manipulation)领域提供一种新思路——仅需1次仿真环境中的人类演示,即可自动生成海量训练数据,实现真实人形机器人在多任务场景下的泛化操作,有效解决了传统方法依赖硬编码、真实数据成本高、跨场景泛化差的核心痛点。
Llama4性能造假丑闻,OpenAI烧钱的速度远超过了盈利能力;另外一方面:国产模型凭借足够强大的性能与超高性价比,迅速占领了国际开源模型市场。是时候再次为国产AI鼓掌了!
当前视频检索研究正陷入一个闭环困境:以MSRVTT为代表的窄域基准,长期主导模型在粗粒度文本查询上的优化,导致训练数据有偏、模型能力受限,难以应对真实世界中细粒度、长上下文、多模态组合等复杂检索需求。
AI医疗不是一门新生意,但确是一个“性感”的赛道。
从影像诊断到手术指导,从多语言问诊到罕见病推理—— 医学AI正在从“专科助手”进化为“全能型选手”。
刚刚,文心5.0正式发布了!全新一代主打原生全模态,最开始就把语言/图像/视频/音频放在同一套自回归统一架构里,做统一的理解与生成训练。所以,最终模型能够做到支持全模态输入(文字/图片/音频/视频)+全模态输出(文字/图片/音频/视频),创意写作、指令遵循、智能体规划方面也更强了。
虎嗅独家获悉,9月后,从北京、广东等地“调”来的超过百位核心工程师,汇聚到了阿里巴巴杭州西溪园区C4楼。此后,C4楼封闭了两层办公楼层,员工需要刷工牌及特殊的安保审批,方能进入。
谷歌DeepMind的IMO金牌模型,完整技术全公开了!
中国最早进行医疗大模型后训练的创新企业之一 ——杭州全诊医学科技有限公司(以下简称“全诊医学”)正式宣布完成1亿元B轮融资:2024年4季度由A股上市公司“创新医疗”(SZ.002173)完成战略轮投资;2025年2季度由中国医药工业百强“好医生集团”完成B轮投资,探针资本担任本轮融资的独家财务顾问。
大家好,我是 Ai 学习的老章 最近 GitHub 发布了 2025 年度开发者趋势报告
就在今天,李飞飞发布了全新的世界模型,开启公测,人人可玩。
skill‑creator 是 Anthropic 在 Claude Skills 体系中提供的“元技能”。它本身是一个可直接在 Claude 对话中调用的 Skill,专门用于 帮助用户快速创建、编辑、打包其他自定义 Skill,从而让 Claude 能够在特定业务场景下拥有专业化的能力。
Anthropic 周三宣布与英国新锐云服务商 Fluidstack 达成一项雄心勃勃的数据中心合作协议,将投入 500 亿美元在美国多地建设设施以满足其不断增长的计算需求。
目标2030年百万卡集群点亮。
答案藏在阿里 AI + 云的全栈布局里。2025 年 11 月 12 日,杭州阿里全球总部的访客登记系统跳出一串特殊信息——柯丝蒂·考文垂,国际奥委会首位非洲籍、女性主席。
在这个AI生成视频泛滥的时代,我们习惯看到“AI一键出片”“模版复刻”,却少有真正能触碰商业大片质感的作品。
提到 AI 的突破,人们首先想到的往往是大语言模型(LLM):写代码、生成文本、甚至推理多模态内容,几乎重塑了通用智能的边界。但在一个看似 “简单” 的领域 —— 结构化表格数据上,这些强大的模型却频频失手。
具身智能机器人太火了。
“一位老师,用 AI 做了个《林黛玉初进贾府》的互动游戏。”
本文档分析 CAMEL 项目中 hybrid_browser_toolkit 的技术实现,覆盖其架构设计、核心功能与通信协议。
我们都知道 LLM 中存在结构化稀疏性,但其底层机制一直缺乏统一的理论解释。为什么模型越深,稀疏性越明显?为什么会出现所谓的「检索头」和「检索层」?
是否有哪个AI产品,让你觉得——它已经深入我们某个核心生活或工作场景,并让我们完全离不开?
今日,科技圈爆出了一则重磅猛料。11月12日消息,@新浪科技从知情人士处获悉,字节跳动的Seed研究员任赜宇于昨日离职,离职原因为“多次泄密遭公司开除” 。
目前,GRPO 在图像和视频生成的流模型中取得了显著提升(如 FlowGRPO 和 DanceGRPO),已被证明在后训练阶段能够有效提升视觉生成式流模型的人类偏好对齐、文本渲染与指令遵循能力。
微软AI负责人Mustafa Suleyman表示,只有生物体才能具备意识,开发者和研究人员应该停止追求让AI具有意识。
Marble,终于来了。 没错,就是两个月前在 AI 圈刷屏的那个 3D 世界生成模型。就在刚刚,李飞飞旗下的 World Labs 公司官宣向全体用户开放,还一次性放出了一大波新功能。 多模态生成:
昨天晚上,我一直很喜欢的字节家的TRAE SOLO,终于正式上线了。 自从他们之前7月21号发了以来,其实就一直在内测,一直能用到的人都不多,而现在,终于全量了。 而且,限时免费。 TRAE国内版正式