震撼实锤!清华姚班校友揭「1.4×加速」陷阱:AI优化器为何名不符实?
震撼实锤!清华姚班校友揭「1.4×加速」陷阱:AI优化器为何名不符实?为了降低大模型预训练成本,最近两年,出现了很多新的优化器,声称能相比较AdamW,将预训练加速1.4×到2×。但斯坦福的一项研究,指出不仅新优化器的加速低于宣称值,而且会随模型规模的增大而减弱,该研究证实了严格基准评测的必要性。
为了降低大模型预训练成本,最近两年,出现了很多新的优化器,声称能相比较AdamW,将预训练加速1.4×到2×。但斯坦福的一项研究,指出不仅新优化器的加速低于宣称值,而且会随模型规模的增大而减弱,该研究证实了严格基准评测的必要性。
清华大学最新提出的建筑专业知识驱动的平面图自动生成方案FloorPlan-LLaMa,解决传统模型「指标优秀但实际不可用」 痛点,让AI生成贴合建筑师设计偏好的可行方案。
好家伙,我直呼好家伙。 号称「赛博白月光」的 GPT-4o,在它的知识体系里,对日本女优「波多野结衣」的熟悉程度,竟然比中文日常问候语「您好」还要高出 2.6 倍。
近日,在一项针对2000名40岁以下美国成年人的调研中发现:约11%的年轻人愿意拥有「AI朋友」,约25%的年轻人可以接受与AI谈恋爱;在Character.AI上,模拟治疗师Psychologist创建以来,已收到近亿条用户回复。朋友、爱人、治疗师、导师……越来越多的AI角色渗入我们的生活,或将我们带到一个包含人机共建亲密关系的世界。
AI制药,一家新独角兽诞生了。 9月4日,AI+生物科技公司Enveda宣布,公司已经完成1.5亿美元的D轮融资,目前估值超过10亿美元。
《金融时报》最新消息,OpenAI 正在和博通合作,自研一颗代号 “XPU” 的 AI 推理芯片,预计会在 2026 年量产,由台积电代工。不同于英伟达 的 GPU,这款芯片不会对外销售,而是专门满足 OpenAI 内部的训练与推理需求,用来支撑即将上线的 GPT-5 等更庞大的模型。
能看懂视频并进行跨模态推理的大模型Keye-VL 1.5,快手开源了。
过去几年,人们总担心被AI抢走工作。可现在,OpenAI却宣布要做「AI就业办」:上线就业平台,推出AI技能认证,目标在2030年前让1000万人持证上岗。沃尔玛率先参与,白宫亲自背书。这一次,LinkedIn遇上了最强挑战者。
VMem用基于3D几何的记忆索引替代「只看最近几帧」的短窗上下文:检索到的参考视角刚好看过你现在要渲染的表面区域;让模型在小上下文里也能保持长时一致性;实测4.2s/帧,比常规21帧上下文的管线快~12倍。
来自斯坦福的研究者们最近发布的一篇论文(https://arxiv.org/abs/2509.01684)直指RL强化学习在机器学习工程(Machine Learning Engineering)领域的两个关键问题,并克服了它们,最终仅通过Qwen2.5-3B便在MLE任务上超越了仅依赖提示(prompting)的、规模更大的静态语言模型Claude3.5。