谢赛宁新作:VAE退役,RAE当立
谢赛宁新作:VAE退役,RAE当立谢赛宁团队最新研究给出了答案——VAE的时代结束,RAE将接力前行。其中表征自编码器RAE(Representation Autoencoders)是一种用于扩散Transformer(DiT)训练的新型自动编码器,其核心设计是用预训练的表征编码器(如DINO、SigLIP、MAE 等)与训练后的轻量级解码器配对,从而替代传统扩散模型中依赖的VAE(变分自动编码器)。
谢赛宁团队最新研究给出了答案——VAE的时代结束,RAE将接力前行。其中表征自编码器RAE(Representation Autoencoders)是一种用于扩散Transformer(DiT)训练的新型自动编码器,其核心设计是用预训练的表征编码器(如DINO、SigLIP、MAE 等)与训练后的轻量级解码器配对,从而替代传统扩散模型中依赖的VAE(变分自动编码器)。
AI传奇人物、前特斯拉AI总监Karpathy重磅推出全新开源项目「nanochat」,以不到8000行代码复现ChatGPT全流程,只需一台GPU、约4小时、成本仅百美元。该项目在GitHub上线不到12小时即获4.2k星标!
Claude Code没法用了后,国内大厂纷纷推出国产平替。最近,阿里心流研究团队就悄咪咪地发布了一款终端AI智能体——iFlow CLI,号称是Claude Code最强平替!iFlow CLI可以使用自然语言命令行的形式直接在终端运行,最重要的一点是,专为国内开发者设计,面向个人用户永久免费,没有限流!
今天星舰第十一飞圆满收官,没想到黄仁勋也闪现到了现场。 原来,黄仁勋亲自飞到了德州的星际基地(Starbase),在冲天的星舰旁边,就是为了把一台刚出炉的新「核弹」交到了马斯克手上。 这就是大家从年初
你今天的工作,或许并不是真正的工作。这句耸人听闻的言论出自奥特曼与Rowan Cheung最新的采访。在这场长达30分钟的对谈里,除了自己对AI与工作的思考,奥特曼还分享了GPT-6的进展、ChatGPT是否会成为美国版微信、AGI的设想变化、AI未来的交互模式,以及自己被恶搞成Sora热梗的感受。
根据 Sensor Tower 数据显示,2025 H1 AI 应用的下载量达到 17 亿次,增长 67%,IAP 收入总计达到 19 亿美元,增幅达到 100.6%。在走过了概念验证阶段后,AI 应用正成为一股很强的增长动力,给已经相对平静的应用市场注入了活力。
人类遗忘的难题解法,被GPT-5 Pro重新找出来了!这事儿聚焦于埃尔德什问题#339,这是著名数学家保罗・埃尔德什提出或转述的近千道问题之一,收录于erdosproblems.com网站。该网站记录了每道题目的当前状态,其中约三分之一已解决,大部分仍待解。
嗨大家好!我是阿真! 7月份我写了一篇关于每个AI生图模型的优劣势的总结,因为工作需要,我针对不同需求会切换很多工具,另外产品更新需要及时测评时不时买个月度会员,单月买的不算在内,当时我经常消费的几个
朋友们,以后谁再跟我炫耀他去看 NBA 比赛,只是晒门票和山顶照,我都会笑而不语。 NBA 中国赛时隔六年回归,作为一个老球迷,原本我只想一睹球星的风采,买几件球衣和纪念品在朋友圈炫耀一番。 但接下来
Sora 2的迅速走红,让肖像权问题再次成为焦点。
从“AI围猎”到“AI守护”,这才是AI打开中老年的正确方式。
一段“AI换脸”的不雅视频,让一位高校导师突然陷入诈骗危机;一张“近乎复刻”的AI克隆照,让白领小雅担心自己的照片被用来制作色情内容;青岛保时捷女销冠和台球运动员王思诺则深陷恶意AI造“黄谣”风波……他们都是AI技术被滥用的受害者。
为什么大模型,在执行长时任务时容易翻车?这让一些专家,开始质疑大模型的推理能力,认为它们是否只是提供了「思考的幻觉」。近日,剑桥大学等机构的一项研究证明:问题不是出现在推理上,而是出在大模型的执行能力上。
大语言模型在RLVR训练中面临的“熵困境”,有解了!
源于真实一线需求,Listen Labs聚焦传统定性调研低效痛点,以AI主持访谈、自动生成报告的方式,重构用户研究工作流。
灵巧手技能+1,能帮女友拧瓶盖了!
当全球的目光还在聚焦基座模型的参数竞赛时,一场更为深刻的变革正在悄然发生——后训练(Post-Training)。
这是一份为正在开发 AI Agent 的产品经理准备的完整指南,介绍了 Agent 架构、编排模式等话题。
这位女演员刚出道 同行就对她大喊:“F**k off!” 文 | 羊羊 编辑 | 羊羊、小小树 在上周的SNL节目中,联合主持人科林·乔斯特讲了一个关于AI的笑话。 据报道,好莱坞的经纪公司有意签约一
两位哈佛学者通过研究6200万份简历和近2亿条招聘职位数据,揭示了AI对就业带来的真实、残酷的冲击:它不是无差别地针对所有人,而是在大量“吞噬”初级岗位,让那些刚刚踏入社会的年轻人,面临着空前陡峭、狭窄的职业起跑线。与此同时,为数众多的普通院校毕业生群体受到的冲击更为显著。
为此,北大、UC San Diego 和 BeingBeyond 联合提出一种新的方法——Being-VL 的视觉 BPE 路线。Being-VL 的出发点是把这一步后置:先在纯自监督、无 language condition 的设定下,把图像离散化并「分词」,再与文本在同一词表、同一序列中由同一 Transformer 统一建模,从源头缩短跨模态链路并保留视觉结构先验。
讲真,AI生图圈的内卷速度简直离谱。8月底的Nano Banana、9月中的即梦4.0已经把画质和效果卷到了一个新高度,但我还在纠结到底该把谁设为主力工具,因为总觉得他们差点什么:不是出错就是不懂场景。
OpenAI终于官宣了!联手芯片巨头博通下场造AI芯片,预计2029年底部署10GW算力。内部已秘密研发18个月,首颗芯片9个月后量产,AI领域的M1时刻将至。
谷歌下一代旗舰模型Gemini 3未发布便已悄然走红!原因很简单:强,实在是太强了。在国外社交媒体平台𝕏上,一大波网友激动地分享了Gemini 3的内测结果——从曝光的这些案例来看,Gemini 3尤为擅长前端、SVG矢量图生成,而且多模态能力变得更强。
极客公园最近体验了一款叫做 Websets 的 AI 搜索工具。与谷歌搜索不同,Websets 试图理解人类的复杂意图。它并非为日常查询设计,而是专门处理传统搜索引擎难以完成的复杂任务,例如寻找具备特定复合经验的专业人士,或筛选符合多重标准的公司实体。
新加坡时间 10 月 9 日,Zenlayer 于新加坡科技周——云与 AI 基础设施展正式发布 Zenlayer 分布式推理平台(Zenlayer Distributed Inference)。该平台作为一站式 AI 即时部署解决方案,专注于在全球范围内为大规模 AI 推理提供高性能支持。
又一批AI社交公司与产品悄悄「死亡」了。今年9月,一批AI社交公司发布关停或通知,这之中,既包括大模型明星公司、社交公司等中型企业,如阶跃星辰To C产品「冒泡鸭」、Soul旗下的AI应用「异世界回响」等,也包括一批垂直领域的初创产品,如定位AI情感分析的Lumi、由前苹果设计师Jason Yuan创立的情感陪伴应用Dot等。
人工智能真是日新月异。早上看到网友的评论:我们已经 0 天没有吸引注意的 AI 领域新突破了。记得三个月前,OpenAI 官宣了他们的推理模型在国际数学奥林匹克(IMO)竞赛中获得了金牌。
在中国科学院计算技术研究所入选NeurIPS 2025的新论文中,提出了SpaceServe的突破性架构,首次将LLM推理中的P/D分离扩展至多模态场景,通过EPD三阶解耦与「空分复用」,系统性地解决了MLLM推理中的行头阻塞难题。
说出概念,SAM 3 就明白你在说什么,并在所有出现的位置精确描绘出边界。 Meta 的「分割一切」再上新? 9 月 12 日,一篇匿名论文「SAM 3: SEGMENT ANYTHING WITH CONCEPTS」登陆 ICLR 2026,引发网友广泛关注。