第一性原理视角下的MoE推理的经济学分析
第一性原理视角下的MoE推理的经济学分析随着DeepSeek R1、Kimi K2和DeepSeek V3.1混合专家(MoE)模型的相继发布,它们已成为智能前沿领域大语言模型(LLM)的领先架构。由于其庞大的规模(1万亿参数及以上)和稀疏计算模式(每个token仅激活部分参数而非整个模型),MoE式LLM对推理工作负载提出了重大挑战,显著改变了底层的推理经济学。
随着DeepSeek R1、Kimi K2和DeepSeek V3.1混合专家(MoE)模型的相继发布,它们已成为智能前沿领域大语言模型(LLM)的领先架构。由于其庞大的规模(1万亿参数及以上)和稀疏计算模式(每个token仅激活部分参数而非整个模型),MoE式LLM对推理工作负载提出了重大挑战,显著改变了底层的推理经济学。
机器人对可形变物体的操作(Deformable Object Manipulation, DOM),是衡量通用机器人智能水平的关键指标之一。与刚体操作不同,衣物、绳索、食物等物体的形态不固定,其状态空间维度极高,且物理交互过程呈现出复杂的非线性动力学特性,为感知、规划和控制带来了巨大挑战。
火遍全网的「氛围编程」(Vibe Coding),让人人都可以上手编程,写出自己的程序了。然而,作为Vibe Coder,和真正的软件工程师之间,还存在哪些差距呢?
AI图像编辑技术发展迅猛,扩散模型凭借强大的生成能力,成为行业主流。 但这类模型在实际应用中始终面临两大难题:一是“牵一发而动全身”,即便只想修改一个细节,系统也可能影响到整个画面;二是生成速度缓慢,难以满足实时交互的需求。
覆盖桌面、移动和 Web,7B 模型超越同类开源选手,32B 模型挑战 GPT-4o 与 Claude 3.7,通义实验室全新 Mobile-Agent-v3 现已开源。
22-25岁初入职场的年轻人,就业率同比已经下降了13%,AI带来的就业冲击愈发严峻。一些老板们也开始冻结招聘,将AI能力不足的求职者直接拒之门外。AI造就的新形势迫使我们认真思考,哪些岗位是很难被AI取代的呢?
Anthropic 宣布已经完成了新一轮 130 亿美元融资,投后估值达 1830 亿美元,约为这家人工智能初创公司 3 月份上次融资时的三倍。
谷歌回归搜索老本行,这一次,它要让 AI 能像人一样「看见」网页。 这是谷歌前不久在 Gemini API 全面上线的 URL Context 功能(5 月 28 日已在 Google AI Studio 中推出),它使 Gemini 模型能够访问并处理来自 URL 的内容,包括网页、PDF 和图像。
原来,Scaling Law在32年前就被提出了! 不是2020年的OpenAI、不是2017年的百度,而是1993年的贝尔实验室。
这家由剑桥大学行为科学背景的 James He 和 Patrick Sharpe 创立的公司,声称能够通过 AI 模拟整个人类社会的互动模式。他们不是在构建另一个聊天机器人或者内容生成工具,而是在尝试解决一个困扰人类社会数千年的根本问题:如何准确预测群体行为。
今天凌晨,特斯拉公布了他们的《宏图计划第四篇章》。 与以往聚焦汽车或能源产品的蓝图不同,特斯拉这次描绘了一个更遥远、也更理想化的终点:一个由 AI 和机器人主导的「可持续富足」的社会。
大家好,我是歸藏(guizang),今天教大家解决 Nana Banana 出图最大的问题。 Nano Banana 已经非常强了,但是最近大家普遍用的时候两个问题非常影响可用性
一群AI玩狼人杀,GPT-5断崖式领先,胜率达到了惊人的96.7%。 OpenAI的总裁格雷格·布罗克曼转发了这样的一个基准测试:让7个强大的LLMs,包括开源和闭源,玩了210场完整的狼人杀。
AI 硬件,已经成为大模型之后,又一个令人兴奋的领域。 正如 AI Agent 从通用开始走向垂直,AI 硬件,也已经逐渐分化到「陪伴」、「工作」等各个垂直领域。
国内AI音乐领域迎来突破性进展。日前,自由量级0到1全自研的音乐大模型——“音潮音乐”已成功通过国家互联网信息办公室的生成式人工智能服务备案(备案号:Shanghai-YinChaoYinYue-202507160059)。
当前AI大模型(LLM)训练与推理对算力的巨大需求,以及传统计算精度(如FP16/BF16)面临的功耗、内存带宽和计算效率瓶颈。
不使用端侧AI的话,谷歌在Pixel 10上就有虚假宣传的嫌疑了。
AI搜索初创公司Perplexity,最近过得并不轻松。
当前,业界顶尖的大模型正竞相挑战“过度思考”的难题,即无论问题简单与否,它们都采用 “always-on thinking” 的详细推理模式。无论是像 DeepSeek-V3.1 这种依赖混合推理架构提供需用户“手动”介入的快慢思考切换,还是如 GPT-5 那样通过依赖庞大而高成本的“专家路由”机制提供的自适应思考切换。
还有不到两天,就是我国庆祝抗战和世界反法西斯战争胜利 80 周年的大阅兵了。
曾几何时,“黑作坊”“幽灵店”等没有堂食店铺,或是用假地址和假照片包装的外卖店,频频被曝光于公众视野。于是,不少年轻人与外卖店斗智斗勇,为了筛选出令人安心、吃得放心的外卖,下单之前总要看看商家照片、后厨照片甚至地址。
Builder.ai自称用AI简化软件开发,吸引微软、软银等巨额投资,估值一度超15亿美元。但实际靠人工冒充AI,财务造假被起诉。而这么做的,不止Builder.ai这一家! 两年前,快公司Fast Company评选出AI领域最具创新性的前10家公司,OpenAI、谷歌DeepMind、Builder.ai当选Top3,而英伟达位居第9。
过去一年,教育AI的热闹几乎无需赘述:
GPT-4o发布才过去半年,Nano Banana这种「下一代」的生图模型就出来了。 这难道是AI界的摩尔定律?不敢想再过半年后,会是什么样的「魔鬼级」生图模型来屠Nano Banana
智能体开发者的生存之道,是中国AI产业最接地气的底色。
DeepSeek发布DeepSeek-V3.1,使用的UE8M0 FP8 Scale针对下一代国产芯片设计
写今天这篇稿子,我心情有点复杂,因为我好像撞破了一些,和AI相关的灰色部分。 起因是我在刷小红书的时候,刷到了AI自习室。
AI让大脑退化,是真的...
前不久,印度身价最贵的板球运动员 Rishabh Pant 迷上了新兴网红 Mia Zelu。这位粉丝数超 1500 万的球星甚至会在 Mia 发布帖文的第一时间去点赞。
这期对话把火力对准了一个不体面的真相:更聪明的“路由”和更苛刻的“成本”正重写 AI 商业化的脚本。