7个月翻一番!AI agent能力飙升,METR报告揭示指数级进化规律
7个月翻一番!AI agent能力飙升,METR报告揭示指数级进化规律Agent能力每7个月翻一番!
Agent能力每7个月翻一番!
OpenAI如何以自下而上的文化和行动导向,推动大模型突破?从零到上线仅用7周,Calvin带你走进OpenAI编程智能体Codex的诞生过程,体验高强度冲刺的魔力。
我们独家获悉,大模型公司 MiniMax 近 3 亿美元的新一轮融资已接近完成,投后估值超过 40 亿美元(约 300 亿元人民币)。结合公开信息,目前国内达到这一估值的大模型公司有 MiniMax 和智谱。
今天,我们正式发布MiniMax Agent全栈开发功能。这可能是全球首个 在复杂全栈网站应用上高交付率 的Agent。它支持Supabase后端托管、Stripe支付功能、cron job定时任务、长链接维持等能力,可开发需要API、实时数据、下单支付、LLM调用、定时任务、登录注册等功能的各类应用。
这次是真真真挖到OpenAI大动脉了。 Jason Wei,思维链的提出者、o1系列模型的关键人物,被曝也被扎克伯格请走,即将入职Meta。
近日,基于自研多模态大模型,旨在打造AI应用的“超级感官”与“真大脑”的创业公司——无界方舟(AutoArk)宣布连续完成Pre-A & Pre-A+轮亿元级别融资
随着 AI 系统越来越强大,人们与机器的交流方式也在发生变化。语音,正在迅速成为默认的交互入口。
GPT-4o、Gemini这些顶级语音模型虽然展现了惊人的共情对话能力,但它们的技术体系完全闭源。
涌现(Emergence),是生成式AI浪潮的一个关键现象:当模型规模扩大至临界点,AI会展现出人类一般的智慧,能理解、学习甚至创造。
超长上下文窗口的大模型也会经常「失忆」,「记忆」也是需要管理的。
我每天都使用AI,我认为提示工程是一项高级认知技能。
从GPT-2到Llama 4,大模型这几年到底「胖」了多少?从百亿级密集参数到稀疏MoE架构,从闭源霸权到开源反击,Meta、OpenAI、Mistral、DeepSeek……群雄割据,谁能称王?
你好,我是杰哥。 近日,波士顿咨询公司(BCG)发布了《ai-at-work-2025-slideshow-june-2025-edit-02》,简称《AI at Work 2025》第三版报告,基于对全球 10,635 名员工的调研,深入分析了 AI 在职场中的应用现状。这份报告揭示了 AI 应用的五大关键趋势,为企业和员工提供了重要洞察。
模型落地中国芯取得关键突破!这得益于一个AI开源社区,以生态协作之力打通了AI落地的最后一公里。目前已有上千模型成功适配国产算力。从此,国产算力孤岛彻底打破,众多AI厂商积极上车,开发者狂喜!
从 ChatGPT 引发的通用聊天机器人热潮,到如今正迅猛发展的智能体模型,AI 正在经历一次深刻的范式转变:从被动响应的「语言模型」,走向具备自主决策能力的「智能体」。我们也正在进入所谓的「经验时代」或「软件 3.0 时代」。
难得难得,几大AI巨头不竞争了不抢人了,改联合一起发研究了。
剧本杀大家都玩过吗?这是一种经典的桌上角色扮演游戏(TTRPG), 游戏中的核心人物是游戏主持人(GM), 相当于整个世界的「导演 + 编剧 + 旁白」,负责掌控游戏环境,讲述故事背景,并扮演所有非玩家角色(NPC)。
AI 浏览器,还需要颠覆式创新。
大模型在潜空间中推理,带宽能达到普通(显式)思维链(CoT)的2700多倍?
自 Stable Diffusion、Flux 等扩散模型 (Diffusion models) 席卷图像生成领域以来,文本到图像的生成技术取得了长足进步。但它们往往只能根据精确的文字或图片提示作图,缺乏真正读懂图像与文本、在多模 态上下文中推理并创作的能力。能否让模型像人类一样真正读懂图像与文本、完成多模态推理与创作,一直是学术界和工业界关注的热门问题。
交易成了!OpenAI前CTO初创拿到了20亿种子轮融资,成立5个月公司估值冲到120亿美元。未来几个月,这个汇聚OpenAI顶尖大佬团队,将发布首个多模态AI产品,还会开源部分组件。
三周前,我离开了 OpenAI[1]。我是在 2024 年 5 月加入这家公司的。我想分享我的这些思考,是因为外界关于 OpenAI 在做什么的讨论充满了迷雾和噪音,但很少有人能第一手地描述在那里工作的文化到底是什么感觉。
在AI游戏这片充满未知的领域,诸多作品虽怀揣变革的野心,却常因技术瓶颈或创意不足,难以真正触及玩家内心对沉浸式体验的渴望。
知名全栈开发者和 AI 工具重度使用者 Ras Mic 在最新一期播客中,对市面上的十类热门的 AI 工具进行了深入剖析。从 n8n、Lindy、Claude Code、Devin、Code Rabbit,到 Bolt、Lovable、VAPI、MCP,再到 Vibe Coding 工具的应用,他详细讲解了这些工具的真实用途、适用人群、可达成的效果,以及隐藏的门槛和误区。
翟星吉受GPT-4启发创立语核科技,聚焦制造业售前Agent,解决核心痛点如方案生成。采用结果付费模式,通过垂直场景抽象提升客户转化率。团队快速迭代,年营收目标1000万,并计划出海日韩东南亚。
想象一下,你在加拿大的森林里迷路5小时,手机电量只剩3%,Google Maps失灵,信号微弱。但ChatGPT靠实时坐标救了场,堪称AI导航的教科书,快来围观。
大家好,熟悉我的读者都知道我去年做了一个 AI 领域周刊 Weekly Gradient[1],周刊初衷是不追任何热点,只讲落地相关内容,但是奈何 AI 领域的变化日新月异,结合自己需求和读者反馈,我决定搞一个专门面向开发者、汇总 AI 技术领域动态的日报,这篇文章向大家介绍日报的定位和实现过程。
刚刚,国内首个免费可用Deep Research上线了!它在多个权威评测中拿下第一,准确率直接碾压开源WebSailor。研究过程中,它能多线迭代追搜,直至逻辑闭环。更绝的是,一键生成炫酷的互动研究报告,视觉效果直接拉满。
仍旧记得 2023 年微软发布 Office Copilot 时,我的朋友圈很多人都无比兴奋,大家看到了 Office 和 AI 结合带来的种种便利。当时我也觉得挺酷的,沉寂多年的 Office 系列终于开始往前走了一步。
亚马逊最近发布了Kiro IDE,网址是 https://kiro.dev 。这是他们自己的开发平台,设计理念很明确:让Vibe编程应用能够顺利进入生产环境。这听起来简单,但实际上是当今大多数Vibe编程平台都还没解决的核心问题,原型很炫酷,但距离真正可用的生产系统总是差那么一截。