Ilya、小扎之后,苏莱曼的「超级智能」进入7年倒计时!
Ilya、小扎之后,苏莱曼的「超级智能」进入7年倒计时!大家一直热衷谈论的AGI忽然不香了,主流的AI公司都开始改口谈「超级智能」,AGI已经沦落为研究员口中的「自动化软件开发工具」。苏莱曼领军的微软MAI团队,正成为超级智能赛道一位新的「超级玩家」。曾曝「欺凌员工」的他,如今要打造有「人味」的AI。
大家一直热衷谈论的AGI忽然不香了,主流的AI公司都开始改口谈「超级智能」,AGI已经沦落为研究员口中的「自动化软件开发工具」。苏莱曼领军的微软MAI团队,正成为超级智能赛道一位新的「超级玩家」。曾曝「欺凌员工」的他,如今要打造有「人味」的AI。
2025年前盛行的闭源+重资本范式正被DeepSeek-R1与月之暗面Kimi K2 Thinking改写,二者以数百万美元成本、开源权重,凭MoE与MuonClip等优化,在SWE-Bench与BrowseComp等基准追平或超越GPT-5,并以更低API价格与本地部署撬动市场预期,促使行业从砸钱堆料转向以架构创新与稳定训练为核心的高效路线。
「Baidu is back」,在业界权威大模型公共基准测试平台 LMArena 发布最新一期文本竞技场排名(Text Arena)之后,有人发出了这样的惊呼。根据 11 月 8 日凌晨 LMArena 的最新排名显示,百度文心最新模型 ERNIE-5.0-Preview-1022(文心 5.0 Preview)在文本榜单上一举跃居全球并列第二、国内第一。
就在今天,谷歌Nano Banana 2预览版闪现第三方平台,生成速度飙到10秒、画质拉到4K。网友实测炸锅,一句话直出OS+UI复杂界面,还能在黑板上一键推导微积分。真正的「PS终结者」即将上线。
在旧金山北滩的一栋不起眼的建筑里,有一家公司正在悄然改变软件开发的规则。Cursor,过去一年最有名的一家 AI 独角兽,从零起步,在不到两年时间里达到了 1 亿美元 ARR,员工人数从二十几人扩张到接近 250 人,它的产品被全球顶尖开发者使用,甚至在重新定义「开发工具」的标准。
太快了!一天之内Grok连迎两大更新——Grok 4 Fast与Grok Imagine都进行了大升级。Grok 4 Fast把上下文窗口提高到2M,并把完成率拉到94.1%(推理)与97.9%(非推理)。这意味着,你不必再把一本书或一整个代码库切碎喂给模型,它可以一次吞下,然后稳定地给出结果。
现实爽文,小扎打脸! 2023年上半年,扎克伯格在Meta大裁员,几个月之内裁掉一万人,其中就包括由十几名科学家组成的Meta-FAIR蛋白质小组。 然而,被裁掉的几名科学家不甘心,创办了AI蛋白质公
在好莱坞,AI连动物演员的位置都抢走了!真实的动物被算法重建成更完美的数字替身。有人说这是技术的善意,能让动物不再受训练之苦;也有人说,这是一场「无声的驱逐」的革命。当连呼吸都能被算法生成,我们该怀念的,或许不是那些动物,而是它眼里那一点不完美的生命力。
还得是大学生会玩啊(doge)! 网上正高速冲浪中,结果意外发现:有男大竟找了个机器人队友?而且机器人还相当黏人(bushi~ 白天超市打工它要跟着,一看东西装好就立马乐颠颠帮忙拉小推车,上楼下楼忙个不停:
2024年,加州大学圣地亚哥分校「Hao AI Lab」提出了DistServe的解耦推理理念,短短一年多时间,迅速从实验室概念成长为行业标准,被NVIDIA、vLLM等主流大模型推理框架采用,预示着AI正迈向「模块化智能」的新时代。
现有的LLM智能体训练框架都是针对单智能体的,多智能体的“群体强化”仍是一个亟须解决的问题。为了解决这一领域的研究痛点,来自UCSD和英特尔的研究人员,提出了新的提出通用化多智能体强化学习框架——PettingLLMs。支持任意组合的多个LLM一起训练。
《Science》的一篇新文章指出,大模型存在一个先天难解的软肋:幻觉难以根除。AI厂商让大模型在不确定性情况下说「我不知道」,虽然有助于减少模型幻觉,但可能因此影响用户留存与活跃度,动摇商业根本。
北京大学,银河通用,阿德莱德大学,浙江大学等机构合作,探究如何构建具身导航的基座模型(Embodied Navigation Foundation Model)提出了NavFoM,一个跨任务和跨载体的导航大模型。实现具身导航从“专用”到“通用”的技术跃进
加州大学河滨分校团队发现,AI组合推理表现不佳部分源于评测指标过于苛刻。他们提出新指标GroupMatch和Test-Time Matching算法,挖掘模型潜力,使GPT-4.1在Winoground测试中首次超越人类,0.2B参数的SigLIP-B16在MMVP-VLM基准测试上超越GPT-4.1并刷新最优结果。这表明模型的组合推理能力早已存在,只需合适方法在测试阶段解锁。
近日,诺贝尔奖得主、美国华盛顿大学教授大卫·贝克(David Baker)和团队再次将 AI 成果送上 Nature,他们开发出一种基于 AI 的蛋白质结构生成模型 RFdiffusion,能在指定病毒表面特定表位的情况下,辅助人类从头设计出能够与之结合的抗体结构。
Cal AI联合创始人Zach Yadegari自7岁起学习编程,16岁卖出自己首个应用赚得近10万美元,并与另外一名高中生联合创办了一家年营收达3000万美元的AI应用公司。在被常春藤盟校拒绝后,Yadegari选择进入迈阿密大学。Yadegari认为AI时代会出现更多年轻的创业者,他给出的最重要的一条创业建议就是:立刻行动。
去年,谢赛宁(Saining Xie)团队发布了 Cambrian-1,一次对图像多模态模型的开放式探索。但团队没有按惯例继续推出 Cambrian-2、Cambrian-3,而是停下来思考:真正的多
你的智能音箱,可能已经比你更了解自己!谷歌新推出的Gemini for Home,不仅能识别人脸、快递、访客,还会自动生成「家庭日报」。它能开灯、播歌、关窗帘,甚至提醒你宠物在客厅活动。不过,这位AI实习生也有点「中二」——连狗都能看成猫。智能的尽头,或许是一次可爱的误会。
近日,谷歌推出了一种全新的用于持续学习的机器学习范式 —— 嵌套学习,模型不再采用静态的训练周期,而是以不同的更新速度在嵌套层中进行学习,即将模型视为一系列嵌套问题的堆叠,使其能够不断学习新技能,同时又不会遗忘旧技能。
几个月后,这家非营利研究机构及其新拆分的商业实体 Edison Scientific 又发布了一套更强大的 AI 科学家系统 Kosmos。这个系统在单次运行中可以持续工作 12 至 48 小时,完成相当于人类科研团队数月才能完成的工作量,且其产出的发现中有近 80% 经独立专家验证为准确。
众所周知,大型语言模型(LLM)的根本运作方式是预测下一个 token(词元),能够保证生成的连贯性和逻辑性,但这既是 LLM 强大能力的「灵魂」所在,也是其枷锁,将导致高昂的计算成本和响应延迟。 可
前段时间Trae下架了Claude,标志着但凡跟中国沾边AI工具都禁止使用 Claude 但我一点都不慌,因为已经很久没用 Claude 了 尤其在编程赛道上,国产大模型已经通过内部互卷站起来了。
马斯克麾下的新AI虚拟女友Ani看似风光地上线,背后却被曝出员工被迫提供面容和声音等生物数据用于训练。这一做法在xAI公司内部引发争议,多名员工担心自己的相貌和声音可能被滥用于深度伪造,或在未授权情况下被他人使用。此事也让业界反思,在AI竞赛中冲锋陷阵的公司,是否正在以侵犯隐私和道德边界为代价换取技术进步。
近几年,各大词典评选的年度词汇中,AI 相关的新词异军突起。最新出炉的 2025 年柯林斯词典年度词汇,花落「vibe coding」——也不意外,它几乎是今年最热门的 AI 技术。 如果再往回拨一点
11 月 3 日,据 Deadline 报道,AI 原生影视工作室 Utopai Studios 与全球创新投资平台 Stock Farm Road(SFR)宣布成立资本规模达数十亿美元的合资公司 Utopai East,以加速韩国影视的国际化进程。SFR 背后,一面是 LG 集团继承人 Brian Koo,另一面是阿联酋主权基金推动者 Amin Badr-El-Din。
这说明o1不仅能够使用语言,还能够思考语言,具备元语言能力(metalinguistic capacity )。由于语言模型只是在预测句子中的下一个单词,人对语言的深层理解在质上有所不同。因此,一些语言学家表示,大模型实际上并没有在处理语言。
机器之心报道 编辑:Panda 刚刚,OpenHands 开发团队发布了一篇新论文,正式宣布广受欢迎的软件开发智能体框架 OpenHands (GitHub star 已超 6.4 万)中的智能体组件
昨天,月之暗面发布全新模型Kimi K2 Thinking,一上线就挤爆了服务器。思考,是它的核心卖点,自称是开源的「思考Agent模型」。在Tau2 Bench Telecom基准测试中,K2 Thinking位列第一。
研究团队提出一种简洁且高效的算法 ——SimKO (Simple Pass@K Optimization),显著优化了 pass@K(K=1 及 K>1)性能。同时,团队认为当前的用熵(Entropy)作为指标衡量多样性存在局限:熵无法具体反映概率分布的形态。如图 2(c)所示,两个具有相同熵值的分布,一个可能包含多个峰值,而另一个则可能高度集中于一个峰值。
电商巨头和新锐 AI 公司的对撞,正在加州联邦法院拉开帷幕。亚马逊正式起诉 Perplexity AI,矛头直指其“Comet”浏览器与背后的智能代理(AI agent)。 指控要点包括:在亚马逊平台上伪装成人类用户、通过用户的私密账户进行自动化操作,涉嫌违反《计算机欺诈与滥用法》(CFAA)。