人类基准测试大翻车:样本不足、方法不透明,AI性能结论可信吗?
人类基准测试大翻车:样本不足、方法不透明,AI性能结论可信吗?我们经常在一些对比 AI 性能的测试中,看到宣称基础模型在自然语言理解、推理或编程任务等性能超人类的相关报道。
我们经常在一些对比 AI 性能的测试中,看到宣称基础模型在自然语言理解、推理或编程任务等性能超人类的相关报道。
当 AI 开始寻找自己的形状,有些选择出人意料。
硅谷宠物情感智能公司Traini宣布已完成超5000万元人民币融资,资金将主要用于多模态情感模型研发、软硬件产品迭代及海外市场扩张。老股东Tao Foundation及小米联合创始人洪峰继续跟投。
别被 2025 年的模型乱战骗了!这可能是一个巨大的误判。 LifeArchitect在上帝视角复盘:当下的喧嚣不过是爆发前的「基建期」。 到2026年,从6T规模的Grok-5到消失在后台的GPT-6,全行业正迎来一场蓄谋已久的「集体解锁」。 真正的换代不再是变聪明,而是像iPhone焊死iOS那样,让AI彻底成为文明的基础设施。
具身智能是2025年的最大的“泡沫”吗?年初,宇树突然放大招,发布了5900美元的R1人形机器人。要知道,就在一年前,业内普遍认为人形机器人的成本底线还在2到3万美元,宇树这一招,相当于把整个行业的价格预期直接打碎。
加州大学旧金山分校的一项最新研究,剖析了一名26岁的医护人员在与AI聊天的过程中发生急性精神病的案例。康复后仅3个月,这名医护人员再次因AI聊天产生妄想、精神失常。
编辑|张倩、陈陈 当智能体(Agent)开始深度介入人类世界,关于豆包 AI 手机的讨论可能只是个开始。 在此之前,手机、电脑软件都是给人用的 —— 人负责一步步操作,系统负责把信息存好、算好。但现在
硬氪独家获悉,在首款AI眼镜发布一年后,闪极科技(深圳)有限公司(以下简称“闪极”)于近日完成近亿元A+轮融资。我们总结了本轮融资信息和该公司几大亮点:融资规模:近亿元
咱就是说啊,这届世界杯,真的太有看头了。虽然国足是无缘了,但咱们中国大模型们竟然要集体参赛!参赛要干什么?进行全球首次人机预测大战。
趁着最近各种年度总结都出来了,我们在这篇文章里,也总结了一波 Google 今年在 AI 方向上的发力,给我们的实际体验,又带来了多大的能力提升。在谈论这些产品更新之前,Gemini 和 Nano Banana 两大「基座」模型是绕不开的内容。没有 Gemini 和 Nano Banana,Google 就是巧妇难为无米之炊。