EvaLearn:AI下半场的全新评测范式!
EvaLearn:AI下半场的全新评测范式!在三个月前,OpenAI 研究员 Shunyu Yao 发表了一篇关于 AI 的下半场的博客引起了广泛讨论。他在博客中指出,AI 研究正在从 “能不能做” 转向 “学得是否有效”,传统的基准测试已经难以衡量 AI 的实际效用,他指出现有的评估方式中,模型被要求独立完成每个任务,然后取平均得分。这种方式忽略了任务之间的连贯性,无法评估模型长期适应能力和更类人的动态学习能力。
在三个月前,OpenAI 研究员 Shunyu Yao 发表了一篇关于 AI 的下半场的博客引起了广泛讨论。他在博客中指出,AI 研究正在从 “能不能做” 转向 “学得是否有效”,传统的基准测试已经难以衡量 AI 的实际效用,他指出现有的评估方式中,模型被要求独立完成每个任务,然后取平均得分。这种方式忽略了任务之间的连贯性,无法评估模型长期适应能力和更类人的动态学习能力。
只需一次指令微调,即可让普通大模型变身“全能专家天团”?
Halliday Glasses 是目前市面上唯一可配处方镜片的显示眼镜。
这一波华人 AI 项目里,估值超过 100 亿美金的项目并不多,除了 Scale AI,其竞争对手 Surge 也差不多超 100 亿美金估值了,毕竟其在没有怎么融资的情况下 ARR 还超过了 Scale AI。
Meta超级智能团队成员毕树超,回溯70年AI进化:从AlexNet掀起深度学习革命
字节跳动在 Trae IDE(Visual Studio Code 的分支)中发现的令人担忧的性能和隐私问题。主要发现包括:资源消耗过高(33 个进程 vs. VSCode 中为 9 个进程)、无论用户如何设置,遥测数据都会持续传输,以及令人担忧的社区管理实践。
高盛领投、WiL跟投,日本AI法律科技龙头LegalOn的Review工具。
Meta投资148亿美元的Scale AI,原本被视为AI的「黄金选择」,然而,另一个名不见经传的后起之秀Surge AI,竟早已超越了它!一场AI大战,究竟谁能笑到最后?
一年一度的 WAIC 在明天就要开始了,在正式开展之前,我跟随官方的 city walk 路线探访了一番。 我探访的这条「AI+智慧生活路线」一共有三个目的地:上海发那科机器人有限公司、上海腾讯滨江大厦、模速空间的智能产品体验中心。
Surge AI 成立于 2020 年,是一家专注于数据标注的公司。自成立以来,主创团队都极为低调,社交平台上鲜有公开动态。即便如此,Surge AI 仍在短短几年内实现了业绩大爆发,并成为业内公认的“领域最大且最好的玩家”。截至 2024 年,Surge AI 的 ARR 已突破 10 亿美元,超越了行业巨头 Scale AI 的 8.7 亿美元收入,成为其最大的竞争对手。