本周 AI 项目推荐:UXBench、MemLens、RoadmapBench…下一代模型,需要下一代 Benchmark
本周 AI 项目推荐:UXBench、MemLens、RoadmapBench…下一代模型,需要下一代 Benchmark我们最近在重新思考一件事:到底什么样的 Benchmark,才值得今天继续做?
来自主题: AI资讯
5954 点击 2026-06-22 09:37
搜索
我们最近在重新思考一件事:到底什么样的 Benchmark,才值得今天继续做?
xbench,就是红杉自己弄的那个中立评测lab,刚刚又整了个新活:让 AI 做药企的数据分析,跟人类实习生比个高低,然后遥遥领先的赢了
随着大模型在单点推理上日益逼近 PhD 水平,Agent 领域迎来了新的分水岭:短程任务表现惊艳,长程任务却显乏力。为精准评估大模型的多模态理解与复杂问题解决能力,红杉中国在两周内连续发布两篇论文,旨在通过构建更科学的评估基准,预判技术演进的未来方向。
刚刚,全新AI基准测试工具xbench诞生,通过双轨评估体系和长青评估机制,追踪模型能力与实际场景价值。
随着基础模型的快速发展和 AI Agent 进入规模化应用阶段,被广泛使用的基准测试(Benchmark)却面临一个日益尖锐的问题:想要真实地反映 AI 的客观能力正变得越来越困难。