AI资讯新闻榜单内容搜索-Benchmark

向量检索爆雷！傅聪联合浙大发布IceBerg Benchmark：HNSW并非最优，评估体系存在严重偏差

将多模态数据纳入到RAG，甚至Agent框架，是目前LLM应用领域最火热的主题之一，针对多模态数据最自然的召回方式，便是向量检索。

来自主题: AI技术研报

6510 点击 2025-12-26 09:40

AI基准测试集体塌房，最高84%都是坏题｜斯坦福最新研究

基准测试（Benchmarks）在人工智能的发展进程中扮演着至关重要的角色，构成了评价生成式模型（Generative Models）性能的事实标准。对于从事模型训练与评估的AI研究者而言，GSM8K、MMLU等数据集的数据质量直接决定了评估结论的可靠性。

来自主题: AI技术研报

8188 点击 2025-11-28 09:28

Cursor 首度揭秘："训练即产品"，用强化学习让 AI 编程快 4 倍的秘密武器

Sasha Rush 在分享开头就提到，Cursor Composer 在他们的内部 benchmark 上的表现几乎与最好的 Frontier 模型（前沿模型）持平，并且优于去年夏天发布的所有模型。它的表现明显好于最好的开源模型，以及那些被标榜为"快速"的模型。

来自主题: AI技术研报

8337 点击 2025-11-11 11:12

R-HORIZON：长程推理时代来临，复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

当前的训练与评测范式存在一个根本性的局限：几乎所有主流 Benchmark（如 MATH500、AIME）都聚焦于孤立的单步问题，问题之间相互独立，模型只需「回答一个问题，然后结束」。但真实世界的推理场景往往截然不同：为填补这一空白，复旦大学与美团 LongCat Team 联合推出 R-HORIZON—— 首个系统性评估与增强 LRMs 长链推理能力的方法与基准。

来自主题: AI技术研报

7350 点击 2025-10-23 16:22

AI模型守法率提升11%，港科大首次用法案构建安全benchmark

香港科技大学KnowComp实验室提出基于《欧盟人工智能法案》和《GDPR》的LLM安全新范式，构建合规测试基准并训练出性能优异的推理模型，为大语言模型安全管理提供了新方向。

来自主题: AI技术研报

8864 点击 2025-10-23 12:20

6个AI，6万美金，玩真的炒币，DeepSeek赚钱第一名

这世上有太多 AI benchmark 了，但没有一个 benchmark 能让你心跳加速。直到近日，AlphaArena 出现了。这是由初创团队 NOF1 推出的一个「AI 炒币实盘竞技场」，现在已开放全网围观：竞技场地址：https://nof1.ai/

来自主题: AI资讯

8624 点击 2025-10-20 15:32

AI点外卖哪家强，美团LongCat团队做了个全面评测

美团LongCat团队发布了当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench（Versatile Interactive Tasks Benchmark）。VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为典型载体，构建了一个包含66个工具的交互式评测环境，并设计了跨场景综合任务。

来自主题: AI技术研报

7237 点击 2025-10-20 10:13

6个月内连融两轮5300万美元，这家AI税务公司让Benchmark和YC都抢着投

最近，一家叫 Numeral 的公司刚刚完成了 3500 万美元的 B 轮融资，由 Mayfield 领投，Benchmark、Uncork Capital、Y Combinator 和 Mantis 参与。这轮融资距离他们今年 3 月完成的 1800 万美元 A 轮仅仅过去了 6 个月，公司估值已经达到 3.5 亿美元。

来自主题: AI资讯

9029 点击 2025-09-28 09:52

机器人界的「Imagenet 时刻」，李飞飞团队官宣全球顶级具身智能挑战赛

答案或许渐渐清晰。李飞飞团队与斯坦福 AI 实验室正式官宣：首届 BEHAVIOR 挑战赛将登陆 NeurIPS 2025。这是一个为具身智能量身定制的 “超级 benchmark”，涵盖真实家庭场景下最关键的 1000 个日常任务（烹饪、清洁、整理……），并首次以 50 个完整长时段任务作为核心赛题，考验机器人能否在逼真的虚拟环境中完成真正贴近人类生活的操作。

来自主题: AI资讯

7944 点击 2025-09-25 10:58

哈佛95后华人打造“AI版谷歌搜索”，获Benchmark和英伟达等投资6亿元，估值已达50亿元

华人 95 后“叫板”谷歌搜索，联合创办 AI 搜索公司融资 6 亿多元！2021 年，美国哈佛大学华人校友 Jeffrey Wang 和室友威尔·布莱克（Will Bryk）创办了一家名为 Exa 的 AI 搜索公司。经过几年的发展，其于当地时间 2025 年 9 月 3 日宣布已筹集到 8500 万美元的 B 轮融资（约等于 6.16 亿人民币），公司估值达到 7 亿美元。

来自主题: AI资讯

7573 点击 2025-09-15 11:26

AI资讯新闻榜单内容搜索-Benchmark

向量检索爆雷！傅聪联合浙大发布IceBerg Benchmark：HNSW并非最优，评估体系存在严重偏差

AI基准测试集体塌房，最高84%都是坏题 ｜斯坦福最新研究

Cursor 首度揭秘："训练即产品"，用强化学习让 AI 编程快 4 倍的秘密武器

R-HORIZON：长程推理时代来临，复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

AI模型守法率提升11%，港科大首次用法案构建安全benchmark

6个AI，6万美金，玩真的炒币，DeepSeek赚钱第一名

AI点外卖哪家强，美团LongCat团队做了个全面评测

6个月内连融两轮5300万美元，这家AI税务公司让Benchmark和YC都抢着投

机器人界的「Imagenet 时刻」，李飞飞团队官宣全球顶级具身智能挑战赛

哈佛95后华人打造“AI版谷歌搜索”，获Benchmark和英伟达等投资6亿元，估值已达50亿元

AI基准测试集体塌房，最高84%都是坏题｜斯坦福最新研究