AI资讯新闻榜单内容搜索-AI测评

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: AI测评
深度|a16z Agent工具实测:Manus/Genspark全能但生成时间是硬伤,垂直工具赢在细节与效率

深度|a16z Agent工具实测:Manus/Genspark全能但生成时间是硬伤,垂直工具赢在细节与效率

深度|a16z Agent工具实测:Manus/Genspark全能但生成时间是硬伤,垂直工具赢在细节与效率

在AI办公工具的新浪潮中,一个新的概念正迅速走向舞台中央——Agentic生产率。这已不再是单纯的自动化工具,而是AI以“工作伙伴”的身份深度嵌入日常流程,从撰写邮件到制作表格,从生成PPT到整理会议纪要,全方位提升效率。

来自主题: AI资讯
7001 点击    2025-09-20 13:08
GPT-5惨遭零分打脸,顶级AI全军覆没!奥特曼AI博士级能力神话破灭

GPT-5惨遭零分打脸,顶级AI全军覆没!奥特曼AI博士级能力神话破灭

GPT-5惨遭零分打脸,顶级AI全军覆没!奥特曼AI博士级能力神话破灭

顶级大模型在AAI提出的FormulaOne基准集体翻车:三层难度递进,GPT-5进阶题仅约4%正确,最深层零分;Grok 4、o3 Pro全部失手。该基准以图上MSO逻辑与动态规划生成问题,贴近路径规划等现实优化,旨在衡量超越竞赛编程的算法推理深度。

来自主题: AI技术研报
5844 点击    2025-09-17 09:30
AI竞技场,归根到底只是一门生意

AI竞技场,归根到底只是一门生意

AI竞技场,归根到底只是一门生意

AI模型排行榜分两类:以高考式标准化测试衡量特定能力的客观基准测试(如AAII、MMLU-Pro),以及用户匿名盲测、根据偏好对答案投票排名的人类偏好竞技场(如LMArena)。两者各有优劣和局限性,且排行榜本质是门生意。用户应基于实际需求而非榜单名次选择模型,实用性至上。

来自主题: AI资讯
8724 点击    2025-08-07 10:45
大模型全员0分!谢赛宁领衔华人团队,最新编程竞赛基准出炉,题目每日更新禁止刷题

大模型全员0分!谢赛宁领衔华人团队,最新编程竞赛基准出炉,题目每日更新禁止刷题

大模型全员0分!谢赛宁领衔华人团队,最新编程竞赛基准出炉,题目每日更新禁止刷题

好夸张…… 参赛大模型全军覆没,通通0分。 谢赛宁等人出题,直接把o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1一众模型全都难倒。

来自主题: AI资讯
8571 点击    2025-06-19 11:03
“确实来钱快”!王自如宣布在AI领域重新创业 ,称离开格力是人生低谷,感谢雷军和董明珠

“确实来钱快”!王自如宣布在AI领域重新创业 ,称离开格力是人生低谷,感谢雷军和董明珠

“确实来钱快”!王自如宣布在AI领域重新创业 ,称离开格力是人生低谷,感谢雷军和董明珠

6月5日,微博认证为“ZEALER创始人&CEO”的王自如发文称,“明天我想用15分钟的时间带大家了解我为什么离开 ZEALER 、为什么离开格力,以及我为什么在AI领域选择二次创业,期待明天与大家重新认识。

来自主题: AI资讯
7922 点击    2025-06-06 16:20
超70%代码基准没有质量保证!港科大最新「指南」全面调研10年274个评测集

超70%代码基准没有质量保证!港科大最新「指南」全面调研10年274个评测集

超70%代码基准没有质量保证!港科大最新「指南」全面调研10年274个评测集

近年来,代码评测集数量激增,但质量参差不齐。为规范其开发,香港科技大学联合多所高校研究了过去十年的274个代码评测集,发现诸多问题,如数据重复、测试用例错误、隐私信息未删除等。基于此,他们推出了《代码评测集发展指南55项》(How2Bench),涵盖设计、构建、评测、分析、发布五大阶段,旨在提升代码评测集的质量与可靠性。

来自主题: AI技术研报
7620 点击    2025-03-18 10:54
超过o1-mini、逼近o3-mini,DeepSeek-R1在新的贪吃蛇基准上拿下1801分

超过o1-mini、逼近o3-mini,DeepSeek-R1在新的贪吃蛇基准上拿下1801分

超过o1-mini、逼近o3-mini,DeepSeek-R1在新的贪吃蛇基准上拿下1801分

那么,DeepSeek-R1 的 ARC-AGI 成绩如何呢?根据 ARC Prize 发布的报告,R1 在 ARC-AGI-1 上的表现还赶不上 OpenAI 的 o1 系列模型,更别说 o3 系列了。但 DeepSeek-R1 也有自己的特有优势:成本低。

来自主题: AI技术研报
6587 点击    2025-02-17 17:47