AI资讯新闻榜单内容搜索-Ai测评

Refly.AI 一手评测！花了 50 万积分，想象出了将 Agent 做到 2 亿量级的样子！

我在想，有没有这样一个工具：我不用理解节点和变量，直接说我想要什么，AI 就帮我把工作流搭出来？我尝试了很多，直到遇到 Refly.AI 这个 Vibe Workflow 平台—— AI 自动搭建工作流。它给出了一个让我眼前一亮的答案：通过 Vibe Workflow，把想法变成自动化工作流，让我真正进入口喷工作流时代。

来自主题: AI产品测评

9223 点击 2025-12-11 11:54

深度｜a16z Agent工具实测：Manus/Genspark全能但生成时间是硬伤，垂直工具赢在细节与效率

在AI办公工具的新浪潮中，一个新的概念正迅速走向舞台中央——Agentic生产率。这已不再是单纯的自动化工具，而是AI以“工作伙伴”的身份深度嵌入日常流程，从撰写邮件到制作表格，从生成PPT到整理会议纪要，全方位提升效率。

来自主题: AI资讯

8487 点击 2025-09-20 13:08

GPT-5惨遭零分打脸，顶级AI全军覆没！奥特曼AI博士级能力神话破灭

顶级大模型在AAI提出的FormulaOne基准集体翻车：三层难度递进，GPT-5进阶题仅约4%正确，最深层零分；Grok 4、o3 Pro全部失手。该基准以图上MSO逻辑与动态规划生成问题，贴近路径规划等现实优化，旨在衡量超越竞赛编程的算法推理深度。

来自主题: AI技术研报

7212 点击 2025-09-17 09:30

AI竞技场，归根到底只是一门生意

AI模型排行榜分两类：以高考式标准化测试衡量特定能力的客观基准测试（如AAII、MMLU-Pro），以及用户匿名盲测、根据偏好对答案投票排名的人类偏好竞技场（如LMArena）。两者各有优劣和局限性，且排行榜本质是门生意。用户应基于实际需求而非榜单名次选择模型，实用性至上。

来自主题: AI资讯

9974 点击 2025-08-07 10:45

大模型全员0分！谢赛宁领衔华人团队，最新编程竞赛基准出炉，题目每日更新禁止刷题

好夸张…… 参赛大模型全军覆没，通通0分。谢赛宁等人出题，直接把o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1一众模型全都难倒。

来自主题: AI资讯

9819 点击 2025-06-19 11:03

“确实来钱快”！王自如宣布在AI领域重新创业，称离开格力是人生低谷，感谢雷军和董明珠

6月5日，微博认证为“ZEALER创始人&CEO”的王自如发文称，“明天我想用15分钟的时间带大家了解我为什么离开 ZEALER 、为什么离开格力，以及我为什么在AI领域选择二次创业，期待明天与大家重新认识。

来自主题: AI资讯

9134 点击 2025-06-06 16:20

大模型集体“挂科”！全新中文网页检索测试：GPT-4o准确率仅6.2%

你以为大模型已经能轻松“上网冲浪”了？

来自主题: AI技术研报

8826 点击 2025-05-06 14:09

Gemini-2.0夺冠！全球首个几何推理专项评测出炉，淘天集团出品

多模态大模型几何解题哪家强？

来自主题: AI技术研报

9182 点击 2025-04-28 17:35

离谱！DeepSeek数个字母，竟要“反思内耗”八百遍？

最近，我撞见了一个 DeepSeek 又“认真”又“拧巴”的怪异场景。

来自主题: AI技术研报

9683 点击 2025-04-23 10:23

超70%代码基准没有质量保证！港科大最新「指南」全面调研10年274个评测集

近年来，代码评测集数量激增，但质量参差不齐。为规范其开发，香港科技大学联合多所高校研究了过去十年的274个代码评测集，发现诸多问题，如数据重复、测试用例错误、隐私信息未删除等。基于此，他们推出了《代码评测集发展指南55项》（How2Bench），涵盖设计、构建、评测、分析、发布五大阶段，旨在提升代码评测集的质量与可靠性。

来自主题: AI技术研报

8733 点击 2025-03-18 10:54

AI资讯新闻榜单内容搜索-Ai测评

Refly.AI 一手评测！花了 50 万积分，想象出了将 Agent 做到 2 亿量级的样子！

深度｜a16z Agent工具实测：Manus/Genspark全能但生成时间是硬伤，垂直工具赢在细节与效率

GPT-5惨遭零分打脸，顶级AI全军覆没！奥特曼AI博士级能力神话破灭

AI竞技场，归根到底只是一门生意

大模型全员0分！谢赛宁领衔华人团队，最新编程竞赛基准出炉，题目每日更新禁止刷题

“确实来钱快”！王自如宣布在AI领域重新创业 ，称离开格力是人生低谷，感谢雷军和董明珠

大模型集体“挂科”！全新中文网页检索测试：GPT-4o准确率仅6.2%

Gemini-2.0夺冠！全球首个几何推理专项评测出炉，淘天集团出品

离谱！DeepSeek数个字母，竟要“反思内耗”八百遍？

超70%代码基准没有质量保证！港科大最新「指南」全面调研10年274个评测集

“确实来钱快”！王自如宣布在AI领域重新创业，称离开格力是人生低谷，感谢雷军和董明珠