AI资讯新闻榜单内容搜索-Mark

三个LLM顶一个OpenAI？2亿条性能记录加持，路由n个「小」模型逆袭

路由LLM是指一种通过router动态分配请求到若干候选LLM的机制。论文提出且开源了针对router设计的全面RouterEval基准，通过整合8500+个LLM在12个主流Benchmark上的2亿条性能记录。将大模型路由问题转化为标准的分类任务，使研究者可在单卡甚至笔记本电脑上开展前沿研究。

来自主题: AI技术研报

6145 点击 2025-04-08 14:26

本地也能运行Deep Research！支持arXiv平台，兼容PDF、Markdown等

今年年初，OpenAI 上线 Deep Research，开启了智能体又一新阶段，其能根据用户需求自主进行网络信息检索、整合多源信息、深度分析数据，并最终为用户提供全面深入的解答。

来自主题: AI资讯

8756 点击 2025-03-18 19:06

超70%代码基准没有质量保证！港科大最新「指南」全面调研10年274个评测集

近年来，代码评测集数量激增，但质量参差不齐。为规范其开发，香港科技大学联合多所高校研究了过去十年的274个代码评测集，发现诸多问题，如数据重复、测试用例错误、隐私信息未删除等。基于此，他们推出了《代码评测集发展指南55项》（How2Bench），涵盖设计、构建、评测、分析、发布五大阶段，旨在提升代码评测集的质量与可靠性。

来自主题: AI技术研报

8875 点击 2025-03-18 10:54

解构Manus AI：这是通用Agent革命，还是精巧缝合怪？

自媒体的反应堪称狂热：“通用Agent终于实现了！”“这是继DeepSeek之后的又一技术革命！”这样夸张的赞誉随处可见。从Benchmark来看，它的表现确实非常亮眼，在GAIA测试中超越了之前的各种Agent以及OpenAI的DeepResearch。

来自主题: AI技术研报

9841 点击 2025-03-09 02:07

OWL：复刻Manus通用智能体，完全开源！GAIA Benchmark最强性能！

最近AI圈最炸的瓜，毫无疑问是——Manus！一个AI Agent，不仅能刷GAIA Benchmark，还能远程开Ubuntu容器、自动挂载数据、做规划、执行任务，堪称「云端超级打工人」。听起来确实很能打？但我们 CAMEL-AI的🦉OWL项目看完Manus视频，集体摊手：就这？0天复刻走起！

来自主题: AI资讯

12718 点击 2025-03-07 14:33

北航推出TinyLLaVA-Video，有限计算资源优于部分7B模型，代码、模型、训练数据全开源

近日，北京航空航天大学的研究团队基于 TinyLLaVA_Factory 的原项目，推出小尺寸简易视频理解框架 TinyLLaVA-Video，其模型，代码以及训练数据全部开源。在计算资源需求显著降低的前提下，训练出的整体参数量不超过 4B 的模型在多个视频理解 benchmark 上优于现有的 7B + 模型。

来自主题: AI技术研报

8289 点击 2025-02-10 16:54

o3数学成绩作弊大瓜！提前让测试机构给真题，60多名数学大牛全被蒙在鼓里

OpenAI o3还没上线，就被曝数学成绩是靠作弊得来？！Benchmark发布机构内部人员爆料称，OpenAI给了他们经费赞助。就连包括陶哲轩在内参与出题的60余名数学家，在消息曝光之前也都和普通公众一样蒙在鼓里。

来自主题: AI资讯

8041 点击 2025-01-20 16:40

微软开源Markdown工具爆了：支持Office文档，可接多模态LLM直出报告

AI编程蓝皮书火了，发布3天，阅读量超过3万！

来自主题: AI资讯

8365 点击 2025-01-20 15:46

深度长文｜人脑 vs AI：当10比特遭遇百万比特，我们还有未来吗？

2024年11月15日，加州理工学院生物学和生物工程系的Jieyu Zheng和Markus Meister发表了一篇震撼学界的论文《The Unbearable Slowness of Being: Why do we live at 10 bit/s?》[1]。这项研究揭示了一个令人不安的事实：人类大脑每秒仅能处理大约10比特信息。

来自主题: AI资讯

7965 点击 2025-01-13 11:36

阿里妈妈首提AIGB并实现大规模商业化落地，将在NeurIPS 2024正式开源Benchmark

2023 年，阿里妈妈首次提出了 AIGB（AI-Generated Bidding）Bidding 模型训练新范式（参阅：阿里妈妈生成式出价模型（AIGB）详解）。

来自主题: AI资讯

8459 点击 2024-12-04 20:26