AI资讯新闻榜单内容搜索-GPT-4o

斯坦福7B智能体全面超越GPT-4o，推理流登顶HF

传统智能体系统难以兼顾稳定性和学习能力，斯坦福等学者提出AgentFlow框架，通过模块化和实时强化学习，在推理中持续优化策略，并使小规模模型在多项任务中超越GPT-4o，为AI发展开辟新思路。

来自主题: AI技术研报

8141 点击 2025-11-04 10:43

OpenAI公开未来路线图！具体到28年3月AI研究员将完全自主，奥特曼承认“关于GPT-4o我们搞砸了”

OpenAI完成史上最重要的一次组织架构调整后，紧接着开了一场直播。首次公开了内部研究目标的具体时间表，其中最引人注目的是“在2028年3月实现完全自主的AI研究员”，具体到月份。

来自主题: AI资讯

7734 点击 2025-10-29 12:04

Seedream 4.0大战Nano Banana、GPT-4o？EdiVal-Agent 终结图像编辑评测

在 AIGC 的下一个阶段，图像编辑（Image Editing）正逐渐取代一次性生成，成为检验多模态模型理解、生成与推理能力的关键场景。我们该如何科学、公正地评测这些图像编辑模型？

来自主题: AI技术研报

6986 点击 2025-10-25 14:26

AI在线强化学习“边做边学”，斯坦福团队让7B小模型性能飙升，甚至超越GPT-4o

斯坦福等新框架，用在线强化学习让智能体系统“以小搏大”，领先GPT-4o—— AgentFlow，是一种能够在线优化智能体系统的新范式，可以持续提升智能体系统对于复杂问题的推理能力。

来自主题: AI技术研报

6250 点击 2025-10-25 14:03

抖音&LV-NUS开源多模态新模，以小博大刷新SOTA，8B推理比肩GPT-4o

2B模型在多个基准位列4B参数以下开源第一。抖音SAIL团队与LV-NUS Lab联合推出的多模态大模型SAIL-VL2。

来自主题: AI技术研报

7487 点击 2025-10-13 15:58

国产游戏理解模型刷新SOTA，对话逗逗AI CEO：开源模型+行业数据是突破关键

游戏理解领域模型LynkSoul VLM v1，在游戏场景中表现显著超过了包括GPT-4o、Claude 4 Sonnet、Gemini 2.5 Flash等一众顶尖闭源模型。背后厂商逗逗AI，亦在现场吸引了不少关注的目光。

来自主题: AI资讯

9019 点击 2025-10-11 17:25

十亿级参数，千亿级性能，上海AI Lab发布新一代文档解析大模型，复杂场景解析精度媲美人类专家

上海人工智能实验室发布新一代文档解析大模型——MinerU2.5。作为MinerU系列最新成果，该模型仅以1.2B参数规模，就在OmniDocBench、olmOCR-bench、Ocean-OCR等权威评测上，全面超越Gemini2.5-Pro、GPT-4o、Qwen2.5-VL-72B等主流通用大模型，以及dots.ocr、MonkeyOCR、PP-StructureV3等专业文档解析工具。

来自主题: AI技术研报

9030 点击 2025-09-30 10:45

OpenAI被指欺诈，用户输入可能会被秘密路由到新模型GPT-5-Chat-Safety

今年 8 月，GPT-5 发布，其在多个任务和基准上都表现卓越，但几乎和人世间的所有事物一样，并不是所有人都满意。尤其是 GPT-5 发布后「OpenAI 移除 ChatGPT 中模型选择器」的做法更是备受诟病（尤其是移除了情感表达更佳的 GPT-4o），甚至引发了诸多用户的「网上请愿」，详见我们的报道《用户痛批 GPT-5，哭诉「还我 GPT-4o」，奥特曼妥协了》。

来自主题: AI资讯

8182 点击 2025-09-29 15:00

陈丹琦新作：大模型强化学习的第三条路，8B小模型超越GPT-4o

结合RLHF+RLVR，8B小模型就能超越GPT-4o、媲美Claude-3.7-Sonnet。陈丹琦新作来了。他们提出了一个结合RLHF和RLVR优点的方法，RLMT（Reinforcement Learning with Model-rewarded Thinking，基于模型奖励思维的强化学习）。

来自主题: AI技术研报

9717 点击 2025-09-28 23:03

GUI智能体训练迎来新范式！半在线强化学习让7B模型媲美GPT-4o

浙江大学与通义实验室Mobile-Agent团队在UI-R1的基础上，推出全新研究成果——UI-S1，提出了一种名为半在线强化学习（Semi-online Reinforcement Learning）的创新训练范式。

来自主题: AI技术研报

7521 点击 2025-09-24 09:49