AI资讯新闻榜单内容搜索-GPT-4

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: GPT-4
GPT-4o准确率仅为24%!权威中文教育基准:知识+情商的双重考验

GPT-4o准确率仅为24%!权威中文教育基准:知识+情商的双重考验

GPT-4o准确率仅为24%!权威中文教育基准:知识+情商的双重考验

华东师范大学智能教育学院发布OmniEduBench,首次从「知识+育人」双维度评测大模型教育能力。测评2.4万道中文题后,实验结果显示:GPT-4o等顶尖AI会做题,却在启发思维、情感支持等育人能力上远不及人类,暴露AI当老师的关键短板。

来自主题: AI技术研报
6482 点击    2025-11-15 10:15
仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类

仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类

仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类

加州大学河滨分校团队发现,AI组合推理表现不佳部分源于评测指标过于苛刻。他们提出新指标GroupMatch和Test-Time Matching算法,挖掘模型潜力,使GPT-4.1在Winoground测试中首次超越人类,0.2B参数的SigLIP-B16在MMVP-VLM基准测试上超越GPT-4.1并刷新最优结果。这表明模型的组合推理能力早已存在,只需合适方法在测试阶段解锁。

来自主题: AI技术研报
6619 点击    2025-11-09 15:33
开发者生产力“平替”?MiniMax M2全面测评:代码、速度与迁移成本

开发者生产力“平替”?MiniMax M2全面测评:代码、速度与迁移成本

开发者生产力“平替”?MiniMax M2全面测评:代码、速度与迁移成本

生成式AI技术的成熟,让智能编程逐渐成为众多开发者的日常,然而一个大模型API选型的“不可能三角”又随之而来:追求顶级、高速的智能(如GPT-4o/Claude 3.5),就必须接受高昂的调用成本;追求低成本,又往往要在性能和稳定性上做出妥协。开发者“既要又要”的正义,谁能给?

来自主题: AI产品测评
9065 点击    2025-11-05 10:25
斯坦福7B智能体全面超越GPT-4o,推理流登顶HF

斯坦福7B智能体全面超越GPT-4o,推理流登顶HF

斯坦福7B智能体全面超越GPT-4o,推理流登顶HF

传统智能体系统难以兼顾稳定性和学习能力,斯坦福等学者提出AgentFlow框架,通过模块化和实时强化学习,在推理中持续优化策略,并使小规模模型在多项任务中超越GPT-4o,为AI发展开辟新思路。

来自主题: AI技术研报
7434 点击    2025-11-04 10:43
OpenAI公开未来路线图!具体到28年3月AI研究员将完全自主,奥特曼承认“关于GPT-4o我们搞砸了”

OpenAI公开未来路线图!具体到28年3月AI研究员将完全自主,奥特曼承认“关于GPT-4o我们搞砸了”

OpenAI公开未来路线图!具体到28年3月AI研究员将完全自主,奥特曼承认“关于GPT-4o我们搞砸了”

OpenAI完成史上最重要的一次组织架构调整后,紧接着开了一场直播。首次公开了内部研究目标的具体时间表,其中最引人注目的是“在2028年3月实现完全自主的AI研究员”,具体到月份。

来自主题: AI资讯
7078 点击    2025-10-29 12:04
Seedream 4.0大战Nano Banana、GPT-4o?EdiVal-Agent 终结图像编辑评测

Seedream 4.0大战Nano Banana、GPT-4o?EdiVal-Agent 终结图像编辑评测

Seedream 4.0大战Nano Banana、GPT-4o?EdiVal-Agent 终结图像编辑评测

在 AIGC 的下一个阶段,图像编辑(Image Editing)正逐渐取代一次性生成,成为检验多模态模型理解、生成与推理能力的关键场景。我们该如何科学、公正地评测这些图像编辑模型?

来自主题: AI技术研报
6300 点击    2025-10-25 14:26
AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升,甚至超越GPT-4o

AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升,甚至超越GPT-4o

AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升,甚至超越GPT-4o

斯坦福等新框架,用在线强化学习让智能体系统“以小搏大”,领先GPT-4o—— AgentFlow,是一种能够在线优化智能体系统的新范式,可以持续提升智能体系统对于复杂问题的推理能力。

来自主题: AI技术研报
5542 点击    2025-10-25 14:03
抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o

抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o

抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o

2B模型在多个基准位列4B参数以下开源第一。 抖音SAIL团队与LV-NUS Lab联合推出的多模态大模型SAIL-VL2。

来自主题: AI技术研报
6866 点击    2025-10-13 15:58
吴恩达Agentic AI新课:手把手教你搭建Agent工作流,GPT-3.5反杀GPT-4就顺手的事

吴恩达Agentic AI新课:手把手教你搭建Agent工作流,GPT-3.5反杀GPT-4就顺手的事

吴恩达Agentic AI新课:手把手教你搭建Agent工作流,GPT-3.5反杀GPT-4就顺手的事

吴恩达又出新课了,这次的主题是—Agentic AI。 在新课中,吴恩达将Agentic工作流的开发沉淀为四大核心设计模式:反思、工具、规划与协作,并首次强调评估与误差分析才是智能体开发的决定性能力:

来自主题: AI资讯
9690 点击    2025-10-13 11:54