AI资讯新闻榜单内容搜索-EduBench

GPT-4o准确率仅为24%！权威中文教育基准：知识+情商的双重考验

华东师范大学智能教育学院发布OmniEduBench，首次从「知识+育人」双维度评测大模型教育能力。测评2.4万道中文题后，实验结果显示：GPT-4o等顶尖AI会做题，却在启发思维、情感支持等育人能力上远不及人类，暴露AI当老师的关键短板。

来自主题: AI技术研报

8257 点击 2025-11-15 10:15

发展教育大模型需要新的数据和评估体系！北京理工大学高扬老师团队推出EduBench，是首个专为教育场景打造的综合评估基准，涵盖9大教育场景、12个多视角评估维度、超4000个教育情境。通过多维度评估指标体系和人工标注一致性计算，确保评估可靠性，助力教育大模型发展，推动教育智能化。

来自主题: AI技术研报

10656 点击 2025-06-03 16:47