
一头大象难倒ChatGPT,Grok 3完美通关
一头大象难倒ChatGPT,Grok 3完美通关ChatGPT新Bug引热议:无法画出“有0头大象的房间”。
ChatGPT新Bug引热议:无法画出“有0头大象的房间”。
在知名AI排行榜LM Arena中,曾全班垫底的GPT-4.5竟一度拿下第一?甚至在数学、编程等领域表现优异,这反常的表现让网友们一度质疑:大模型竞技场莫非被LLM操纵了?不过网友们在实测后却惊讶发现,GPT-4.5的确情商爆表,不用推理就能理解人类的深层意图!
说真的,dify除了知识库以外,其他大部分功能体验都比fastgpt要好。而fastgpt的知识库效果是公认的好(以下是某群 群友的评价~)不过我想: 如果能把dify和fastgpt结合,且不妙哉?
恰巧那段时间,他开始使用OpenAI的人工智能聊天工具ChatGPT,主要是捣鼓点购物清单,让它帮忙做做预算什么的。它能帮忙写讣闻吗?金开始给ChatGPT发送一些祖母的人生经历——她在护士的岗位上干到退休、热爱保龄球、儿孙满堂等等——并要求它据此写一篇讣告。
要知道,过去几年,各种通用评测逐渐同质化,越来越难以评估模型真实能力。GPQA、MMLU-pro、MMLU等流行基准,各家模型出街时人手一份,但局限性也开始暴露,比如覆盖范围狭窄(通常不足 50 个学科),不含长尾知识;缺乏足够挑战性和区分度,比如 GPT-4o 在 MMLU-Pro 上准确率飙到 92.3%。
基础模型竞争又紧张刺激起来了!GPT-4.5刚登顶竞技场且全任务分类第一名,6小时后总榜就被马斯克的新版Grok-3反超。两者都是获得3000+票数,总分1412:1411只差一分。
Karpathy发出灵魂拷问,评估AI究竟该看哪些指标?答案或许就藏在经典游戏里!最近,加州大学圣迭戈分校Hao AI Lab用超级马里奥等评测AI智能体,Claude 3.7结果令人瞠目结舌。
通过Deepseek、ChatGPT、Gemini等大模型说出来的话,不少没有辨别能力的小伙伴就会默认是公道与正确的。其实是未必。1.Deepseek、ChatGPT、Gemini等联网搜索的结果与规则还在完善;
DeepSeek和xAI相继用R1和Grok-3证明:预训练Scaling Law不是OpenAI的护城河。将来95%的算力将用在推理,而不是现在的训练和推理各50%。OpenAI前途不明,生死难料!
2025年开年,全球AI战场硝烟弥漫。 ChatGPT悄然迭代至GPT-6,在DeepSeek横空出世、在多领域大展拳脚后,马斯克旗下的人工智能公司紧随其后重磅发布了Grok 3系列模型。