
新王Claude 3.5实测:阿里数学竞赛题不给选项直接做对
新王Claude 3.5实测:阿里数学竞赛题不给选项直接做对新鲜出炉的Claude 3.5 Sonnet,更快、更便宜,还是全球最强。
来自主题: AI技术研报
9602 点击 2024-06-21 20:08
新鲜出炉的Claude 3.5 Sonnet,更快、更便宜,还是全球最强。
在GPT-4发布后14.5个月里,LLM领域似乎已经没什么进步了?近日,马库斯的一句话引发了全网论战。大模型烧钱却不赚钱,搞AI的公司表示:难办!
号称不可能轻易被击败的AGI基准ARC-AGI被GPT-4o撼动,GPT-4o以在公共测试集50%、在训练集71%的准确率成为了新的SOTA!
Claude大模型又双叒叕更新升级了!
怎么度量现在的AI到底能干什么不能干什么?
GPT-4通过图灵测试,54%人误认为真人。
今天, OpenAI劲敌Anthropic忽然丢炸弹,发布下一代旗舰大模型Claude 3.5 Sonnet。
测试Gemini1.5 Pro、GPT-4o等多模态大模型的新基准来了,针对视频理解能力的那种。
苹果OpenAI官宣合作,GPT-4o加持Siri,让AI个性化生成赛道热度飙升。
GTP-4o挑战悬赏八百万的超难数据集,实现SOTA!