一招分辨刷榜作弊大模型,博士小哥开源AI数学“照妖镜”
一招分辨刷榜作弊大模型,博士小哥开源AI数学“照妖镜”如今很多大模型都声称擅长数学,谁有真才实学?谁是靠背测试题“作弊”的?有人在今年刚刚公布题目的匈牙利全国数学期末考试上做了一把全面测试。很多模型一下子就“现原形”了。
搜索
如今很多大模型都声称擅长数学,谁有真才实学?谁是靠背测试题“作弊”的?有人在今年刚刚公布题目的匈牙利全国数学期末考试上做了一把全面测试。很多模型一下子就“现原形”了。
这次,GPT-5真的要来了。「OpenAI正在开发下一代大模型GPT-5。我们的意义所在,就是打造超凡脱俗的神奇AI智能」。
据The Information报道,OpenAI CEO Sam Altman在与iPhone著名设计师Jony Ive讨论开发一种新的AI硬件设备的可能性,将行业内对AI大模型和手机结合的想象进一步推向高潮。
大模型代码生成能力如何,还得看你的「需求表达」好不好。从通过HumEval中67%测试的GPT-4,到近来各种开源大模型,比如CodeLlama,有望成为码农编码利器。
一场围绕大模型自研和创新的讨论,这两天在技术圈里炸了锅。起初,前阿里技术VP贾扬清,盆友圈爆料吐槽:有大厂新模型就是LLaMA架构,但为了表示不同,通过改变开源代码名字、替换几个变量名……
重磅发布!“大模型+Agent” AI 原生应用来了!依托强大的基座模型和创新研发的 AI Agents 技术,面壁智能正式推出基于群体智能的AI原生应用——“面壁智能 ChatDev”智能软件开发平台。
11月10日,奥特曼发了一条推文,说GPT可以节省大量工作,配图充满了嘲讽意味。 他用GPT builder创建了一个AI助手“Grok”,和马斯克发布的AI大模型名字一样。Grok的一大特色就是说话很“幽默”,每次对话都会像聊天一样调侃两句,而不是像GPT一样严肃。
11月14日,阿里巴巴智能信息事业群发布全栈自研、千亿级参数的夸克大模型,将应用于通用搜索、医疗健康、教育学习、职场办公等众多场景。夸克App将借助自研大模型全面升级,加速迈向年轻人工作、学习、生活的AI助手。
英伟达老黄,带着新一代GPU芯片H200再次炸场。官网毫不客气就直说了,“世界最强GPU,专为AI和超算打造”。
首个落地的交通出行大模型,它来了! 这两年的出行行业,有的卷补贴、规模,有的卷自动驾驶、卷定制车,终于有人开始卷大模型了!名为“阡陌”,背后是国家队级别的选手:T3出行和中国电信。