32专家MoE大模型免费商用!性能全面对标Llama3,单token推理消耗仅5.28%
32专家MoE大模型免费商用!性能全面对标Llama3,单token推理消耗仅5.28%每个token只需要5.28%的算力,精度就能全面对标Llama 3。
搜索
每个token只需要5.28%的算力,精度就能全面对标Llama 3。
就在刚刚,法国AI初创公司Mistral发布了自家首款代码生成模型Codestral。不仅支持32K长上下文窗口以及80多种编程语言,而且还用22B的参数量取得了与70B的Llama 3相近的性能。目前,已经开放API与IDE插件供用户使用。
一直以来,UC伯克利团队的LMSYS大模型排行榜,深受AI圈欢迎。如今,最有实力的全新大模型排行榜SEAL诞生,得到AI大佬的转发。它最大的特点是在私有数据上,由专家严格评估,并随时间不断更新数据集和模型。
国内大厂AI社交产品已大面积“熄火”。 AI 社交产品“未伴”发布公告,宣布自 5 月 27 号起逐步停止创建、搜索、聊天及朋友圈功能,并在下个月 14 日正式停止在中国大陆地区的服务,团队的重心也将集中在非大陆地区的迭代运营上,发力出海。说起来这也是我们目前观察到的首款官宣下架的大厂背景的 AI 社交产品。
从教育版“高德地图”,到真正的“AI老师”
搜集了328×204条数据,只为让机器人把开门这一件事做到极致。
AI采用仍在早期,基础设施创业空间巨大。
大神Karpathy已经不满足于用C语言造Llama了! 他给自己的最新挑战:复现OpenAI经典成果,从基础版GPT-2开始。
当地时间5月26日,马斯克旗下的人工智能初创公司xAI宣布完成B轮60亿美元融资。主要的投资者包括 Valor Equity Partners、Vy Capital、Andreessen Horowitz、红杉资本等。
在大模型实际部署落地的过程中,如何赋予大模型持续学习的能力是一个至关重要的挑战。这使其能够动态适应新的任务并不断获得新的知识。大模型的持续学习主要面临两个重大挑战,分别是灾难性遗忘和知识迁移。灾难性遗忘是指模型在学习新任务时,会忘记其已掌握的旧任务。知识迁移则涉及到如何在学习新任务时有效地应用旧任务的知识来提升新任务学习的效果。