
只用2700万参数,这个推理模型超越了DeepSeek和Claude
只用2700万参数,这个推理模型超越了DeepSeek和Claude像人一样推理。 大模型的架构,到了需要变革的时候? 在对复杂任务的推理工作上,当前的大语言模型(LLM)主要采用思维链(CoT)技术,但这些技术存在任务分解复杂、数据需求大以及高延迟等问题。
像人一样推理。 大模型的架构,到了需要变革的时候? 在对复杂任务的推理工作上,当前的大语言模型(LLM)主要采用思维链(CoT)技术,但这些技术存在任务分解复杂、数据需求大以及高延迟等问题。
还记得 2022 年 11 月,魔搭社区在周靖人的倡议下诞生,他当时说:“真正让 AI 开发变得更简单,实现 AI 应用的百花齐放”。
今年2月DeepSeek爆火,震惊国内外。实际上,在此之前,中国信息通信研究院(下称:中国信通院)的大模型评测团队就观察到国内模型性能迅速提升的势头,他们当中就包括中国信通院人工智能研究所所长魏凯。
在日常生活中,我们常通过语言描述寻找特定物体:“穿蓝衬衫的人”“桌子左边的杯子”。如何让 AI 精准理解这类指令并定位目标,一直是计算机视觉的核心挑战。
大模型可以不再依赖人类调教,真正“自学成才”啦?新研究仅通过RLVR(可验证奖励的强化学习),成功让模型自主进化出通用的探索、验证与记忆能力,让模型学会“自学”!
在长达数周的高强度「挖角」之后,Meta 今天凌晨宣布正式成立超级智能实验室(Meta Superintelligence Labs,简称 MSL)。Meta CEO 马克·扎克伯格在当时时间周一发布的一封内部信中透露,MSL 将整合公司现有的基础 AI 研究(FAIR)、大语言模型开发以及 AI 产品团队,并组建一个专门研发下一代 AI 模型的新实验室。
百度文心大模型开源,如期而至。就在今天,百度官宣文心大模型4.5系列正式开源,还同步提供API服务。
6月28日,由国家能源集团自主研发的全球首个千亿级发电行业大模型——“擎源”发电行业大模型在京正式发布。
OpenAI计划发布一个非常强大的开源模型。它能够让人们在本地运行极其强大的模型,重新认识“本地部署”的可能性。
最近,你可能刷到过一些奇趣的猫咪视频。主角通常是一只很胖的橘猫,像人一样在送外卖,或者刚看完电影就冲进健身房假装减肥。这些有点好笑、有点可爱的“大橘剧场”,配上魔性的“喵喵”音乐,正在抖音、小红书和TikTok上到处传播 。