英伟达最强通用大模型Nemotron-4登场!15B击败62B,目标单张A100/H100可跑
英伟达最强通用大模型Nemotron-4登场!15B击败62B,目标单张A100/H100可跑许久未更新大模型的英伟达推出了150亿参数的Nemotron-4,目标是打造一个能在单个A100/H100可跑的通用大模型。
搜索
许久未更新大模型的英伟达推出了150亿参数的Nemotron-4,目标是打造一个能在单个A100/H100可跑的通用大模型。
本文提出了扩散模型中UNet的long skip connection的scaling操作可以有助于模型稳定训练的分析,目前已被NeurIPS 2023录用。同时,该分析还可以解释扩散模型中常用但未知原理的1/√2 scaling操作能加速训练的现象。
陈丹琦团队刚刚发布了一种新的LLM上下文窗口扩展方法:它仅用8k大小的token文档进行训练,就能将Llama-2窗口扩展至128k。
2月16日,OpenAI推出了堪称“王炸”的文生视频大模型Sora,AI军备竞赛的战场加速向多模态转移,这意味着相比寻常LLM更为丰富的场景与机会。此外,2024年将成为AI硬件元年的共识也基本形成,业界对AI在智能终端的应用寄予厚望,将其视为提振消费电子市场的关键。
北京时间2月28日港股盘后,百度(9888.HK;BIDU.O)发布了2023年第四季度财报。
Coze 是字节出海的产品,访问地址为 coze.com,扣子是字节2月1日在国内上线的产品,访问地址为 coze.cn,
成立仅9个月,法国Mistral AI拿出仅次于GPT-4的大模型。
2月26日,总部位于巴黎的人工智能公司Mistral AI发布尖端文本生成模型Mistral Large。该模型达到了顶级的推理能力,可用于复杂的多语言推理任务,包括文本理解、转换和代码生成。
2月22日,英伟达发布2024财年四季报,营收221亿美元,同比增长265%,净利润123亿美元,同比激增769%,双双大超市场预期。
每年都要拉出来被嘲讽一番的苹果泰坦计划,今日彻底宣告终结。项目员工要么转岗,要么遣散。L5放弃、L2难成,美国电车遇冷。显然,全球的下一个风口是生成式AI。面对烧光的几十亿刀,及时止损,是苹果最后的体面。