AI资讯新闻榜单内容搜索-LLM训练

比Adam更有效，POET从谱不变原理出发，让LLM训练又稳又快

Zeju Qiu和Tim Z. Xiao是德国马普所博士生，Simon Buchholz和Maximilian Dax担任德国马普所博士后研究员

来自主题: AI技术研报

8613 点击 2025-07-15 10:11

vivo突破手机AI部署难题，绕开MoE架构限制，骁龙8 Elite流畅运行｜ICCV 2025

vivo AI研究院联合港中文以及上交团队为了攻克这些难题，从训练数据和模型结构两方面，系统性地分析了如何在MLLM训练中维持纯语言能力，并基于此提出了GenieBlue——专为移动端手机NPU设计的高效MLLM结构方案。

来自主题: AI技术研报

6567 点击 2025-07-05 13:12

英伟达nGPT重塑Transformer，AI训练速度暴增20倍！文本越长，加速越快

LLM训练速度还可以再飙升20倍！英伟达团队祭出全新架构归一化Transformer（nGPT），上下文越长，训练速度越快，还能维持原有精度。

来自主题: AI技术研报

4156 点击 2024-10-20 17:11

LLM训练通信量减少10000倍！全新分布式优化器，整合世间算力训练强大AI

如果可以使用世界上所有的算力来训练AI模型，会怎么样？近日，凭借发布了开源的Hermes 3（基于Llama 3.1）而引起广泛关注的Nous Research，再次宣布了一项重大突破——DisTrO（分布式互联网训练）。

来自主题: AI资讯

5041 点击 2024-09-10 11:01

破解ChatGPT惊人耗电！DeepMind新算法训练提效13倍，能耗暴降10倍

ChatGPT能耗惊人，该怎么解？谷歌DeepMind新算法JEST问世，让LLM训练的迭代次数降低13倍，计算量减少10倍，或将重塑AI未来。

来自主题: AI技术研报

8754 点击 2024-07-07 16:42

拯救被「掰弯」的GPT-4！西交微软北大联合提出IN2训练治疗LLM「中间迷失」

近日，西交微软北大联合提出信息密集型训练大法，使用纯数据驱动的方式，矫正LLM训练过程产生的偏见，在一定程度上治疗了大语言模型丢失中间信息的问题。

来自主题: AI技术研报

8819 点击 2024-05-22 13:08

LLM会写代码≠推理+规划！AAAI主席揭秘：代码数据质量太高｜LeCun力赞

自从ChatGPT发布后，各种基于大模型的产品也快速融入了普通人的生活中，但即便非AI从业者在使用过几次后也可以发现，大模型经常会胡编乱造，生成错误的事实。

来自主题: AI技术研报

3311 点击 2024-01-23 15:28

小模型如何进行上下文学习？字节跳动 & 华东师大联合提出自进化文本识别器

我们都知道，大语言模型（LLM）能够以一种无需模型微调的方式从少量示例中学习，这种方式被称为「上下文学习」（In-context Learning）。这种上下文学习现象目前只能在大模型上观察到。比如 GPT-4、Llama 等大模型在非常多的领域中都表现出了杰出的性能，但还是有很多场景受限于资源或者实时性要求较高，无法使用大模型。

来自主题: AI技术研报

4195 点击 2023-11-27 12:49

解析大模型中的Scaling Law

计划训练一个10B的模型，想知道至少需要多大的数据？收集到了1T的数据，想知道能训练一个多大的模型？老板准备1个月后开发布会，给的资源是100张A100，那应该用多少数据训一个多大模型最终效果最好？

来自主题: AI技术研报

11488 点击 2023-11-20 10:09