AI资讯新闻榜单内容搜索-模型训练

五种资源类别，如何提高大语言模型的资源效率，超详细综述来了

本综述深入探讨了大型语言模型的资源高效化问题。

来自主题: AI资讯

9589 点击 2024-01-14 14:36

世界上最快超算集群Frontier，用8%的GPU训练出了一个万亿级规模的大模型，而且是在AMD硬件平台之上完成。研究人员将训练的细节和克服的困难写成了一篇论文，展示了如何用非英伟达的生态完成大模型训练的技术框架和细节。

来自主题: AI资讯

6433 点击 2024-01-13 20:20

当前智能对话模型的发展中，强大的底层模型起着至关重要的作用。这些先进模型的预训练往往依赖于高质量且多样化的语料库，而如何构建这样的语料库，已成为行业中的一大挑战。

来自主题: AI资讯

3520 点击 2024-01-12 17:31

数据获取最新解，便是从生成模型中学习。获取高质量数据，已经成为当前大模型训练的一大瓶颈。

来自主题: AI资讯

4785 点击 2024-01-12 14:19

如何从一段视频中找出感兴趣的片段？时序行为检测（Temporal Action Localization，TAL）是一种常用方法。过去TAL中的建模是片段甚至实例级的，而现在只要视频里的一帧就能实现，效果媲美全监督。

来自主题: AI技术研报

8709 点击 2024-01-08 14:33

仅需一个任务描述，即可一键分割所有图片！

来自主题: AI技术研报

8318 点击 2024-01-08 14:20

琳琅满目的乐高积木，通过一块又一块的叠加，可以创造出各种栩栩如生的人物、景观等，不同的乐高作品相互组合，又能为爱好者带来新的创意。

来自主题: AI技术研报

9106 点击 2024-01-06 16:37

解决扩散模型「不识字」的问题，Textdiffuser采用两阶段（布局+图像）生成框架，显著提升了相关性能的指标！

来自主题: AI资讯

5149 点击 2024-01-06 16:09

这篇论文介绍了一项新的任务 —— 指向性遥感图像分割（RRSIS），以及一种新的方法 —— 旋转多尺度交互网络（RMSIN）。

来自主题: AI技术研报

4151 点击 2024-01-06 11:53

本文探讨了大模型套壳的问题，解释了大模型的内核和预训练过程。同时，介绍了“原创派”和“模仿派”两种预训练框架的差异，并讨论了通过“偷”聊天模型数据进行微调的现象。最后，提出了把“壳”做厚才是竞争力的观点。

来自主题: AI资讯

7911 点击 2024-01-04 09:53