AI资讯新闻榜单内容搜索-模型训练

Bengio等人新作：注意力可被视为RNN，新模型媲美Transformer，但超级省内存

既能像 Transformer 一样并行训练，推理时内存需求又不随 token 数线性递增，长上下文又有新思路了？

来自主题: AI技术研报

8062 点击 2024-05-25 18:07

腾讯PCG自研高性能大语言模型推理引擎「一念LLM」正式开源

以 OpenAI 的 GPT 系列模型为代表的大语言模型（LLM）掀起了新一轮 AI 应用浪潮，但是 LLM 推理的高昂成本一直困扰着业务团队。

来自主题: AI技术研报

10777 点击 2024-05-24 20:58

从80个模型中构建Scaling Law：华人博士生新作，思维链提出者力荐

在 AI 领域，扩展定律（Scaling laws）是理解 LM 扩展趋势的强大工具，其为广大研究者提供了一个准则，该定律在理解语言模型的性能如何随规模变化提供了一个重要指导。

来自主题: AI技术研报

5363 点击 2024-05-24 20:52

通用世界模型问世：不学习就能生成新领域视频，可实时控制

这才是 AI 视频生成的未来？

来自主题: AI资讯

9103 点击 2024-05-24 20:48

标注受限也能识别多标签图像！中山大学等发布异构语义转移HST框架 | IJCV 2024

在多标签图像识别领域中，由于图像本身和潜在标签类别的复杂性，收集满足现有模型训练的多标签标注信息往往成本高昂且难以拓展。中山大学联合广东工业大学联手探索标注受限情况下的多标签图像识别任务，通过对多标签图像中的强语义相关性的探索研究，提出了一种异构语义转移(Heterogeneous Semantic Transfer, HST) 框架，实现了有效的未知标签生成。

来自主题: AI技术研报

4955 点击 2024-05-24 20:39

世界模型也扩散！训练出的智能体竟然不错

在图像生成领域占据主导地位的扩散模型，开始挑战强化学习智能体。

来自主题: AI技术研报

10616 点击 2024-05-24 11:22

注意！这个小球开始下山了

4年前的开源项目突然在Hacker News爆火，通过可视化的「小球下山」，帮助非专业和专业人士，更好地理解AI训练中梯度下降的过程。

来自主题: AI资讯

7263 点击 2024-05-23 21:16

开源多模态SOTA再易主，19B模型比肩GPT-4v，16G显存就能跑

开源多模态SOTA模型再易主！Hugging Face开发者大使刚刚把王冠交给了CogVLM2，来自大模型创业公司智谱AI。CogVLM2甚至在3项基准测试上超过GPT-4v和Gemini Pro，还不是超过一点，是大幅领先。

来自主题: AI资讯

7979 点击 2024-05-22 18:29

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024

近年来，「scaling」是计算机视觉研究的主角之一。随着模型尺寸和训练数据规模的增大、学习算法的进步以及正则化和数据增强等技术的广泛应用，通过大规模训练得到的视觉基础网络（如 ImageNet1K/22K 上训得的 Vision Transformer、MAE、DINOv2 等）已在视觉识别、目标检测、语义分割等诸多重要视觉任务上取得了令人惊艳的性能。

来自主题: AI技术研报

10067 点击 2024-05-22 13:33

没有指数级数据就没有Zero-shot！生成式AI或已到达顶峰

近日，又一惊人结论登上Hacker News热榜：没有指数级数据，就没有Zero-shot！多模态模型被扒实际上没有什么泛化能力，生成式AI的未来面临严峻挑战。

来自主题: AI技术研报

10504 点击 2024-05-21 15:27