AI资讯新闻榜单内容搜索-LoRA

改变LoRA的初始化方式，北大新方法PiSSA显著提升微调效果

随着大模型的参数量日益增长，微调整个模型的开销逐渐变得难以接受。为此，北京大学的研究团队提出了一种名为 PiSSA 的参数高效微调方法，在主流数据集上都超过了目前广泛使用的 LoRA 的微调效果。

来自主题: AI技术研报

11793 点击 2024-04-13 16:50

比LoRA还快50%的微调方法来了！一张3090性能超越全参调优，UIUC联合LMFlow团队提出LISA

2022 年底，随着 ChatGPT 的爆火，人类正式进入了大模型时代。然而，训练大模型需要的时空消耗依然居高不下，给大模型的普及和发展带来了巨大困难。面对这一挑战，原先在计算机视觉领域流行的 LoRA 技术成功转型大模型 [1][2]，带来了接近 2 倍的时间加速和理论最高 8 倍的空间压缩，将微调技术带进千家万户。

来自主题: AI技术研报

10228 点击 2024-04-01 15:45

如何从头开始编写LoRA代码，这有一份教程

作者表示：在各种有效的 LLM 微调方法中，LoRA 仍然是他的首选。LoRA（Low-Rank Adaptation）作为一种用于微调 LLM（大语言模型）的流行技术，最初由来自微软的研究人员在论文《 LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS 》中提出。

来自主题: AI技术研报

8263 点击 2024-03-20 16:16

匿名论文提出奇招！增强大模型长文本能力居然还能这么做

来看一个奇妙新解：和长度外推等方法使用KV缓存的本质不同，它用模型的参数来存储大量上下文信息。

来自主题: AI技术研报

7976 点击 2024-02-02 16:12

小红书开源「InstantID」效果炸裂，被Yann LeCun点赞，迅速蹿上Github热榜

只需一张照片，整个过程无需训练 LoRA 模型，多风格 AI 写真即刻呈现！

来自主题: AI资讯

9435 点击 2024-02-02 11:52

NeurIPS 2023精选回顾：大模型最火，清华ToT思维树上榜

美国著名科技播客Latent Space对于刚刚过去的NeurIPS 2023上的精彩论文进行了一个全面的总结，回顾了多篇优秀论文，虽然没有获奖，但同样值得学界关注。

来自主题: AI技术研报

10971 点击 2024-01-26 13:40

一张照片，为深度学习巨头们定制人像图片

主题驱动的文本到图像生成，通常需要在多张包含该主题（如人物、风格）的数据集上进行训练，这类方法中的代表工作包括 DreamBooth、Textual Inversion、LoRAs 等，但这类方案因为需要更新整个网络或较长时间的定制化训练，往往无法很有效地兼容社区已有的模型，并无法在真实场景中快速且低成本应用。

来自主题: AI技术研报

11121 点击 2024-01-20 14:53