AI资讯新闻榜单内容搜索-模型训练

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 模型训练

CVPR 2024 | 仅需文本或图像提示，新框架CustomNeRF精准编辑3D场景

CVPR 2024 | 仅需文本或图像提示，新框架CustomNeRF精准编辑3D场景

CVPR 2024 | 仅需文本或图像提示，新框架CustomNeRF精准编辑3D场景

自 2020 年神经辐射场 (Neural Radiance Field, NeRF) 提出以来，将隐式表达推上了一个新的高度。作为当前最前沿的技术之一

来自主题: AI技术研报

4882 点击 2024-04-14 14:04

谁说大象不能起舞! 重编程大语言模型实现跨模态交互的时序预测 | ICLR 2024

谁说大象不能起舞! 重编程大语言模型实现跨模态交互的时序预测 | ICLR 2024

谁说大象不能起舞! 重编程大语言模型实现跨模态交互的时序预测 | ICLR 2024

近，来自澳大利亚蒙纳士大学、蚂蚁集团、IBM 研究院等机构的研究人员探索了模型重编程 (model reprogramming) 在大语言模型 (LLMs) 上应用，并提出了一个全新的视角

来自主题: AI技术研报

8299 点击 2024-04-14 13:07

谷歌：假如AI大模型支持无限长上下文，会如何？

谷歌：假如AI大模型支持无限长上下文，会如何？

谷歌：假如AI大模型支持无限长上下文，会如何？

为解决大模型（LLMs）在处理超长输入序列时遇到的内存限制问题，本文作者提出了一种新型架构：Infini-Transformer，它可以在有限内存条件下，让基于Transformer的大语言模型（LLMs）高效处理无限长的输入序列。实验结果表明：Infini-Transformer在长上下文语言建模任务上超越了基线模型，内存最高可节约114倍。

来自主题: AI资讯

9334 点击 2024-04-14 11:32

谷歌爆改Transformer，“无限注意力”让1B小模型读完10部小说，114倍信息压缩

谷歌爆改Transformer，“无限注意力”让1B小模型读完10部小说，114倍信息压缩

谷歌爆改Transformer，“无限注意力”让1B小模型读完10部小说，114倍信息压缩

它通过将压缩记忆（compressive memory）整合到线性注意力机制中，用来处理无限长上下文

来自主题: AI资讯

9350 点击 2024-04-13 20:07

魔改RNN挑战Transformer，RWKV上新：推出2种新架构模型

魔改RNN挑战Transformer，RWKV上新：推出2种新架构模型

魔改RNN挑战Transformer，RWKV上新：推出2种新架构模型

不走Transformer寻常路，魔改RNN的国产新架构RWKV，有了新进展：提出了两种新的RWKV架构，即Eagle (RWKV-5) 和Finch（RWKV-6)。

来自主题: AI资讯

8973 点击 2024-04-13 18:06

改变LoRA的初始化方式，北大新方法PiSSA显著提升微调效果

改变LoRA的初始化方式，北大新方法PiSSA显著提升微调效果

改变LoRA的初始化方式，北大新方法PiSSA显著提升微调效果

随着大模型的参数量日益增长，微调整个模型的开销逐渐变得难以接受。为此，北京大学的研究团队提出了一种名为 PiSSA 的参数高效微调方法，在主流数据集上都超过了目前广泛使用的 LoRA 的微调效果。

来自主题: AI技术研报

11184 点击 2024-04-13 16:50

直接扩展到无限长，谷歌Infini-Transformer终结上下文长度之争

直接扩展到无限长，谷歌Infini-Transformer终结上下文长度之争

直接扩展到无限长，谷歌Infini-Transformer终结上下文长度之争

谷歌又放大招了，发布下一代 Transformer 模型 Infini-Transformer。

来自主题: AI技术研报

10139 点击 2024-04-13 16:44

MIT等首次深度研究「集成LLM」预测能力：可媲美人类群体准确率

MIT等首次深度研究「集成LLM」预测能力：可媲美人类群体准确率

MIT等首次深度研究「集成LLM」预测能力：可媲美人类群体准确率

在实践中，人类预测的准确性依赖于「群体智慧」（wisdom of the crowd）效应，即通过聚集一群个体预测者，对未来事件的预测准确率会显著提高

来自主题: AI资讯

6749 点击 2024-04-13 14:53

「大模型+强化学习」最新综述！港中文深圳130余篇论文：详解四条主流技术路线

「大模型+强化学习」最新综述！港中文深圳130余篇论文：详解四条主流技术路线

「大模型+强化学习」最新综述！港中文深圳130余篇论文：详解四条主流技术路线

大语言模型（LLM），通过在海量数据集上的训练，展现了超强的多任务学习、通用世界知识目标规划以及推理能力

来自主题: AI资讯

6020 点击 2024-04-11 22:45

大模型做时序预测也很强！华人团队激活LLM新能力，超越一众传统模型实现SOTA

大模型做时序预测也很强！华人团队激活LLM新能力，超越一众传统模型实现SOTA

大模型做时序预测也很强！华人团队激活LLM新能力，超越一众传统模型实现SOTA

大语言模型潜力被激发—— 无需训练大语言模型就能实现高精度时序预测，超越一切传统时序模型。

来自主题: AI资讯

7821 点击 2024-04-11 17:25

上一页当前第330页,共348页下一页