AI资讯新闻榜单内容搜索-MoE

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

字节跳动豆包大模型团队于近日提出超连接（Hyper-Connections），一种简单有效的残差连接替代方案。面向残差连接的主要变体的局限问题，超连接可通过动态调整不同层之间的连接权重，解决梯度消失和表示崩溃（Representation Collapse）之间的权衡困境。在 Dense 模型和 MoE 模型预训练中，超连接方案展示出显著的性能提升效果，使收敛速度最高可加速 80%。

来自主题: AI技术研报

6085 点击 2024-11-07 17:41

腾讯开源“最大”大模型：如果你也相信MoE，那咱们就是好朋友

一个是开源，一个是MoE （混合专家模型）。开源好理解，在大模型火热之后，加入战局的腾讯已经按照它自己的节奏开源了一系列模型，包括混元文生图模型等。

来自主题: AI资讯

5753 点击 2024-11-06 14:49

清华团队革新MoE架构！像搭积木一样构建大模型，提出新型类脑稀疏模块化架构

探索更高效的模型架构， MoE是最具代表性的方向之一。 MoE架构的主要优势是利用稀疏激活的性质，将大模型拆解成若干功能模块，每次计算仅激活其中一小部分，而保持其余模块不被使用，从而大大降低了模型的计算与学习成本，能够在同等计算量的情况下产生性能优势。

来自主题: AI技术研报

4725 点击 2024-11-01 17:11

新视角设计下一代时序基础模型，Salesforce推出Moirai-MoE

自去年底以来，时序预测领域正在经历重大转型，从传统的「单一数据集训练单一模型」的模式逐步转向「通用预测基础模型」。

来自主题: AI技术研报

5204 点击 2024-10-31 15:11

突破时间序列组合推理难题！南加大发布一站式多步推理框架TS-Reasoner

TS-Reasoner是一个创新的多步推理框架，结合了大型语言模型的上下文学习和推理能力，通过程序化多步推理、模块化设计、自定义模块生成和多领域数据集评估，有效提高了复杂时间序列任务的推理能力和准确性。实验结果表明，TS-Reasoner在金融决策、能源负载预测和因果关系挖掘等多个任务上，相较于现有方法具有显著的性能优势。

来自主题: AI技术研报

6675 点击 2024-10-28 18:30

时序大模型突破十亿参数！新混合专家架构，普林斯顿格里菲斯等机构出品

时序大模型，参数规模突破十亿级别。来自全球多只华人研究团队提出了一种基于混合专家架构（Mixture of Experts, MoE）的时间序列基础模型——Time-MoE。

来自主题: AI资讯

5573 点击 2024-10-28 17:13

全球首次！时序大模型突破十亿参数，华人团队发布Time-MoE，预训练数据达3000亿个时间点

Time-MoE采用了创新的混合专家架构，能以较低的计算成本实现高精度预测。研发团队还发布了Time-300B数据集，为时序分析提供了丰富的训练资源，为各行各业的时间序列预测任务带来了新的解决方案。

来自主题: AI技术研报

5934 点击 2024-10-23 13:40

颜水成袁粒提出新一代MoE架构：专家吞吐速度最高提升2.1倍！

比传统MoE推理速度更快、性能更高的新一代架构，来了！这个通用架构叫做MoE++，由颜水成领衔的昆仑万维2050研究院与北大袁粒团队联合提出。

来自主题: AI技术研报

5668 点击 2024-10-21 11:22

Jurgen、曼宁等大佬新作：MoE重塑6年前的Universal Transformer，高效升级

7 年前，谷歌在论文《Attention is All You Need》中提出了 Transformer。就在 Transformer 提出的第二年，谷歌又发布了 Universal Transformer（UT）。它的核心特征是通过跨层共享参数来实现深度循环，从而重新引入了 RNN 具有的循环表达能力。

来自主题: AI技术研报

10481 点击 2024-10-19 14:29

港大新型图基础模型AnyGraph：挑战Scaling Law，精准建模多样化结构模式和特征空间

新型图基础模型来了—— AnyGraph，基于图混合专家（MoE）架构，专门为实现图模型跨场景泛化而生。

来自主题: AI资讯

7438 点击 2024-09-17 21:57