AI资讯新闻榜单内容搜索-MoE

清华团队革新MoE架构！像搭积木一样构建大模型，提出新型类脑稀疏模块化架构

探索更高效的模型架构， MoE是最具代表性的方向之一。 MoE架构的主要优势是利用稀疏激活的性质，将大模型拆解成若干功能模块，每次计算仅激活其中一小部分，而保持其余模块不被使用，从而大大降低了模型的计算与学习成本，能够在同等计算量的情况下产生性能优势。

来自主题: AI技术研报

5036 点击 2024-11-01 17:11

新视角设计下一代时序基础模型，Salesforce推出Moirai-MoE

自去年底以来，时序预测领域正在经历重大转型，从传统的「单一数据集训练单一模型」的模式逐步转向「通用预测基础模型」。

来自主题: AI技术研报

5564 点击 2024-10-31 15:11

突破时间序列组合推理难题！南加大发布一站式多步推理框架TS-Reasoner

TS-Reasoner是一个创新的多步推理框架，结合了大型语言模型的上下文学习和推理能力，通过程序化多步推理、模块化设计、自定义模块生成和多领域数据集评估，有效提高了复杂时间序列任务的推理能力和准确性。实验结果表明，TS-Reasoner在金融决策、能源负载预测和因果关系挖掘等多个任务上，相较于现有方法具有显著的性能优势。

来自主题: AI技术研报

7007 点击 2024-10-28 18:30

时序大模型突破十亿参数！新混合专家架构，普林斯顿格里菲斯等机构出品

时序大模型，参数规模突破十亿级别。来自全球多只华人研究团队提出了一种基于混合专家架构（Mixture of Experts, MoE）的时间序列基础模型——Time-MoE。

来自主题: AI资讯

5964 点击 2024-10-28 17:13

全球首次！时序大模型突破十亿参数，华人团队发布Time-MoE，预训练数据达3000亿个时间点

Time-MoE采用了创新的混合专家架构，能以较低的计算成本实现高精度预测。研发团队还发布了Time-300B数据集，为时序分析提供了丰富的训练资源，为各行各业的时间序列预测任务带来了新的解决方案。

来自主题: AI技术研报

6291 点击 2024-10-23 13:40

颜水成袁粒提出新一代MoE架构：专家吞吐速度最高提升2.1倍！

比传统MoE推理速度更快、性能更高的新一代架构，来了！这个通用架构叫做MoE++，由颜水成领衔的昆仑万维2050研究院与北大袁粒团队联合提出。

来自主题: AI技术研报

6050 点击 2024-10-21 11:22

Jurgen、曼宁等大佬新作：MoE重塑6年前的Universal Transformer，高效升级

7 年前，谷歌在论文《Attention is All You Need》中提出了 Transformer。就在 Transformer 提出的第二年，谷歌又发布了 Universal Transformer（UT）。它的核心特征是通过跨层共享参数来实现深度循环，从而重新引入了 RNN 具有的循环表达能力。

来自主题: AI技术研报

10869 点击 2024-10-19 14:29