AI资讯新闻榜单内容搜索-模型训练

你以为的LLM上下文学习超能力，究竟来自哪里，ICL的内部机制如何 |最新发布

上下文学习(In-Context Learning， ICL)是指LLMs能够仅通过提示中给出的少量样例，就迅速掌握并执行新任务的能力。这种“超能力”让LLMs表现得像是一个"万能学习者"，能够在各种场景下快速适应并产生高质量输出。然而，关于ICL的内部机制，学界一直存在争议。

来自主题: AI资讯

6077 点击 2024-09-11 10:17

把Llama 3蒸馏到Mamba，推理速度最高可提升1.6倍！

来自主题: AI资讯

8523 点击 2024-09-10 14:10

本文作者来自于清华大学电子工程系，北京大学人工智能研究院、第四范式、腾讯和清华-伯克利深圳学院。其中第一作者张瑞泽为清华大学硕士，主要研究方向为博弈算法。通讯作者为清华大学电子工程系汪玉教授、于超博后和第四范式研究员黄世宇博士。

来自主题: AI技术研报

9785 点击 2024-09-10 11:48

最近，国外的一份研究报告揭秘了 OpenAI、围绕和谷歌在 AI Infra 层的布局，我们将文章提炼出了核心观点，并进行精校翻译。

来自主题: AI技术研报

12241 点击 2024-09-10 11:24

如果可以使用世界上所有的算力来训练AI模型，会怎么样？近日，凭借发布了开源的Hermes 3（基于Llama 3.1）而引起广泛关注的Nous Research，再次宣布了一项重大突破——DisTrO（分布式互联网训练）。

来自主题: AI资讯

6691 点击 2024-09-10 11:01

基于图神经网络的方法被广泛应用于不同问题并且显著推动了相关领域的进步，包括但不限于数据挖掘、计算机视觉和自然语言处理。考虑到图神经网络已经取得了丰硕的成果，一篇全面且详细的综述可以帮助相关研究人员掌握近年来计算机视觉中基于图神经网络的方法的进展，以及从现有论文中总结经验和产生新的想法。

来自主题: AI资讯

4886 点击 2024-09-09 14:23

由AI生成的内容渐渐充斥了互联网。

来自主题: AI资讯

4849 点击 2024-09-09 14:17

所有模型都是通过在来自互联网的海量数据上进行训练来工作的，然而，随着人工智能越来越多地被用来生成充满垃圾信息的网页，这一过程可能会受到威胁。

来自主题: AI资讯

9145 点击 2024-09-09 10:29

即便是最强大的语言模型（LLM），仍会偶尔出现推理错误。除了通过提示词让模型进行不太可靠的多轮自我纠错外，有没有更系统的方法解决这一问题呢？

来自主题: AI资讯

10583 点击 2024-09-08 15:57

今年4月，中科院、滑铁卢大学等机构联合发表了一篇AI行业论文，让互联网上的“乐子人”直呼离谱。

来自主题: AI资讯

10798 点击 2024-09-08 11:04