AI资讯新闻榜单内容搜索-上下文

北大团队提出LIFT：将长上下文知识注入模型参数，提升大模型长文本能力

长文本任务是当下大模型研究的重点之一。在实际场景和应用中，普遍存在大量长序列（文本、语音、视频等），有些甚至长达百万级 tokens。

来自主题: AI技术研报

8713 点击 2025-03-17 16:04

LLM自身有望在无限长token下检索信息！无需训练，在检索任务「大海捞针」（Needle-in-a-Haystack）测试中，新方法InfiniRetri让有效上下文token长度从32K扩展至1000+K，让7B模型比肩72B模型。

来自主题: AI技术研报

9660 点击 2025-03-16 13:28

在 ChatGPT 爆火两年多的时间里，大语言模型的上下文窗口长度基准线被拉升，以此为基础所构建的长 CoT 推理、多 Agent 协作等类型的高级应用也逐渐增多。

来自主题: AI技术研报

8416 点击 2025-03-12 14:53

开源微调神器Unsloth带着黑科技又来了：短短两周后，再次优化DeepSeek-R1同款GRPO训练算法，上下文变长10倍，而显存只需原来的1/10！

来自主题: AI技术研报

5337 点击 2025-03-11 10:42

由于语言泛化，今天出现了很有趣的现象：「Agent 是什么」，这个问题没有了标准的定义。一个常见的观点是：Agent 是一种让 AI 以类似人的工作和思考方式，来完成一系列的任务。一个 Agent 可以是一个 Bot，也可以是多个 Bot 的协同。

来自主题: AI技术研报

10340 点击 2025-03-10 11:33

AI21Labs 近日发布了其最新的 Jamba1.6系列大型语言模型，这款模型被称为当前市场上最强大、最高效的长文本处理模型。与传统的 Transformer 模型相比，Jamba 模型在处理长上下文时展现出了更高的速度和质量，其推理速度比同类模型快了2.5倍，标志着一种新的技术突破。

来自主题: AI资讯

9851 点击 2025-03-10 00:28

LLM一个突出的挑战是如何有效处理和理解长文本。就像下图所示，准确率会随着上下文长度显著下降，那么究竟应该怎样提升LLM对长文本理解的准确率呢？

来自主题: AI技术研报

8393 点击 2025-03-06 09:54

Phi-4系列模型上新了！56亿参数Phi-4-multimodal集语音、视觉、文本多模态于一体，读图推理性能碾压GPT-4o；另一款38亿参数Phi-4-mini在推理、数学、编程等任务中超越了参数更大的LLM，支持128K token上下文。

来自主题: AI技术研报

6463 点击 2025-02-28 14:11

谷歌Gemini 2.0代码助手免费，每月18万次代码补全，支持超大上下文窗口。微软Copilot语音与深度思考功能，同样免费！OpenAI也免费推出了GPT-4o mini高级语音模式。

来自主题: AI资讯

8330 点击 2025-02-27 16:42

Zep，一个为大模型智能体提供长期记忆的插件，能将智能体的记忆组织成情节，从这些情节中提取实体及其关系，并将它们存储在知识图谱中，从而让用户以低代码的方式为智能力构建长期记忆。

来自主题: AI技术研报

10427 点击 2025-02-26 14:53