AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
Context Engineering 2.0:在未来,一个人的本质,就是其所有上下文的总和|上海交大

Context Engineering 2.0:在未来,一个人的本质,就是其所有上下文的总和|上海交大

Context Engineering 2.0:在未来,一个人的本质,就是其所有上下文的总和|上海交大

在几天前,上海交大发布了一篇名为 《上下文工程2.0:上下文工程的上下文》(Context Engineering 2.0: The Context of Context Engineering) 的重磅论文。

来自主题: AI技术研报
5720 点击    2025-11-05 09:57
多模态大模型理解物理工具吗?PhysToolBench提出了衡量多模态大模型对物理工具理解的基准

多模态大模型理解物理工具吗?PhysToolBench提出了衡量多模态大模型对物理工具理解的基准

多模态大模型理解物理工具吗?PhysToolBench提出了衡量多模态大模型对物理工具理解的基准

人类之所以能与复杂的物理世界高效互动,很大程度上源于对「工具」的使用、理解与创造能力。对任何通用型智能体而言,这同样是不可或缺的基本技能,对物理工具的使用会大大影响任务的成功率与效率。

来自主题: AI技术研报
10179 点击    2025-11-05 09:57
Embedding相似度不是万金油,电商、 新闻场景如何按时效性做rerank

Embedding相似度不是万金油,电商、 新闻场景如何按时效性做rerank

Embedding相似度不是万金油,电商、 新闻场景如何按时效性做rerank

同样是语义相似度结合时效性做rerank,指数衰减、高斯衰减、线性衰减怎么选? 假设你要在一个新闻应用中落地语义检索功能,让用户搜索雷军的投资版图盘点时,能自动关联顺为资本、小米战投等核心关联信息。

来自主题: AI技术研报
8407 点击    2025-11-05 09:46
Prompt-R1:让Agent代替你和GPT多轮交互!

Prompt-R1:让Agent代替你和GPT多轮交互!

Prompt-R1:让Agent代替你和GPT多轮交互!

这篇论文提出了一种颠覆性的协作模式,即通过强化学习训练一个“小模型”作为智能代理(Agent),让它自动学会如何写出完美的Prompt,一步步引导任何一个“大模型”完成复杂推理,实现了真正的“AI指挥AI”。

来自主题: AI技术研报
7585 点击    2025-11-04 16:54
HF日趋榜一!真端到端模型AutoDeco终结手动调参解码

HF日趋榜一!真端到端模型AutoDeco终结手动调参解码

HF日趋榜一!真端到端模型AutoDeco终结手动调参解码

大语言模型(LLM)的「炼丹师」们,或许都曾面临一个共同的困扰:为不同任务、不同模型手动调整解码超参数(如 temperature 和 top-p)。这个过程不仅耗时耗力,而且一旦模型或任务发生变化,历史经验便瞬间失效,一切又得从头再来。

来自主题: AI技术研报
10232 点击    2025-11-04 16:14
字节Seed团队发布循环语言模型Ouro,在预训练阶段直接「思考」,Bengio组参与

字节Seed团队发布循环语言模型Ouro,在预训练阶段直接「思考」,Bengio组参与

字节Seed团队发布循环语言模型Ouro,在预训练阶段直接「思考」,Bengio组参与

现代 LLM 通常依赖显式的文本生成过程(例如「思维链」)来进行「思考」训练。这种策略将推理任务推迟到训练后的阶段,未能充分挖掘预训练数据中的潜力。

来自主题: AI技术研报
8455 点击    2025-11-04 16:12
英伟达帮你省钱,让大模型推理「短而精」,速度快5倍

英伟达帮你省钱,让大模型推理「短而精」,速度快5倍

英伟达帮你省钱,让大模型推理「短而精」,速度快5倍

大模型推理到底要不要「长篇大论」?过去一年,OpenAI o 系列、DeepSeek-R1、Qwen 等一系列推理模型,把「长链思维」玩到极致:答案更准了,但代价是推理链越来越长、Token 消耗爆炸、响应速度骤降。

来自主题: AI技术研报
6213 点击    2025-11-04 16:09
ACM MM 2025 Oral | 新加坡国立大学提出FractalForensics,基于分形水印的主动深度伪造检测与定位

ACM MM 2025 Oral | 新加坡国立大学提出FractalForensics,基于分形水印的主动深度伪造检测与定位

ACM MM 2025 Oral | 新加坡国立大学提出FractalForensics,基于分形水印的主动深度伪造检测与定位

该论文提出 FractalForensics,一种基于分形水印的主动深度伪造检测与定位方法。不同于以往的水印向量,为达成伪造定位的功能,论文提出的水印以矩阵形式出现。

来自主题: AI技术研报
7567 点击    2025-11-04 14:44
NIPS2025|小红书智创AIGC团队提出布局控制生成新算法InstanceAssemble

NIPS2025|小红书智创AIGC团队提出布局控制生成新算法InstanceAssemble

NIPS2025|小红书智创AIGC团队提出布局控制生成新算法InstanceAssemble

当下的文本生成图像扩散模型取得了长足进展,为图像生成引入布局控制(Layout-to-Image, L2I)成为可能。

来自主题: AI技术研报
5720 点击    2025-11-04 11:33
最具争议性研究:大模型中间层输出可 100% 反推原始输入

最具争议性研究:大模型中间层输出可 100% 反推原始输入

最具争议性研究:大模型中间层输出可 100% 反推原始输入

Transformer 语言模型具有单射性,隐藏状态可无损重构输入信息。

来自主题: AI技术研报
8550 点击    2025-11-04 11:32