AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
原作者带队再次改造xLSTM,7B模型速度最快超Mamba 50%,权重代码全开源

原作者带队再次改造xLSTM,7B模型速度最快超Mamba 50%,权重代码全开源

原作者带队再次改造xLSTM,7B模型速度最快超Mamba 50%,权重代码全开源

近年来,大型语言模型(LLM)通过大量计算资源在推理阶段取得了解决复杂问题的突破。推理速度已成为 LLM 架构的关键属性,市场对高效快速的 LLM 需求不断增长。

来自主题: AI技术研报
6237 点击    2025-03-20 09:26
无需百卡集群!港科等开源LightGen: 极低成本文生图方案媲美SOTA模型

无需百卡集群!港科等开源LightGen: 极低成本文生图方案媲美SOTA模型

无需百卡集群!港科等开源LightGen: 极低成本文生图方案媲美SOTA模型

文本到图像(Text-to-Image, T2I)生成任务近年来取得了飞速进展,其中以扩散模型(如 Stable Diffusion、DiT 等)和自回归(AR)模型为代表的方法取得了显著成果。然而,这些主流的生成模型通常依赖于超大规模的数据集和巨大的参数量,导致计算成本高昂、落地困难,难以高效地应用于实际生产环境。

来自主题: AI技术研报
7523 点击    2025-03-20 09:18
NAACL2025|中国移动九天团队提出大模型调色板:一种可控文本生成的解决方案

NAACL2025|中国移动九天团队提出大模型调色板:一种可控文本生成的解决方案

NAACL2025|中国移动九天团队提出大模型调色板:一种可控文本生成的解决方案

大模型在文本生成方面取得了卓越的成就,通过合适的prompt设计,往往可以使得生成结果符合特定的需求。但是为属性繁多的任务设计出合适的prompt是很困难的。一种解决方案是通过线性组合方式或者其变种将每个属性对应的模型在生成logits上进行融合。鉴于属性之间可能存在的冲突现象,这种方案无法保证模型的主属性不受其他模型的干扰。

来自主题: AI技术研报
9516 点击    2025-03-19 14:52
深度学习的平衡之道:港科大、港城大等团队联合发布多目标优化最新综述

深度学习的平衡之道:港科大、港城大等团队联合发布多目标优化最新综述

深度学习的平衡之道:港科大、港城大等团队联合发布多目标优化最新综述

近年来,深度学习技术在自动驾驶、计算机视觉、自然语言处理和强化学习等领域取得了突破性进展。然而,在现实场景中,传统单目标优化范式在应对多任务协同优化、资源约束以及安全性 - 公平性权衡等复杂需求时,逐渐暴露出其方法论的局限性。

来自主题: AI技术研报
6364 点击    2025-03-19 10:30
240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准

240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准

240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准

多模态大模型虽然在视觉理解方面表现出色,但在需要深度数学推理的任务上往往力不从心,尤其是对于参数量较小的模型来说更是如此。

来自主题: AI技术研报
5834 点击    2025-03-19 09:43
先别骂队友,上交如何让DeepSeek R1在分手厨房再也不糊锅?

先别骂队友,上交如何让DeepSeek R1在分手厨房再也不糊锅?

先别骂队友,上交如何让DeepSeek R1在分手厨房再也不糊锅?

在春节的 DeepSeek 大热后,大模型也更多走进了大家的生活。我们越来越多看到各种模型在静态的做题榜单击败人类,解决各种复杂推理问题。但这些静态的测试与模型在现实中的应用还相去甚远。模型除了能进行对话,还在许多更复杂的场景中以各种各样的方式与人类产生互动。除了对话任务外,如何实现大模型与人的实时同步交互协作越来越重要。

来自主题: AI技术研报
4432 点击    2025-03-18 17:30
模态GAP不存在了?图文领域首个token级大一统基座诞生

模态GAP不存在了?图文领域首个token级大一统基座诞生

模态GAP不存在了?图文领域首个token级大一统基座诞生

CLIP、DINO、SAM 基座的重磅问世,推动了各个领域的任务大一统,也促进了多模态大模型的蓬勃发展。

来自主题: AI技术研报
9418 点击    2025-03-18 17:20