AI资讯新闻榜单内容搜索-微调

单向VLM变双向！人大斯坦福等提出MoCa框架：双向多模态编码器

MoCa框架把单向视觉语言模型转化为双向多模态嵌入模型，通过持续预训练和异构对比微调，提升模型性能和泛化能力，在多模态基准测试中表现优异，尤其小规模模型性能突出。

来自主题: AI技术研报

9647 点击 2025-07-11 10:09

自适应语言模型框架SEAL，让大模型通过生成自己的微调数据和更新指令来适应新任务。SEAL在少样本学习和知识整合任务上表现优异，显著提升了模型的适应性和性能，为大模型的自主学习和优化提供了新的思路。

来自主题: AI技术研报

8255 点击 2025-07-10 11:33

清华大学朱军教授团队提出SageAttention3，利用FP4量化实现推理加速，比FlashAttention快5倍，同时探索了8比特注意力用于训练任务的可行性，在微调中实现了无损性能。

来自主题: AI技术研报

7971 点击 2025-07-08 12:08

MIT最新研究让LLM直接操控宇宙飞船进行太空追逐挑战赛：ChatGPT少量微调即获第二，开源Llama更胜一筹，凭提示词精准追踪卫星、节省燃料，更是0%失败率，验证AI小数据高效与自主航天可行，为未来的太空漫游铺路。

来自主题: AI技术研报

8007 点击 2025-07-03 11:48

通过单阶段监督微调与强化微调结合，让大模型在训练时能同时利用专家演示和自我探索试错，有效提升大模型推理性能。

来自主题: AI技术研报

7546 点击 2025-07-02 15:35

中科院自动化所提出DipLLM，这是首个在复杂策略游戏Diplomacy中基于大语言模型微调的智能体框架，仅用Cicero 1.5%的训练数据就实现超越

来自主题: AI资讯

8623 点击 2025-07-01 15:30

大模型的预训练-微调范式，正在悄然改写强化学习！伯克利团队提出新方法InFOM，不依赖奖励信号，也能在多个任务中实现超强迁移，还能做到「读心术」级别的推理。这到底怎么做到的？

来自主题: AI技术研报

7263 点击 2025-06-30 10:52

基础模型严重依赖大规模、高质量人工标注数据来学习适应新任务、领域。为解决这一难题，来自北京大学、MIT等机构的研究者们提出了一种名为「合成数据强化学习」（Synthetic Data RL）的通用框架。该框架仅需用户提供一个简单的任务定义，即可全自动地生成高质量合成数据。

来自主题: AI技术研报

9594 点击 2025-06-24 16:13

最近，来自NUS、UT Austin等机构的研究人员创新性地提出了一种「拖拽式大语言模型」（DnD），它可以基于提示词快速生成模型参数，无需微调就能适应任务。不仅效率最高提升12000倍，而且具备出色的零样本泛化能力。

来自主题: AI技术研报

8850 点击 2025-06-24 14:26

强化学习（RL）已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习（Agentic RL），你几乎能在当今 AI 领域的每个领域看到强化学习的身影。

来自主题: AI技术研报

7849 点击 2025-06-22 16:08