AI资讯新闻榜单内容搜索-模型训练

8张GPU训出近SOTA模型，超低成本图像生成预训练方案开源

超低成本图像生成预训练方案来了——仅需8张GPU训练，就能实现近SOTA的高质量图像生成效果。

来自主题: AI技术研报

9814 点击 2025-03-18 16:04

投入数亿美元的大模型“对齐”，脆弱得像饺子皮

在大模型逐步接近AGI之时，"AI对齐"一直被视为守护人类的最后一道防线。

来自主题: AI资讯

10367 点击 2025-03-18 12:20

新注意力让大模型上下文内存占用砍半！精度不减还能加速2倍

大模型同样的上下文窗口，只需一半内存就能实现，而且精度无损？前苹果ASIC架构师Nils Graef，和一名UC伯克利在读本科生一起提出了新的注意力机制Slim Attention。

来自主题: AI资讯

7911 点击 2025-03-17 19:52

大模型怎么做好角色扮演？最大的真实数据集、SoTA开源模型、最深入的评估在这里

角色扮演 AI（Role-Playing Language Agents，RPLAs）作为大语言模型（LLM）的重要应用，近年来获得了广泛关注。

来自主题: AI技术研报

11074 点击 2025-03-17 16:30

真正的AI智能体时代即将到来，我们发现了几点「苦涩的教训」

最近一段时间，智能体（Agent）再次成为 AI 领域热议的焦点。

来自主题: AI技术研报

6678 点击 2025-03-17 16:18

北大团队提出LIFT：将长上下文知识注入模型参数，提升大模型长文本能力

长文本任务是当下大模型研究的重点之一。在实际场景和应用中，普遍存在大量长序列（文本、语音、视频等），有些甚至长达百万级 tokens。

来自主题: AI技术研报

9251 点击 2025-03-17 16:04

CVPR'25跨模态因果对齐，让机器更懂视觉证据丨中大南洋理工等联合开源

跨模态因果对齐，让机器更懂视觉证据！

来自主题: AI技术研报

10366 点击 2025-03-17 15:02

ICLR 2025 Spotlight | 慕尼黑工业大学&北京大学：迈向无冲突训练的ConFIG方法

在深度学习的多个应用场景中，联合优化多个损失项是一个普遍的问题。典型的例子包括物理信息神经网络（Physics-Informed Neural Networks, PINNs）、多任务学习（Multi-Task Learning, MTL）和连续学习（Continual Learning, CL）。然而，不同损失项的梯度方向往往相互冲突，导致优化过程陷入局部最优甚至训练失败。

来自主题: AI技术研报

10067 点击 2025-03-17 14:55

统一自监督预训练！视觉模型权重无缝迁移下游任务，SiT收敛提速近47倍

最近的研究强调了扩散模型与表征学习之间的相互作用。扩散模型的中间表征可用于下游视觉任务，同时视觉模型表征能够提升扩散模型的收敛速度和生成质量。然而，由于输入不匹配和 VAE 潜在空间的使用，将视觉模型的预训练权重迁移到扩散模型中仍然具有挑战性。

来自主题: AI技术研报

10221 点击 2025-03-17 14:36

迁移DeepSeek-R1同款算法，小米让7B模型登顶音频理解推断MMAU榜单

7B小模型+3.8万条训练数据，就能让音频理解和推断评测基准MMAU榜单王座易主？

来自主题: AI技术研报

4606 点击 2025-03-17 10:52