AI资讯新闻榜单内容搜索-监督微调

ICLR 2025 Spotlight | 参数高效微调新范式！上海交大联合上海AI Lab推出参数冗余微调算法

低秩适配器（LoRA）能够在有监督微调中以约 5% 的可训练参数实现全参数微调 90% 性能。

来自主题: AI技术研报

7858 点击 2025-04-04 14:03

最近，AI 公司 Databricks 推出了一种新的调优方法 TAO，只需要输入数据，无需标注数据即可完成。更令人惊喜的是，TAO 在性能上甚至超过了基于标注数据的监督微调。

来自主题: AI技术研报

7682 点击 2025-03-30 14:33

由UCLA等机构共同组建的研究团队，全球首次在20亿参数非SFT模型上，成功实现了多模态推理的DeepSeek-R1「啊哈时刻」！就在刚刚，我们在未经监督微调的2B模型上，见证了基于DeepSeek-R1-Zero方法的视觉推理「啊哈时刻」！

来自主题: AI技术研报

7212 点击 2025-03-05 20:42

全网首发！DeepSeek V3/R1满血版低成本监督微调秘籍来了，让高达6710亿参数AI巨兽释放最强性能。

来自主题: AI技术研报

5995 点击 2025-02-19 14:31

近日有媒体报道称，李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用，成功训练出了一个名为s1的人工智能推理模型。

来自主题: AI资讯

6545 点击 2025-02-07 19:31

就在刚刚，网上已经出现了一波复现DeepSeek的狂潮。UC伯克利、港科大、HuggingFace等纷纷成功复现，只用强化学习，没有监督微调，30美元就能见证「啊哈时刻」！全球AI大模型，或许正在进入下一分水岭。

来自主题: AI资讯

8254 点击 2025-01-26 13:30

中国版o1刷屏全网。DeepSeek R1成为世界首个能与o1比肩的开源模型，成功秘诀竟是强化学习，不用监督微调。AI大佬们一致认为，这就是AlphaGo时刻。

来自主题: AI资讯

8569 点击 2025-01-21 12:59

大数据巨头Databricks与哥伦比亚大学最新研究发现，在数学和编程任务上，LoRA干不过全量微调。

来自主题: AI技术研报

2683 点击 2024-05-20 21:03

有的大模型对齐方法包括基于示例的监督微调（SFT）和基于分数反馈的强化学习（RLHF）。然而，分数只能反应当前回复的好坏程度，并不能明确指出模型的不足之处。相较之下，我们人类通常是从语言反馈中学习并调整自己的行为模式。

来自主题: AI技术研报

5627 点击 2024-02-03 12:52

今天分享一篇符尧大佬的一篇数据工程（Data Engineering）的文章，解释了speed of grokking指标是什么，分析了数据工程

来自主题: AI资讯

8123 点击 2024-01-02 11:13