AI资讯新闻榜单内容搜索-后训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 后训练
美欧亚三洲开发者联手,全球首个组团训练的大模型来了,全流程开源

美欧亚三洲开发者联手,全球首个组团训练的大模型来了,全流程开源

美欧亚三洲开发者联手,全球首个组团训练的大模型来了,全流程开源

Prime Intellect 宣布通过去中心化方式训练完成了一个 10B 模型。30 号,他们开源了一切,包括基础模型、检查点、后训练模型、数据、PRIME 训练框架和技术报告。据了解,这应该是有史以来首个以去中心化形式训练得到的 10B 大模型。

来自主题: AI资讯
7109 点击    2024-12-02 12:35
和梁朝伟同获港科荣誉博士,黄仁勋与沈向洋对谈Scaling Law、后训练、机器人和爱情

和梁朝伟同获港科荣誉博士,黄仁勋与沈向洋对谈Scaling Law、后训练、机器人和爱情

和梁朝伟同获港科荣誉博士,黄仁勋与沈向洋对谈Scaling Law、后训练、机器人和爱情

11 月 23 日,香港科技大学举行了今年度的学位颁授典礼。英伟达创始人和 CEO 黄仁勋又新增一个荣誉工程学博士头衔,与他一同获得荣誉博士学位的还有著名影星梁朝伟、2013 年诺贝尔化学奖得主 Michael Levitt、菲尔兹奖得主 David Mumford。

来自主题: AI资讯
5964 点击    2024-11-25 14:58
这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct

这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct

这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct

开源模型阵营又迎来一员猛将:Tülu 3。它来自艾伦人工智能研究所(Ai2),目前包含 8B 和 70B 两个版本(未来还会有 405B 版本),并且其性能超过了 Llama 3.1 Instruct 的相应版本!长达 73 的技术报告详细介绍了后训练的细节。

来自主题: AI技术研报
10728 点击    2024-11-23 16:04
1000多个智能体组成,AI社会模拟器MATRIX-Gen助力大模型自我进化

1000多个智能体组成,AI社会模拟器MATRIX-Gen助力大模型自我进化

1000多个智能体组成,AI社会模拟器MATRIX-Gen助力大模型自我进化

随着大语言模型(LLMs)在处理复杂任务中的广泛应用,高质量数据的获取变得尤为关键。为了确保模型能够准确理解并执行用户指令,模型必须依赖大量真实且多样化的数据进行后训练。然而,获取此类数据往往伴随着高昂的成本和数据稀缺性。因此,如何有效生成能够反映现实需求的高质量合成数据,成为了当前亟需解决的核心挑战。

来自主题: AI技术研报
6349 点击    2024-11-14 14:07
打破RLHF瓶颈,克服奖励欺骗!Meta发布全新后训练方式CGPO,编程水平直升5%

打破RLHF瓶颈,克服奖励欺骗!Meta发布全新后训练方式CGPO,编程水平直升5%

打破RLHF瓶颈,克服奖励欺骗!Meta发布全新后训练方式CGPO,编程水平直升5%

CGPO框架通过混合评审机制和约束优化器,有效解决了RLHF在多任务学习中的奖励欺骗和多目标优化问题,显著提升了语言模型在多任务环境中的表现。CGPO的设计为未来多任务学习提供了新的优化路径,有望进一步提升大型语言模型的效能和稳定性。

来自主题: AI技术研报
3140 点击    2024-11-01 14:54
大模型合成数据机理分析,人大刘勇团队:信息增益影响泛化能力

大模型合成数据机理分析,人大刘勇团队:信息增益影响泛化能力

大模型合成数据机理分析,人大刘勇团队:信息增益影响泛化能力

在大语言模型(LLMs)后训练任务中,由于高质量的特定领域数据十分稀缺,合成数据已成为重要资源。虽然已有多种方法被用于生成合成数据,但合成数据的理论理解仍存在缺口。为了解决这一问题,本文首先对当前流行的合成数据生成过程进行了数学建模。

来自主题: AI技术研报
6522 点击    2024-10-15 18:38
北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式

北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式

北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式

OpenAI o1 在数学、代码、长程规划等问题取得显著的进步。一部分业内人士分析其原因是由于构建足够庞大的逻辑数据集 <问题,明确的正确答案> ,再加上类似 AlphaGo 中 MCTS 和 RL 的方法直接搜索,只要提供足够的计算量用于搜索,总可以搜到最后的正确路径。然而,这样只是建立起问题和答案之间的更好的联系,如何泛化到更复杂的问题场景,技术远不止这么简单。

来自主题: AI技术研报
6648 点击    2024-09-15 14:41
Post-Training有多重要?AI2研究员长文详解前沿模型的后训练秘籍

Post-Training有多重要?AI2研究员长文详解前沿模型的后训练秘籍

Post-Training有多重要?AI2研究员长文详解前沿模型的后训练秘籍

越来越多研究发现,后训练对模型性能同样重要。Allen AI的机器学习研究员Nathan Lambert最近发表了一篇技术博文,总结了科技巨头们所使用的模型后训练配方。

来自主题: AI技术研报
10399 点击    2024-08-19 14:47
OpenAI秘密武器「草莓」计划曝光!Q*推理能力大爆发,逼近AGI L2里程碑

OpenAI秘密武器「草莓」计划曝光!Q*推理能力大爆发,逼近AGI L2里程碑

OpenAI秘密武器「草莓」计划曝光!Q*推理能力大爆发,逼近AGI L2里程碑

OpenAI被曝出了新项目「草莓」,据悉能提前计划,自主浏览网页,还能进行深度研究。草莓由大量通用数据上后训练而成,推理能力显著提高。根据OpenAI最近的AGI路线图,草莓疑似已达Level 2。

来自主题: AI资讯
5868 点击    2024-07-13 18:53