无需训练实现价值观实时动态对齐:上交开源价值观对齐方法OPO,闭源与开源大模型均适用
无需训练实现价值观实时动态对齐:上交开源价值观对齐方法OPO,闭源与开源大模型均适用OPO 无需训练即可实现实时动态对齐,而且因其即插即用的特性,适用于所有的开源与闭源大模型。
来自主题: AI技术研报
8414 点击 2024-01-23 15:03
OPO 无需训练即可实现实时动态对齐,而且因其即插即用的特性,适用于所有的开源与闭源大模型。
评估大模型对齐表现最高效的方式是?在生成式AI趋势里,让大模型回答和人类价值(意图)一致非常重要,也就是业内常说的对齐(Alignment)。