AI资讯新闻榜单内容搜索-LLM-as-a-j

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: LLM-as-a-j
大模型给自己当裁判并不靠谱!上海交通大学新研究揭示LLM-as-a-judge机制缺陷

大模型给自己当裁判并不靠谱!上海交通大学新研究揭示LLM-as-a-judge机制缺陷

大模型给自己当裁判并不靠谱!上海交通大学新研究揭示LLM-as-a-judge机制缺陷

大语言模型(LLM)正从工具进化为“裁判”(LLM-as-a-judge),开始大规模地评判由AI自己生成的内容。这种高效的评估范式,其可靠性与人类判断的一致性,却很少被深入验证。

来自主题: AI技术研报
5653 点击    2025-08-17 13:16
关于LLM-as-a-judge范式,终于有综述讲明白了

关于LLM-as-a-judge范式,终于有综述讲明白了

关于LLM-as-a-judge范式,终于有综述讲明白了

评估和评价长期以来一直是人工智能 (AI) 和自然语言处理 (NLP) 中的关键挑战。然而,传统方法,无论是基于匹配还是基于词嵌入,往往无法判断精妙的属性并提供令人满意的结果。

来自主题: AI技术研报
6669 点击    2024-12-03 20:21
最新综述:LLM作为法官,用AI评判AI

最新综述:LLM作为法官,用AI评判AI

最新综述:LLM作为法官,用AI评判AI

让AI来评判AI,即利用大语言模型(LLM)作为评判者,已经成为近半年的Prompt热点领域。这个方向不仅代表了AI评估领域的重要突破,更为正在开发AI产品的工程师们提供了一个全新的思路。

来自主题: AI技术研报
9070 点击    2024-11-29 09:11
模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

在目前的模型训练范式中,偏好数据的的获取与使用已经成为了不可或缺的一环。在训练中,偏好数据通常被用作对齐(alignment)时的训练优化目标,如基于人类或 AI 反馈的强化学习(RLHF/RLAIF)或者直接偏好优化(DPO),而在模型评估中,由于任务的复杂性且通常没有标准答案,则通常直接以人类标注者或高性能大模型(LLM-as-a-Judge)的偏好标注作为评判标准。

来自主题: AI技术研报
10240 点击    2024-03-02 14:58