
周志华团队新作:LLM中存在奖励模型,首次理论证明RL对LLM有效性
周志华团队新作:LLM中存在奖励模型,首次理论证明RL对LLM有效性将大语言模型(LLMs)与复杂的人类价值观对齐,仍然是 AI 面临的一个核心挑战。当前主要的方法是基于人类反馈的强化学习(RLHF)。该流程依赖于一个通过人类偏好训练的奖励模型来对模型输出进行评分,最终对齐后的 LLM 的质量在根本上取决于该奖励模型的质量。
将大语言模型(LLMs)与复杂的人类价值观对齐,仍然是 AI 面临的一个核心挑战。当前主要的方法是基于人类反馈的强化学习(RLHF)。该流程依赖于一个通过人类偏好训练的奖励模型来对模型输出进行评分,最终对齐后的 LLM 的质量在根本上取决于该奖励模型的质量。
AinimateLab的总监周士诚今年有两部AI短片斩获佳绩——《缸中之脑》获得今年北京国际电影节AIGC单元最佳动画;《我的外星女友》则入围了今年上海国际电影节AIGC短片单元六强。
美国加州两起判决首次认定:AI公司扫描购买的正版书籍用于模型训练属合理使用,训练行为具变革性也属合理使用,但盗版素材获取仍侵权。中美监管宽松利于AI产业发展,欧盟严格规定要求素材许可或提供退出选项。AI输出侵权内容或诱导输出训练素材存在争议。
就在刚刚,xAI再获百亿美元融资,估值飙至1130亿。而xAI控制台中,已有源代码流出,Grok 4和Grok 4 Code即将上线!现在,全网都在搓手以待,Grok 4的诞生,将怎样搅动当前顶尖大模型的局面。
微软首席执行官Satya Nadella在社交平台分享了,微软最新发布的突破性医疗AI系统MAI-DxO。
2025年上半年,AI开源领域的竞赛异常激烈,主要围绕着几个核心方向展开:首先是效率竞赛,各路玩家不再单纯追求千亿、万亿参数的“巨无霸”模型,而是更专注于通过新架构和训练方法,用更小的参数实现更强的性能。其次,多模态已成标配,纯文本模型越来越少,新发布的旗舰模型几乎都具备了处理图像、视频等多种信息的能力。
为智谱构建可信的人工智能基础设施注入坚实动能。
“中国版OpenAI”智谱,意外被OpenAI点了次名。
AI开始挤占人类音乐了。今年1月,法国音乐流媒体服务Deezer曾透露,该平台新上传内容有10%完全由AI生成,两个月来,比例提高到了18%。“而且我们看不到任何放缓的迹象。”
刚刚,一支华人主导的AI团队打破硅谷融资纪录。