AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
奖励是假的,能让Qwen提升25%性能却是真的!

奖励是假的,能让Qwen提升25%性能却是真的!

奖励是假的,能让Qwen提升25%性能却是真的!

即使RLVR(可验证奖励强化学习)使用错误的奖励信号,Qwen性能也能得到显著提升?

来自主题: AI技术研报
9291 点击    2025-05-29 15:01
成本暴降88%!通义实验室、北大发布ZeroSearch,无需搜索即可激活LLM检索能力

成本暴降88%!通义实验室、北大发布ZeroSearch,无需搜索即可激活LLM检索能力

成本暴降88%!通义实验室、北大发布ZeroSearch,无需搜索即可激活LLM检索能力

信息检索能力对提升大语言模型 (LLMs) 的推理表现至关重要,近期研究尝试引入强化学习 (RL) 框架激活 LLMs 主动搜集信息的能力,但现有方法在训练过程中面临两大核心挑战:

来自主题: AI技术研报
6247 点击    2025-05-29 14:48
原来Veo 3早有苗头!人大联合值得买科技在CVPR 2025提出全新「图像到有声视频」生成框架

原来Veo 3早有苗头!人大联合值得买科技在CVPR 2025提出全新「图像到有声视频」生成框架

原来Veo 3早有苗头!人大联合值得买科技在CVPR 2025提出全新「图像到有声视频」生成框架

来自中国人民大学高瓴人工智能学院与值得买科技 AI 团队在 CVPR 2025 会议上发表了一项新工作,首次提出了一种从静态图像直接生成同步音视频内容的生成框架。其核心设计 JointDiT(Joint Diffusion Transformer)框架实现了图像 → 动态视频 + 声音的高质量联合生成。

来自主题: AI技术研报
9302 点击    2025-05-29 14:20
MetaMind元认知多智能体,让LLM理解对话背后的深层意图,首次达到人类水平 | 最新

MetaMind元认知多智能体,让LLM理解对话背后的深层意图,首次达到人类水平 | 最新

MetaMind元认知多智能体,让LLM理解对话背后的深层意图,首次达到人类水平 | 最新

MetaMind是一个多智能体框架,专门解决大语言模型在社交认知方面的根本缺陷。传统的 LLM 常常难以应对现实世界中人际沟通中固有的模糊性和间接性,无法理解未说出口的意图、隐含的情绪或文化敏感线索。MetaMind首次使LLMs在关键心理理论(ToM)任务上达到人类水平表现。

来自主题: AI技术研报
10720 点击    2025-05-29 10:31
爆火论文颠覆RL认知!「错误奖励」让LLM推理暴涨24.6%,学界惊了

爆火论文颠覆RL认知!「错误奖励」让LLM推理暴涨24.6%,学界惊了

爆火论文颠覆RL认知!「错误奖励」让LLM推理暴涨24.6%,学界惊了

来自华盛顿大学、AI2、UC伯克利研究团队证实,「伪奖励」(Spurious Rewards)也能带来LLM推理能力提升的惊喜。

来自主题: AI技术研报
8173 点击    2025-05-29 10:18
准确率92.7%逼近Claude 3.5、成本降低86%,开源代码定位新神器LocAgent来了

准确率92.7%逼近Claude 3.5、成本降低86%,开源代码定位新神器LocAgent来了

准确率92.7%逼近Claude 3.5、成本降低86%,开源代码定位新神器LocAgent来了

又是一个让程序员狂欢的研究!来自 OpenHands、耶鲁、南加大和斯坦福的研究团队刚刚发布了 LocAgent—— 一个专门用于代码定位的图索引 LLM Agent 框架,直接把代码定位准确率拉到了 92.7% 的新高度。该研究已被 ACL 2025 录用。

来自主题: AI技术研报
7618 点击    2025-05-29 10:03