AI资讯新闻榜单内容搜索-模型训练

四万字·深度求索｜泛聊一下强化学习(RL)下的深度推理(DR)对真实世界(RW)建模与泛化的本质

强化学习·RL范式尝试为LLMs应用于广泛的Agentic AI甚至构建AGI打开了一扇“深度推理”的大门，而RL是否是唯一且work的一扇门，先按下不表（不作为今天跟大家唠的重点），至少目前看来，随着o1/o3/r1/qwq..等一众语言推理模型的快速发展，正推动着LLMs和Agentic AI在不同领域的价值与作用，

来自主题: AI技术研报

11402 点击 2025-06-13 10:48

AI自动写学术综述：10分钟生成6万字，成本不到四块钱

学术综述论文在科学研究中发挥着至关重要的作用，特别是在研究文献快速增长的时代。传统的人工驱动综述写作需要研究者审阅大量文章，既耗时又难以跟上最新进展。而现有的自动化综述生成方法面临诸多挑战：

来自主题: AI技术研报

8205 点击 2025-06-13 10:35

256块NPU训成8B视频模型、超越Sora等一众闭源！抖音内容技术团队开源ContentV

近日，抖音内容技术团队开源了 ContentV，一种面向视频生成任务的高效训练方案。该方案在多项技术优化的基础上，使用 256 块 NPU，在约 4 周内完成了一个 8B 参数模型的训练。尽管资源有限，ContentV 在多个评估维度上取得了与现有主流方案相近的生成效果。

来自主题: AI技术研报

10228 点击 2025-06-12 17:56

银河通用X清华大学发布业内首款开源人形机器人全身遥操系统OpenWBT，支持多机型、跨虚实，小时内可轻松部署

大数据和大模型已成为具身智能领域业界和学术界的焦点，人们也在期待人形机器人真正步入大数据、大模型时代。然而，行业一直缺乏稳定的人形机器人全身遥操作与数据采集方案。

来自主题: AI技术研报

8393 点击 2025-06-12 17:43

2D图像作中介，零训练实现3D场景生成SOTA：英伟达&康奈尔提出文本驱动新流程

想象一下，你是一位游戏设计师，正在为一个奇幻 RPG 游戏搭建场景。你需要创建一个 "精灵族树屋村落"—— 参天古木和树屋、发光的蘑菇路灯、半透明的纱幔帐篷... 传统工作流程中，这可能需要数周时间：先手工建模每个 3D 资产，再逐个调整位置和材质，最后反复测试光照效果…… 总之就是一个字，难。

来自主题: AI技术研报

8954 点击 2025-06-12 17:09

通义实验室最新成果WebDancer：开启自主智能Deep Research的新时代

作者介绍：本文作者来自通义实验室 RAG 团队，致力于面向下一代 RAG 技术进行基础研究。该团队 WebWalker 工作近期也被 ACL 2025 main conference 录用。

来自主题: AI技术研报

8325 点击 2025-06-12 15:24

每秒生成超30帧视频，支持实时交互！自回归视频生成新框架刷新生成效率

在A100上用310M模型，实现每秒超30帧自回归视频生成，同时画面还保持高质量！

来自主题: AI技术研报

10302 点击 2025-06-12 12:42

端到端GUI智能体首次实现“犯错-反思-修正”闭环，模拟人类认知全过程

端到端多模态GUI智能体有了“自我反思”能力！南洋理工大学MMLab团队提出框架GUI-Reflection。

来自主题: AI技术研报

11046 点击 2025-06-12 12:11

别再信“LRM无需优化提示词”了，你至少输掉23%的性能，以R1为例

还记得DeepSeek-R1发布时AI圈的那波狂欢吗？"提示工程已死"、"再也不用费心写复杂提示了"、"推理模型已经聪明到不再需要学习提示词了"......这些观点在社交媒体上刷屏，连不少技术大佬都在转发。再到最近，“提示词写死了”......现实总是来得这么快——乔治梅森大学的研究者们用一个严谨得让人无法反驳的实验，狠狠打了所有人的脸！

来自主题: AI技术研报

9320 点击 2025-06-12 11:59

CVPR 2025 | 多模态统一学习新范式来了，数据、模型、代码全部开源

我们人类生活在一个充满视觉和音频信息的世界中，近年来已经有很多工作利用这两个模态的信息来增强模型对视听场景的理解能力，衍生出了多种不同类型的任务，它们分别要求模型具备不同层面的能力。

来自主题: AI技术研报

9327 点击 2025-06-12 11:43