AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
AI人格集体黑化?Anthropic首次「赛博切脑」,物理斩断毁灭指令

AI人格集体黑化?Anthropic首次「赛博切脑」,物理斩断毁灭指令

AI人格集体黑化?Anthropic首次「赛博切脑」,物理斩断毁灭指令

不要被AI的温柔表象欺骗! Anthropic最新研究刺穿了AGI的温情假象:你以为在和良师益友倾诉,其实是在悬崖边给「杀手」松绑。 当脆弱情感遇上激活值坍塌,RLHF防御层将瞬间溃缩。既然无法教化野兽,人类只能选择最冷酷的「赛博脑叶切除术」。

来自主题: AI技术研报
7759 点击    2026-01-20 16:39
500万次围观,1X把「世界模型」真正用在了机器人NEO身上

500万次围观,1X把「世界模型」真正用在了机器人NEO身上

500万次围观,1X把「世界模型」真正用在了机器人NEO身上

还记得那个穿着「Lululemon」紧身衣、主打温柔陪伴的家用人形机器人 NEO 吗?

来自主题: AI技术研报
8030 点击    2026-01-14 15:35
闷声赚钱的 RL 生意:每个任务,200-20000 美元

闷声赚钱的 RL 生意:每个任务,200-20000 美元

闷声赚钱的 RL 生意:每个任务,200-20000 美元

2025 年 9 月,The Information 报道 Anthropic 曾讨论在接下来一年内投入超过 10 亿美元用于 RL 环境建设。Epoch AI 最近发了一篇报告,采访了 18 位来自 RL 环境初创公司、neolab(Cursor 这类应用型 AI 公司)和前沿实验室的从业者

来自主题: AI资讯
10586 点击    2026-01-14 11:37
华为推出软工代码智能体SWE-Lego,解锁SFT训练极致性能

华为推出软工代码智能体SWE-Lego,解锁SFT训练极致性能

华为推出软工代码智能体SWE-Lego,解锁SFT训练极致性能

“软工任务要改多文件、多轮工具调用,模型怎么学透?高质量训练数据稀缺,又怕轨迹含噪声作弊?复杂 RL 训练成本高,中小团队望而却步?”

来自主题: AI技术研报
6171 点击    2026-01-13 16:36
一个模型统一4D世界生成与重建,港科大One4D框架来了

一个模型统一4D世界生成与重建,港科大One4D框架来了

一个模型统一4D世界生成与重建,港科大One4D框架来了

近年来,视频扩散模型在 “真实感、动态性、可控性” 上进展飞快,但它们大多仍停留在纯 RGB 空间。模型能生成好看的视频,却缺少对三维几何的显式建模。这让许多世界模型(world model)导向的应用(空间推理、具身智能、机器人、自动驾驶仿真等)难以落地,因为这些任务不仅需要像素,还需要完整地模拟 4D 世界。

来自主题: AI技术研报
8564 点击    2026-01-13 16:13
AI虚拟细胞面世,无需等待实验,可预警药物疗效与机制

AI虚拟细胞面世,无需等待实验,可预警药物疗效与机制

AI虚拟细胞面世,无需等待实验,可预警药物疗效与机制

有了 AI,科学研究是否有一天可以摆脱对湿实验的高度依赖,通过在计算机中构建“虚拟细胞”,来模拟和理解新药可能产生的生物效应?如今,这一愿景正被逐步实现。由上海交通大学郑双佳教授及其研究团队打造的 V

来自主题: AI资讯
8315 点击    2026-01-11 10:10
一年后,DeepSeek-R1的每token成本降到了原来的1/32

一年后,DeepSeek-R1的每token成本降到了原来的1/32

一年后,DeepSeek-R1的每token成本降到了原来的1/32

几天前,DeepSeek 毫无预兆地更新了 R1 论文,将原有的 22 页增加到了现在的 86 页。新版本充实了更多细节内容,包括首次公开训练全路径,即从冷启动、训练导向 RL、拒绝采样与再微调到全场景对齐 RL 的四阶段 pipeline,以及「Aha Moment」的数据化验证等等。

来自主题: AI技术研报
8116 点击    2026-01-10 17:02
1人顶1个Infra团队!OpenAI前CTO新招,让大模型训练跌成白菜价

1人顶1个Infra团队!OpenAI前CTO新招,让大模型训练跌成白菜价

1人顶1个Infra团队!OpenAI前CTO新招,让大模型训练跌成白菜价

当大模型竞争转向后训练,继续为闲置显卡烧钱无异于「慢性自杀」。如今,按Token计费的Serverless模式,彻底终结了算力租赁的暴利时代,让算法工程师真正拥有了定义物理世界的权利。

来自主题: AI技术研报
7916 点击    2026-01-07 18:35