AI资讯新闻榜单内容搜索-算法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 算法
用SFT打出RL的效果?微软联合提出高效后训练算法

用SFT打出RL的效果?微软联合提出高效后训练算法

用SFT打出RL的效果?微软联合提出高效后训练算法

在大模型后训练阶段,监督微调(SFT)和强化学习(RL)是两根不可或缺的支柱。SFT 利用高质量的离线(Off-policy)数据快速注入知识,但受限于静态数据分布,泛化能力往往容易触及天花板并带来灾难性遗忘;RL 则允许模型在探索中不断自我迭代,产生与当前策略同分布(On-policy)的数据,上限极高,但往往伴随着训练极度不稳定、计算资源消耗巨大的痛点。

来自主题: AI技术研报
5330 点击    2026-03-26 10:47
AI自己写代码做科研还跑赢了前沿算法?清华团队开源Alchemy框架

AI自己写代码做科研还跑赢了前沿算法?清华团队开源Alchemy框架

AI自己写代码做科研还跑赢了前沿算法?清华团队开源Alchemy框架

AI 驱动的自动化科研正从概念走向真实系统。近期受到广泛关注的 FARS,以及 Karpathy 开源的 autoresearch,都在不同程度上展示了 AI Scientist 自动进行 AI 领域研究的可行性。

来自主题: AI技术研报
6669 点击    2026-03-23 13:43
8倍增长、订单疯涌!这家公司杀入具身智能深水区,拿下真实世界「通行证」

8倍增长、订单疯涌!这家公司杀入具身智能深水区,拿下真实世界「通行证」

8倍增长、订单疯涌!这家公司杀入具身智能深水区,拿下真实世界「通行证」

具身智能(Embodied AI)正从算法狂欢转向物理落地的「深水区」。在FLEXIVERSE 2026发布会上,非夕科技不仅通过Enlight、Orion、MICO等新品完成了从「单臂」到「通用机器人智能底座」的升维,更在现场达成了2000台机器人的战略合作签约。全身皮肤级力感知、720°超限旋转、双臂原生协同、无源吸附壁虎夹爪——

来自主题: AI资讯
7759 点击    2026-03-22 09:44
后训练中的RL已死?MIT新算法挑战传统后训练思维,谢赛宁转发

后训练中的RL已死?MIT新算法挑战传统后训练思维,谢赛宁转发

后训练中的RL已死?MIT新算法挑战传统后训练思维,谢赛宁转发

在当前的 LLM 开发中,后训练阶段通常被视为赋予模型特定能力的关键环节。传统的观点认为,模型必须通过强化学习(如 PPO、GRPO 或 RLHF)和进化策略(ES)等算法,在反复的迭代和梯度优化过程中调整权重,才能在特定任务上达到理想的性能。

来自主题: AI技术研报
5941 点击    2026-03-16 14:26
刚刚,谷歌AI破解外星人难题!打破十年纪录,自己写算法震撼诺奖得主

刚刚,谷歌AI破解外星人难题!打破十年纪录,自己写算法震撼诺奖得主

刚刚,谷歌AI破解外星人难题!打破十年纪录,自己写算法震撼诺奖得主

谷歌DeepMind又放大招了:AlphaEvolve自主写算法,一口气改写5个经典拉姆齐数下界,打破了尘封十年的数学纪录!诺奖得主Hassabis和图灵奖得主LeCun都纷纷点赞——AI,正在彻底改变数学突破的方式!

来自主题: AI资讯
8114 点击    2026-03-14 20:41
破解大模型「无效并行推理」:Parallel-Probe问世,并行推理效率提升35.8%

破解大模型「无效并行推理」:Parallel-Probe问世,并行推理效率提升35.8%

破解大模型「无效并行推理」:Parallel-Probe问世,并行推理效率提升35.8%

来自马里兰大学、圣路易斯华盛顿大学、北卡罗来纳大学教堂山分校等机构的研究团队提出了 Parallel-Probe。不同于直接从算法设计出发,该研究首先通过引入 2D Probing,对 online 并行推理过程中的全局动态性进行了系统性刻画。

来自主题: AI技术研报
9401 点击    2026-03-08 13:18
如何训练VLA?丰田研究院发布史上最大实验规模「保姆级」教程

如何训练VLA?丰田研究院发布史上最大实验规模「保姆级」教程

如何训练VLA?丰田研究院发布史上最大实验规模「保姆级」教程

是不是经常纠结于 VLA(视觉 - 语言 - 动作)模型的训练技巧?面对层出不穷的 VLA 算法,是不是常常感到眼花缭乱,不知道哪种数据模态、训练策略最有效? 别急,丰田研究院(TRI)和清华大学刚刚

来自主题: AI技术研报
8621 点击    2026-03-08 10:38