AI资讯新闻榜单内容搜索-R1

AI操作有了“紧急刹车”！通义&自动化所AI决策诊断模型，GUI智能体纠错正确率SOTA

GUI智能体总是出错，甚至是不可逆的错误。即使是像GPT-4o这样的顶级多模态大模型，也会因为缺乏常识而在执行GUI任务时犯错。在它即将执行错误决策时，需要有人提醒它出错了。

来自主题: AI资讯

8161 点击 2025-06-17 16:59

刚刚，LMArena最新模型榜单出炉！DeepSeek-R1网页编程能力赶超了Claude Opus 4

在开源模型领域，DeepSeek 又带来了惊喜。

来自主题: AI资讯

7845 点击 2025-06-17 11:31

性能比肩DeepSeek-R1，MiniMax仅花380万训出推理大模型性价比新王｜开源

国产推理大模型又有重磅选手。MiniMax开源MiniMax-M1，迅速引起热议。

来自主题: AI技术研报

6039 点击 2025-06-17 11:06

SFT+RL双管齐下：ReasonGen-R1如何破解文生图「指令不遵」难题？

近年来，链式推理和强化学习已经被广泛应用于大语言模型，让大语言模型的推理能力得到了显著提升。

来自主题: AI技术研报

5876 点击 2025-06-17 10:15

四万字·深度求索｜泛聊一下强化学习(RL)下的深度推理(DR)对真实世界(RW)建模与泛化的本质

强化学习·RL范式尝试为LLMs应用于广泛的Agentic AI甚至构建AGI打开了一扇“深度推理”的大门，而RL是否是唯一且work的一扇门，先按下不表（不作为今天跟大家唠的重点），至少目前看来，随着o1/o3/r1/qwq..等一众语言推理模型的快速发展，正推动着LLMs和Agentic AI在不同领域的价值与作用，

来自主题: AI技术研报

7963 点击 2025-06-13 10:48

别再信“LRM无需优化提示词”了，你至少输掉23%的性能，以R1为例

还记得DeepSeek-R1发布时AI圈的那波狂欢吗？"提示工程已死"、"再也不用费心写复杂提示了"、"推理模型已经聪明到不再需要学习提示词了"......这些观点在社交媒体上刷屏，连不少技术大佬都在转发。再到最近，“提示词写死了”......现实总是来得这么快——乔治梅森大学的研究者们用一个严谨得让人无法反驳的实验，狠狠打了所有人的脸！

来自主题: AI技术研报

7104 点击 2025-06-12 11:59