AI资讯新闻榜单内容搜索-7B模型

都在卷「让大模型多循环几遍」，这个7B模型LoopCoder v2说：多循环 1 次就够了

当所有人都在比谁「想得更久、算得更多」——推理模型动辄输出成千上万个思考 token，循环式架构恨不得在内部反复迭代十遍八遍——一项新研究反手泼了盆冷水：

来自主题: AI技术研报

6527 点击 2026-07-01 10:26

文本摘要作为自然语言处理（NLP）的核心任务，其质量评估通常需要兼顾一致性（Consistency）、连贯性（Coherence）、流畅性（Fluency）和相关性（Relevance）等多个维度。

来自主题: AI技术研报

9748 点击 2026-02-10 14:11

浙江大学与通义实验室Mobile-Agent团队在UI-R1的基础上，推出全新研究成果——UI-S1，提出了一种名为半在线强化学习（Semi-online Reinforcement Learning）的创新训练范式。

来自主题: AI技术研报

8522 点击 2025-09-24 09:49

国产自研开源模型，让模型不用在快思考和慢思考间二选一了！

来自主题: AI技术研报

10029 点击 2025-09-11 11:24

近期，随着OpenAI-o1/o3和Deepseek-R1的成功，基于强化学习的微调方法（R1-Style）在AI领域引起广泛关注。这些方法在数学推理和代码智能方面展现出色表现，但在通用多模态数据上的应用研究仍有待深入。

来自主题: AI技术研报

9166 点击 2025-08-01 16:08

在没有标准答案的开放式对话中，RL该怎么做？多轮对话是大模型最典型的开放任务：高频、多轮、强情境依赖，且“好回复”因人而异。

来自主题: AI技术研报

8347 点击 2025-07-19 11:13

上上周的 2025 高考已经落下了帷幕！在人工智能领域，各家大模型向数学卷发起了挑战。

来自主题: AI技术研报

10807 点击 2025-06-16 17:04

视觉语言模型（VLM）正经历从「感知」到「认知」的关键跃迁。当OpenAI的o3系列通过「图像思维」（Thinking with Images）让模型学会缩放、标记视觉区域时，我们看到了多模态交互的全新可能。

来自主题: AI技术研报

8623 点击 2025-06-10 14:45

港中文和清华团队推出Video-R1模型，首次将强化学习的R1范式应用于视频推理领域。通过升级的T-GRPO算法和混合图像视频数据集，Video-R1在视频空间推理测试中超越了GPT-4o，展现了强大的推理能力，并且全部代码和数据集均已开源。

来自主题: AI技术研报

10100 点击 2025-04-16 14:42

深夜重磅！阿里发布并开源首个端到端全模态大模型——

来自主题: AI技术研报

10758 点击 2025-03-27 15:18