AI资讯新闻榜单内容搜索-TIM

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: TIM
让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源

让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源

让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源

在今年三月份,清华 AIR 和字节联合 SIA Lab 发布了 DAPO,即 Decoupled Clip and Dynamic sAmpling Policy Optimization(解耦剪辑和动态采样策略优化)。

来自主题: AI技术研报
7373 点击    2025-08-13 11:27
蛋白质基座的GPT时代来了?!

蛋白质基座的GPT时代来了?!

蛋白质基座的GPT时代来了?!

蛋白质模型的GPT时刻来了! 清华大学智能产业研究院(AIR)周浩副教授课题组联合上海人工智能实验室发布了AMix-1: 首次以Scaling Law、Emergent Ability、In-Context Learning和Test-time Scaling的系统化方法论来构建蛋白质基座模型。

来自主题: AI技术研报
6801 点击    2025-08-10 16:00
麻省理工学院推出AI学习平台MIT Learn

麻省理工学院推出AI学习平台MIT Learn

麻省理工学院推出AI学习平台MIT Learn

近日,麻省理工学院也推出了一个AI学习平台。这个名叫MIT Learn的平台提供超过12700个学习资源,其中大部分是免费的。这个名叫MIT Learn的平台提供超过12700个学习资源,其中大部分是免费的。

来自主题: AI资讯
8699 点击    2025-08-08 10:28
比Adam更有效,POET从谱不变原理出发,让LLM训练又稳又快

比Adam更有效,POET从谱不变原理出发,让LLM训练又稳又快

比Adam更有效,POET从谱不变原理出发,让LLM训练又稳又快

Zeju Qiu和Tim Z. Xiao是德国马普所博士生,Simon Buchholz和Maximilian Dax担任德国马普所博士后研究员

来自主题: AI技术研报
9274 点击    2025-07-15 10:11
感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义

感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义

感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义

让大模型在学习推理的同时学会感知。伊利诺伊大学香槟分校(UIUC)与阿里巴巴通义实验室联合推出了全新的专注于多模态推理的强化学习算法PAPO(Perception-Aware Policy Optimization)。

来自主题: AI技术研报
7486 点击    2025-07-11 16:23
Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率,华为诺亚提出代码HLCE终极基准

Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率,华为诺亚提出代码HLCE终极基准

Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率,华为诺亚提出代码HLCE终极基准

大语言模型(LLM)在标准编程基准测试(如 HumanEval,Livecodebench)上已经接近 “毕业”,但这是否意味着它们已经掌握了人类顶尖水平的复杂推理和编程能力?

来自主题: AI技术研报
7148 点击    2025-07-07 10:39
Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成

Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成

Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成

近年来,基于智能体的强化学习(Agent + RL)与智能体优化(Agent Optimization)在学术界引发了广泛关注。然而,实现具备工具调用能力的端到端智能体训练,首要瓶颈在于高质量任务数据的极度稀缺。

来自主题: AI技术研报
7021 点击    2025-07-05 12:46
Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化

Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化

Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化

最近,关于大模型推理的测试时间扩展(Test time scaling law )的探索不断涌现出新的范式,包括① 结构化搜索结(如 MCTS),② 过程奖励模型(Process Reward Model )+ PPO,③ 可验证奖励 (Verifiable Reward)+ GRPO(DeepSeek R1)。

来自主题: AI技术研报
7958 点击    2025-07-04 09:44
一AI日记应用获600万美金融资,顶级VC领投,小众赛道里跑出来的大生意有何特别?

一AI日记应用获600万美金融资,顶级VC领投,小众赛道里跑出来的大生意有何特别?

一AI日记应用获600万美金融资,顶级VC领投,小众赛道里跑出来的大生意有何特别?

近日,一款名为Rosebud的AI日记应用获得了600万美元的种子轮融资,由Bessemer Venture Partners领投,Fuel Captial、Initialized Capital、766、Avenir 及知名投资人 Tim Ferriss 等跟投。据官方透露,Rosebud自推出以来已经累计了5亿字书写、8000+用户,使用时长超过3000万分钟。

来自主题: AI资讯
7983 点击    2025-06-25 16:00