AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
第三代神经网络模型:面向AI应用的脉冲神经网络

第三代神经网络模型:面向AI应用的脉冲神经网络

第三代神经网络模型:面向AI应用的脉冲神经网络

1997年,Wolfgang Maass于Networks of spiking neurons: The third generation of neural network models一文中提出,由脉冲神经元构成的网络——脉冲神经网络(SNN),能够展现出更强大的计算特性,会成为继人工神经网络后的“第三代神经网络模型”[6]。

来自主题: AI技术研报
8147 点击    2025-07-31 10:41
SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」

SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」

SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」

近年来,OpenAI o1 和 DeepSeek-R1 等模型的成功证明了强化学习能够显著提升语言模型的推理能力。通过基于结果的奖励机制,强化学习使模型能够发展出可泛化的推理策略,在复杂问题上取得了监督微调难以企及的进展。

来自主题: AI技术研报
6186 点击    2025-07-31 10:10
超越DeepSeek-R1,数学形式化准确率飙升至84% | 字节&南大开源

超越DeepSeek-R1,数学形式化准确率飙升至84% | 字节&南大开源

超越DeepSeek-R1,数学形式化准确率飙升至84% | 字节&南大开源

当人工智能已经能下围棋、写代码,如何让机器理解并证明数学定理,仍是横亘在科研界的重大难题。

来自主题: AI技术研报
10165 点击    2025-07-30 11:01
LeCun出手,造出视频世界模型,挑战英伟达COSMOS

LeCun出手,造出视频世界模型,挑战英伟达COSMOS

LeCun出手,造出视频世界模型,挑战英伟达COSMOS

2018 年,LSTM 之父 Jürgen Schmidhuber 在论文中( Recurrent world models facilitate policy evolution )推广了世界模型(world model)的概念,这是一种神经网络,它能够根据智能体过去的观察与动作,预测环境的未来状态。

来自主题: AI技术研报
7253 点击    2025-07-30 10:23
全球首次,「AI记忆」开源落地!MIRIX同步上线APP

全球首次,「AI记忆」开源落地!MIRIX同步上线APP

全球首次,「AI记忆」开源落地!MIRIX同步上线APP

加利福尼亚大学圣迭戈分校博士生王禹和纽约大学教授陈溪联合推出并开源了 MIRIX,全球首个真正意义上的多模态、多智能体AI记忆系统。MIRIX团队同步上线了一款桌面端APP,可直接下载使用!

来自主题: AI技术研报
10172 点击    2025-07-29 16:22
ICML25|标点符号竟是LLM记忆核心!正确处理性能暴涨

ICML25|标点符号竟是LLM记忆核心!正确处理性能暴涨

ICML25|标点符号竟是LLM记忆核心!正确处理性能暴涨

近年来,大语言模型(LLM)的能力越来越强,但它们的“饭量”也越来越大。这个“饭量”主要体现在计算和内存上。当模型处理的文本越来越长时,一个叫做“自注意力(Self-Attention)”的核心机制会导致计算量呈平方级增长。这就像一个房间里的人开会,如果每个人都要和在场的其他所有人单独聊一遍,那么随着人数增加,总的对话次数会爆炸式增长。

来自主题: AI技术研报
7271 点击    2025-07-29 12:29
EvaLearn:AI下半场的全新评测范式!

EvaLearn:AI下半场的全新评测范式!

EvaLearn:AI下半场的全新评测范式!

在三个月前,OpenAI 研究员 Shunyu Yao 发表了一篇关于 AI 的下半场的博客引起了广泛讨论。他在博客中指出,AI 研究正在从 “能不能做” 转向 “学得是否有效”,传统的基准测试已经难以衡量 AI 的实际效用,他指出现有的评估方式中,模型被要求独立完成每个任务,然后取平均得分。这种方式忽略了任务之间的连贯性,无法评估模型长期适应能力和更类人的动态学习能力。

来自主题: AI技术研报
7510 点击    2025-07-29 10:54