AI资讯新闻榜单内容搜索-清华

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 清华
为什么BF16的FlashAttention会把训练「炸掉」?清华首次给出机制解释,用极简改动稳住训练

为什么BF16的FlashAttention会把训练「炸掉」?清华首次给出机制解释,用极简改动稳住训练

为什么BF16的FlashAttention会把训练「炸掉」?清华首次给出机制解释,用极简改动稳住训练

一句话总结:社区里困扰了多年的一个 “玄学” 现象终于被拆解清楚了:在 BF16 等低精度训练里,FlashAttention 不是随机出 bug,而是会在特定条件下触发有方向的数值偏置,借助注意力中涌现的相似低秩更新方向被持续放大,最终把权重谱范数和激活推到失控,导致 loss 突然爆炸。论文还给出一个几乎不改模型、只在 safe softmax 里做的极小修改,实测能显著稳定训练。

来自主题: AI技术研报
6352 点击    2026-03-04 13:49
再携手!清华陈建宇×斯坦福Chelsea团队发布VLAW,世界模型×VLA协同进化

再携手!清华陈建宇×斯坦福Chelsea团队发布VLAW,世界模型×VLA协同进化

再携手!清华陈建宇×斯坦福Chelsea团队发布VLAW,世界模型×VLA协同进化

机器之心编辑部 整个具身智能领域都在探索世界模型的实用化路径。这个被寄予厚望的「数字模拟器」,本应成为机器人训练的核心工具,却因物理保真度低等问题成为「空中楼阁」。 去年年中,谷歌发布了 Genie-

来自主题: AI资讯
9635 点击    2026-02-28 19:48
全球最大游戏博主「偷师」DeepSeek,爆改国产大模型干翻 ChatGPT

全球最大游戏博主「偷师」DeepSeek,爆改国产大模型干翻 ChatGPT

全球最大游戏博主「偷师」DeepSeek,爆改国产大模型干翻 ChatGPT

全球最大游戏博主 PewDiePie,又整活了。他靠着「偷师」DeepSeek、清华大学发布的技术文档,用一堆魔改显卡成功微调出一个自己的 AI 模型,而这个模型在编程基准测试中的表现,竟然超越了 GPT-4 和 Gemini 2.5 Pro。

来自主题: AI资讯
8502 点击    2026-02-28 15:34
DeepSeek新论文来了!联手清华、北大,优化智能体大模型推理

DeepSeek新论文来了!联手清华、北大,优化智能体大模型推理

DeepSeek新论文来了!联手清华、北大,优化智能体大模型推理

「DeepSeek V4 来了!」这样的消息是不是已经听烦了?总结来说,这篇新论文介绍了一个名为「DualPath」的创新推理系统,专门针对智能体工作负载下的大语言模型(LLM)推理性能进行优化。具体来讲,通过引入「双路径 KV-Cache 加载」机制,解决了在预填充 - 解码(PD)分离架构下,KV-Cache 读取负载不平衡的问题。

来自主题: AI技术研报
8690 点击    2026-02-27 11:35
清华数学系大神跳槽OpenAI!曾主导SAM与Llama开发,Sora负责人:欢迎加入

清华数学系大神跳槽OpenAI!曾主导SAM与Llama开发,Sora负责人:欢迎加入

清华数学系大神跳槽OpenAI!曾主导SAM与Llama开发,Sora负责人:欢迎加入

刚刚,毕业清华大学数学系,曾在Meta FAIR工作3.75年、主导过SAM与Llama多项核心工作的研究员张鹏川(Pengchuan Zhang)宣布离职。他的下一站,是来到OpenAI,投身于世界模拟与机器人学(World Simulation and Robotics)方向的研究。

来自主题: AI资讯
10121 点击    2026-02-25 14:57
Gemini 3仅得33.6分!清华发布首个「约束流形」空间智能基准

Gemini 3仅得33.6分!清华发布首个「约束流形」空间智能基准

Gemini 3仅得33.6分!清华发布首个「约束流形」空间智能基准

SSI-Bench是首个在约束流形中评估模型空间推理能力的基准,强调真实结构与约束条件,通过排序任务考察模型是否能准确理解三维结构的几何与拓扑关系,揭示当前大模型在空间智能上严重依赖2D信息,实际表现远低于人类。研究指出,模型需提升三维构型识别和约束推理能力,才能真正理解空间问题。

来自主题: AI技术研报
9742 点击    2026-02-25 14:33
清华新框架让大模型学会「精读略读」!实现12倍端到端加速,基准评分翻倍

清华新框架让大模型学会「精读略读」!实现12倍端到端加速,基准评分翻倍

清华新框架让大模型学会「精读略读」!实现12倍端到端加速,基准评分翻倍

来自清华大学、鹏城实验室与阿里巴巴未来生活实验室的联合研究团队发现:现有任务相关的压缩方法不仅陷入效率瓶颈——要么一次性加载全文(效率低),要么自回归逐步压缩(速度慢),更难以兼顾“保留关键信息”与“保持自然语言可解释性”。

来自主题: AI技术研报
9724 点击    2026-02-15 21:25
视听分离SOTA提速6倍!清华发布首个6M高性能模型|ICLR'26

视听分离SOTA提速6倍!清华发布首个6M高性能模型|ICLR'26

视听分离SOTA提速6倍!清华发布首个6M高性能模型|ICLR'26

清华大学团队推出的Dolphin模型突破了「高性能必高能耗」的瓶颈:仅用6M参数(较主流模型减半),通过离散化视觉编码和物理启发的热扩散注意力机制,实现单次推理即可精准分离语音,速度提升6倍以上,在多项基准测试中刷新纪录,为智能助听器、手机等端侧设备部署高清语音分离开辟新路。

来自主题: AI技术研报
8974 点击    2026-02-14 10:28
清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它

清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它

清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它

今天,Gemini 3 Deep Think重磅升级,几乎刷爆全领域的SOTA,标志着AI推理能力进入了全新维度。这一次,在科学研究和硬核工程领域,Deep Think堪称一个「最强大脑」。

来自主题: AI资讯
10325 点击    2026-02-13 10:32