AI资讯新闻榜单内容搜索-机制可解释性

条条电路通罗马：大模型可解释性的「唯一机制」可能从一开始就不存在

长期以来，机制可解释性（mechanistic interpretability）领域有一个几乎从未被明说、却被视为理所当然的前提：模型对于同一种任务的能力或表现，背后对应着一条唯一的、或近乎唯一的内部「电路」（circuit）。该领域的研究者们之所以要做「电路发现」（circuit discovery），是为了要把这些「特定的」电路找出来。

来自主题: AI技术研报

7765 点击 2026-06-30 15:12

《Anthropic 炒作大辞典》

如果你身边声称将为人类未来负责的人，这样和你聊天，你感受如何： “在应对 ASL-3 级别的灾难性风险时，我们通过机制可解释性的神经解剖，在神经网络的暗物质中，发现了潜伏特工（Sleeper Agen

来自主题: AI资讯

7938 点击 2026-04-11 10:35

大模型哪里出问题、怎么修，这篇可解释性综述一次讲清

过去几年，机制可解释性（Mechanistic Interpretability）让研究者得以在 Transformer 这一 “黑盒” 里追踪信息如何流动、表征如何形成：从单个神经元到注意力头，再到跨层电路。但在很多场景里，研究者真正关心的不只是 “模型为什么这么答”，还包括 “能不能更稳、更准、更省，更安全”。

来自主题: AI技术研报

11064 点击 2026-01-28 10:13

拆解AI黑箱，深度解读“机制可解释性”｜2026年十大突破性技术

现在，我们越来越多地将大语言模型应用于搜索、编程、内容生成和决策辅助等现实场景中。尽管每天有数百万人使用大模型，但它的问题也随之而来，例如有时会产生幻觉，甚至在特定情境下表现出误导或欺骗用户的倾向。

来自主题: AI资讯

9119 点击 2026-01-13 16:09

EMNLP2025 | 通研院揭秘MoE可解释性，提升Context忠实性！

在大模型研究领域，做混合专家模型（MoE）的团队很多，但专注机制可解释性（Mechanistic Interpretability）的却寥寥无几 —— 而将二者深度结合，从底层机制理解复杂推理过程的工作，更是凤毛麟角。

来自主题: AI技术研报

10440 点击 2025-11-17 09:25

苦研10年无果，千万经费打水漂！AI黑箱依然无解，谷歌撕破脸

ChatGPT「舔狗化」事件背后，暴漏目前AI仍是「黑箱」。一场关于「机制可解释性」的路线分歧，正撕裂AI研究最核心的价值共识。谷歌认怂，Anthropic死磕——AI还能被「看懂」吗？

来自主题: AI技术研报

8040 点击 2025-05-17 16:28

Claude三巨头回应一切！Opus3.5仍可能发布，5小时超长视频10万人围观

Claude团队三巨头同时接受采访，回应一切。整整5个小时，创始人Dario Amodei、Claude性格设计师Amanda Askell、机制可解释性先驱Chris Olah无所不谈，透露了关于模型、公司和行业的很多内幕和细节。

来自主题: AI资讯

4654 点击 2024-11-13 09:22