AI资讯新闻榜单内容搜索-大语言模型

港科大发布「大模型越狱攻击」评估基准，覆盖37种、6大类别方法

现有的方法对大语言模型（LLM）「越狱」攻击评估存在误判和不一致问题。港科大团队提出了GuidedBench评估框架，通过为每个有害问题制定详细评分指南，显著降低了误判率，揭示了越狱攻击的真实成功率远低于此前估计，并为未来研究提供了更可靠的评估标准。

来自主题: AI技术研报

8000 点击 2025-08-02 13:15

Kubernetes环境中作业帮大模型服务流量调度优化实践

随着人工智能技术的快速发展，大语言模型在自然语言处理领域引发了深刻变革。大语言模型在实际应用中的使用越来越广泛，这些模型通常部署在云原生的基础设施上，需要复杂的流量管理机制以确保服务的稳定性、性能、可扩展性和成本效益。在 Kubernetes（K8S）这一容器编排标准中，现有的 Ingress 组件的流量转发机制提供了基于主机名和请求路径的基本流量路由功能。

来自主题: AI资讯

7975 点击 2025-08-02 13:04

ACL 2025主会论文 | TRIDENT：基于三维多样化红队数据合成的LLM安全增强方法

大语言模型（LLM）已经在多项自然语言处理任务中展现出卓越能力，但其潜在安全风险仍然是阻碍规模化落地的关键瓶颈。目前社区用于安全对齐的公开数据集，往往偏重于「词汇多样性」，即让同一种风险指令尽可能用不同的表达方式出现，却很少系统考虑指令背后的「恶意意图多样性」以及「越狱策略多样性」。

来自主题: AI技术研报

8384 点击 2025-08-01 10:37

Writing-Zero: 打破 AI 写作天花板, 让 AI 写作更像"人"

近年来, 大语言模型 (LLM) 在数学、编程等 "有标准答案" 的任务上取得了突破性进展, 这背后离不开 "可验证奖励" (Reinforcement Learning with Verifiable Rewards, RLVR) 技术的加持。RLVR 依赖于参考信号, 即通过客观标准答案来验证模型响应的可靠性。

来自主题: AI资讯

9080 点击 2025-07-31 11:02

AI时代，作者已死？

对于任何书面文件，比如此刻你正阅读的这篇文章，追问它出自谁手，似乎理所当然。为此，你可能会八卦一番作者履历，了解作者的一些背景，因作者身份能助你辨认他所写内容的权威性。譬如，对于此文，如果我的履历显示我任职于美国的一所大学的传播学教授，你可能会据此认定我谈论大语言模型相关的颠覆性事件是恰如其分的，甚至因此信任我的观点。毕竟，你已确认了“作者”的身份并发现他在此领域颇有建树。

来自主题: AI技术研报

8035 点击 2025-07-30 10:45

ICML25|标点符号竟是LLM记忆核心！正确处理性能暴涨

近年来，大语言模型（LLM）的能力越来越强，但它们的“饭量”也越来越大。这个“饭量”主要体现在计算和内存上。当模型处理的文本越来越长时，一个叫做“自注意力（Self-Attention）”的核心机制会导致计算量呈平方级增长。这就像一个房间里的人开会，如果每个人都要和在场的其他所有人单独聊一遍，那么随着人数增加，总的对话次数会爆炸式增长。

来自主题: AI技术研报

8415 点击 2025-07-29 12:29