
北大DeepSeek论文或预定ACL Best Paper!梁文锋署名
北大DeepSeek论文或预定ACL Best Paper!梁文锋署名北大DeepSeek联合发布的NSA论文,目前已被ACL 2025录用并获得了极高评分,甚至有望冲击最佳论文奖。该技术颠覆传统注意力机制,实现算力效率飞跃,被誉为长文本处理的革命性突破。
北大DeepSeek联合发布的NSA论文,目前已被ACL 2025录用并获得了极高评分,甚至有望冲击最佳论文奖。该技术颠覆传统注意力机制,实现算力效率飞跃,被誉为长文本处理的革命性突破。
部署超大规模MoE这件事,国产芯片的推理性能,已经再创新高了—— 不仅是“英伟达含量为0”这么简单,更是性能全面超越英伟达Hopper架构!
当技术范式重构,强者也不得不重新起跑。
每次更换语言模型就要重新优化提示词?资源浪费且效率低下!本文介绍MetaSPO框架,首个专注模型迁移系统提示优化的元学习方法,让一次优化的提示可跨模型通用。我在儿童教育场景的实验验证了效果:框架自动生成了五种不同教育范式的系统提示,最优的"苏格拉底式"提示成功由DeepSeek-V3迁移到通义千问模型,评分从0.3920提升至0.4362。
ChatGPT悄悄上线的直连Github新功能太强大!一旦连上Github,立马化身「研究怪兽」:不管是DeepSeek这样的明星开源项目,还是自己DIY的文档资料,只要放进仓库,就能交给深度研究,一键生成专业到飞起的报告。
最近,人们对AI谈得最多的是deepseek(简称DS)。这匹来自中国本土的黑马,闯入全球视野,一度扰乱美国股市,在 AI 领域掀起了一场轩然大波。
梁文锋亲自参与的DeepSeek最新论文,来了!
打破科技巨头算力垄断,个人开发者联手也能训练超大规模AI模型?
大型推理模型(如 OpenAI-o1、DeepSeek-R1)展现了强大的推理能力,但其静态知识限制了在复杂知识密集型任务及全面报告生成中的表现。为应对此挑战,深度研究智能体 WebThinker 赋予 LRM 在推理中自主搜索网络、导航网页及撰写报告的能力。
随着DeepSeek的横空出世,行业竞争加剧,无论是AI原生企业还是转型中的互联网巨头,都面临战略路径的重新校准。这一现象引发了行业的连锁反应:一方面,头部企业加速产品迭代和推广;另一方面,部分企业由于战略失误和反应缓慢开始面临用户流失风险。在这样的竞争环境下,企业的战略选择显得尤为关键。成功的AI公司通常具备三大核心能力:精准的战略定位、快速的调整能力以及高效的执行落地。