
暂时不敢用deepseek写作了
暂时不敢用deepseek写作了DeepSeek刚出来的时候,确实把我惊到了。严密的推理,天马行空的想象,近乎无限的知识面,让我已经开始收拾铺盖准备给AI老爷腾地方。但随着使用增加,我发现,它的文风太有辨识度了。
DeepSeek刚出来的时候,确实把我惊到了。严密的推理,天马行空的想象,近乎无限的知识面,让我已经开始收拾铺盖准备给AI老爷腾地方。但随着使用增加,我发现,它的文风太有辨识度了。
谷歌把推理大模型带入物理世界,机器人可以一边思考一边动作了!
最新研究显示,以超强推理爆红的DeepSeek-R1模型竟藏隐形危险——
近些年,大模型的发展可谓是繁花似锦、烈火烹油。从 2018 年 OpenAI 公司提出了 GPT-1 开始,到 2022 年底的 GPT-3,再到现在国内外大模型的「百模争锋」,DeepSeek 异军突起,各类大模型应用层出不穷。
大语言模型(LLM)在推理领域的最新成果表明了通过扩展测试时计算来提高推理能力的潜力,比如 OpenAI 的 o1 系列。
号称地表最强的M3 Ultra,本地跑满血版DeepSeek R1,效果到底如何?
开年以来,DeepSeek的梁文锋、Manus的肖弘,成为中国AI圈冉冉升起的新星。培养他们的母校浙江大学和华中科技大学也一并沾光。
就在刚刚,谷歌Gemma 3来了,1B、4B、12B和27B四种参数,一块GPU/TPU就能跑!而Gemma 3仅以27B就击败了DeepSeek 671B模型,成为仅次于DeepSeek R1最优开源模型。
Hugging Face的Open R1重磅升级,7B击败Claude 3.7 Sonnet等一众前沿模型。凭借CodeForces-CoTs数据集的10万高质量样本、IOI难题的严苛测试,以及模拟真实竞赛的提交策略优化,这款模型展现了惊艳的性能。
大语言模型长序列文本生成效率新突破——生成10万Token的文本,传统自回归模型需要近5个小时,现在仅需90分钟!