
Qwen开源首个长文本新模型,百万Tokens处理性能超GPT-4o-mini
Qwen开源首个长文本新模型,百万Tokens处理性能超GPT-4o-mini谈到大模型的“国货之光”,除了DeepSeek之外,阿里云Qwen这边也有新动作——首次将开源Qwen模型的上下文扩展到1M长度。
谈到大模型的“国货之光”,除了DeepSeek之外,阿里云Qwen这边也有新动作——首次将开源Qwen模型的上下文扩展到1M长度。
AI模型可能并没有想象中强大。在最新的AI基准测试「人类最后一次考试」中,所有顶尖LLM通过率不超过10%,而且模型都表现得过度自信。
DeepSeek 20 日发布以来获得的热度至今依然没有任何消退的迹象。一觉醒来,DeepSeek 发布的 iOS 应用甚至超越了 ChatGPT 的官方应用,直接登顶 AppStore。
梁文锋,一个出生于广东五线城市的80后,父亲是一名小学老师。尽管家境平凡,他却凭借卓越的才智和不懈的努力,书写了一段非凡的人生篇章。自小便对数学和计算机科学展现出浓厚兴趣的梁文锋,17岁那年以优异的成绩考入了浙江大学,主修软件工程,专攻人工智能方向。大学期间,他不仅学业优异,还积极参与科研项目,为自己的未来奠定了坚实的基础。
就在刚刚,网上已经出现了一波复现DeepSeek的狂潮。UC伯克利、港科大、HuggingFace等纷纷成功复现,只用强化学习,没有监督微调,30美元就能见证「啊哈时刻」!全球AI大模型,或许正在进入下一分水岭。
在刚刚成立的一年多时间里,DeepSeek一直不声不响,V2模型的发布成为其破圈的关键。由于模型结构层面的突破性创新,使得其将模型成本大大降低,也被业内戏称为AI届拼多多。这之后,DeepSeek也真正引发了硅谷的恐慌,OpenAI正迎来一个最强劲的对手。
就在本周,Kimi 的新模型打开了强化学习 Scaling 新范式,DeepSeek R1 用开源的方式「接班了 OpenAI」,谷歌则把 Gemini 2.0 Flash Thinking 的上下文长度延伸到了 1M。1 月 24 日上午,百川智能重磅发布了国内首个全场景深度思考模型,把这一轮军备竞赛推向了高潮。
“神秘东方力量”DeepSeek给硅谷带来的影响,还在不断泛起涟漪——刚刚,DeepSeek-R1跻身大模型竞技榜前三。以开源、便宜20倍的“身价”与ChatGPT-4o(2024.11.20)并列。
Meta这次真的坐不住了,计划在AI上继续加码!匿名员工爆料,黑马DeepSeek的出现,让Llama 4还未发布就已经落后,Meta慌了。
OpenAI的新Scaling Law,含金量又提高了。