
腾讯押注非Transformer!推理模型混合Mamba也能搞,深度思考也能秒回
腾讯押注非Transformer!推理模型混合Mamba也能搞,深度思考也能秒回首个基于混合Mamba架构的超大型推理模型来了!就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——
首个基于混合Mamba架构的超大型推理模型来了!就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——
奥特曼表示,DeepSeek是一支优秀的团队,“给我上了一课”,并让奥特曼重新思考到底应该为免费用户提供什么功能。同时,奥特曼还剧透,未来的GPT-5将会向免费用户开放。
估计AI行业又要躁动一会了。最近,据官方消息披露,前DeepSeek核心成员出去创业了。更准确地说,是原幻方量化(DeepSeek母公司)的核心成员——项国明,出去创立了一家新公司,名叫迪洛斯智能,主攻企业AI应用平台。
DeepSeek、通义千问等大模型 + AR眼镜,打开GTC老黄演讲的姿势,可以是这样:
随着硅基流动的 SiliconCloud 等平台上线 DeepSeek-R1,市面上出现了不少测试各大厂商 API 服务的评测文章及反馈,不过,从我们收到的不少内容及反馈来看,其中的对比测试方式多有漏洞,内容质量参差不齐。
不是四折叠,余承东刚刚揭秘了华为“想不到的新产品”—— 16:10“阔形屏”折叠手机Pura X!
大家好,最近感觉有点AI编程搞产品上瘾了😂。这次主要想和大家分享第二个小产品 art4kid.com 过程中遇到的挑战和收获。这个产品也是通过AI编程完成的,我所做的主要就是把握方向,发现问题,让AI思考问题发生原因然后解决问题,还有提供一些视觉。
一个超越DeepSeek GRPO的关键RL算法出现了!这个算法名为DAPO,字节、清华AIR联合实验室SIA Lab出品,现已开源。禹棋赢,01年生,本科毕业于哈工大,直博进入清华AIR,目前博士三年级在读。去年年中,他以研究实习生的身份加入字节首次推出的「Top Seed人才计划」。
比DeepSeek-R1贵270倍,OpenAI史上最贵模型来了!
DeepSeek 掀翻了国内大模型领域原本搭好的台,各个大厂都在重新找位置,腾讯选择了通过一系列「闪电战」式的部署,展示战略决心。