成本不到150元!李飞飞等26分钟训出个推理模型,媲美o1和R1,秘诀:用蒸馏
成本不到150元!李飞飞等26分钟训出个推理模型,媲美o1和R1,秘诀:用蒸馏成本不到150元,训练出一个媲美DeepSeek-R1和OpenAI o1的推理模型?!这不是洋葱新闻,而是AI教母李飞飞、斯坦福大学、华盛顿大学、艾伦人工智能实验室等携手推出的最新杰作:s1。
搜索
成本不到150元,训练出一个媲美DeepSeek-R1和OpenAI o1的推理模型?!这不是洋葱新闻,而是AI教母李飞飞、斯坦福大学、华盛顿大学、艾伦人工智能实验室等携手推出的最新杰作:s1。
又双标?据路透社最新消息,澳大利亚政府以所谓“担心安全风险”为由,周二宣布已禁止在所有政府设备中使用DeepSeek。
就在今天,OpenAI紧跟着谷歌Gemini 2.0的发布,把ChatGPT Search给全面开放了。不需要注册登录,用法和传统搜索引擎一样。
周日晚间,五位高校教授夜话DeepSeek,从模型方法、框架、系统、基础设施等角度,阐述DeepSeek的技术原理与未来方向,揭秘其优化方法如何提升算力能效,信息量很大。
AI有了意识可能会遭受痛苦?来自伦敦大学、耶鲁等世界顶尖学府百位专家,联手签署了一封公开信。当机器不再是冰冷的代码,而是拥有情感的存在,人类会怎么做?
DeepSeek会是国内首个挑战ChatGPT,重塑AI助手现有格局的产品吗?从产品数据来看,值得期待。在APP端,DeepSeek上线半个月,就在新增下载量上超越了ChatGPT,并将百万级的领先优势持续至今。截至2月5日,DeepSeek的全球下载量已接近4000万。
本文作者为北京邮电大学网络空间安全学院硕士研究生倪睿康,指导老师为肖达副教授。主要研究方向包括自然语言处理、模型可解释性。该工作为倪睿康在彩云科技实习期间完成。联系邮箱:ni@bupt.edu.cn, xiaoda99@bupt.edu.cn
以 GPT-4o 为代表的实时交互多模态大模型(LMMs)引发了研究者对高效 LMM 的广泛关注。现有主流模型通过将视觉输入转化为大量视觉 tokens,并将其嵌入大语言模型(LLM)上下文来实现视觉信息理解。
本周四消息,去年刚刚加入知名 AI 创业公司 Anthropic 的 OpenAI 联合创始人约翰・舒尔曼 (John Schulman) 已辞去这家人工智能初创公司的职务。
本周三,该公司全面发布 Gemini 2.0 Flash、 Gemini 2.0 Flash-Lite 以及新一代旗舰大模型 Gemini 2.0 Pro 实验版本,并且还在 Gemini App 中推出了其推理模型 Gemini 2.0 Flash Thinking。
国内首个自研万卡集群,刚刚成功点亮!国产AI的高价门槛直接被打下来了。在百度智能云平台上,DeepSeek R1和V3的官方价格直接低至五折和三折,基本实现全网最低。
也该收收心开始写公号了,最近大家也看到我发的视频了,一直在摸索通义的文生导演模式,那么也有很多观众老爷问,通义有导演模式?我怎么没找到,在这里雪佬一并回复大家,通义其实是没有导演模式的,或者说暂时没有,看到这,友友们又会接着发问,那么你说到导演模式,究竟是个什么东西?
我躺平过了一个很悠闲的年,相信大家最近都被"Deepseek"和"哪吒"这两个关键词刷屏整烦了吧,哈哈。 已经有太多人从各个角度花式对Deepseek进行分析了,技术层面我也不擅长,就资本市场的角度再多说几句。
还记得半年前在 X 上引起热议的肖像音频驱动技术 Loopy 吗?升级版技术方案来了,字节跳动数字人团队推出了新的多模态数字人方案 OmniHuman, 其可以对任意尺寸和人物占比的单张图片结合一段输入的音频进行视频生成,生成的人物视频效果生动,具有非常高的自然度。
英伟达卡内基梅隆大学一起,给宇树机器人“一雪前耻”了(doge)。只通过一个训练框架,机器人就能成为“学人精”,完成各种高难度敏捷动作。
一个年过完,许多人的微信里都多了一个好友。与一些陪伴大家多年从不回复的沉默工具号不一样,这是一个事事有回应的AI助手。
最近在网上看多一个说法:中国“AI三杰”都是广东人,但都没有在广东创业和发展。 网友口中的“AI三杰”指的是DeepSeek的创始人梁文锋、Kimi创始人杨植麟、人工智能领域的杰出科学家何恺明.公开资料显示,这三位蜚声全球的AI大牛都很年轻,其中两个是80后、一个是90后,一个在杭州上大学和创业,一个在北京上大学和创业,另一个在美国MIT任教。
随着计算性能不断提升,技术融合趋势愈发显著,人工智能、机器人技术、储能技术、公共区块链和多组学测序这五个创新平台正重塑各个行业。在AI投资方面,木头姐明确表示她正在远离硬件和基础设施,加倍投资软件。
“垃圾进,垃圾出!”在中文互联网上,一场针对国产AI技术的恶意攻击正在悄然蔓延。某些自媒体以“污染中文互联网”为名,对DeepSeek等国产大语言模型发起了一场看似正义、实则荒谬的讨伐。他们将“幻觉”这一技术术语污名化,试图用莫须有的罪名抹黑国产AI的进步。
由chatGPT引发的大模型热潮迈入第三年,不少年轻人在这两年返乡中渐渐发现,AI正成为县城「银发人群」的新搭子。
记者从多方获悉,全球顶尖人工智能科学家许主洪教授(Steven Hoi)正式加入阿里巴巴,出任阿里集团副总裁,负责AI To C业务的多模态基础模型及Agents相关基础研究与应用解决方案。
宠物大模型健康公司重庆绮算法科技有限公司(以下简称“绮算法”) 作为智谱Z计划企业,近日获得千万元级战略投资,由Z基金独投,融得资金将主要用于产品研发和商业化落地。源合资本担任独家财务顾问,负责后续融资。
在当前AI领域的快速发展中,“强推理慢思考”已经成为主要的发展动向之一,它们深刻影响着研发方向和投资决策。如何将强推理慢思考进一步推广到更多模态甚至是全模态场景,并且确保和人类的价值意图相一致,已成为一个极具前瞻性且至关重要的挑战。
诚如我们在《Deepseek的意义、价值与影响》中所阐述的那样,开源模型Deepseek的率先冲线,标志着 “机器智能寒武纪时刻”的启动,产业即将因此进入应用创新大爆发周期。
36氪获悉,「乐享科技」于近期完成天使轮融资本轮融资由IDG资本领投,Monolith、经纬创投、真格基金、红杉种子基金、绿洲资本跟投,融资总金额接近2亿元人民币,投后估值约为6亿元
这个春节,我的手机已经彻底被DeepSeek占领了,曾几何时,区块链,虚拟货币,AR,VR一堆的新兴概念搞得一群人几乎陷入疯狂,结果现在因为多了一个新的人工智能模型,又有一群人肾上腺素飙升,嗨了。但我劝大家静一静,因为,这未必是好事儿。
2月5日,彭博社报道,韩国代理总统崔相穆周三表示,DeepSeek的最新人工智能模型有可能重塑产业格局,并预测说,“这是一个新的冲击”。韩国政府将尽快成立一个“国家人工智能委员会”,以使韩国成为全球三大人工智能领先国家之一。
AI发展日新月异,未来扑朔迷离。近日,Web框架Django之父Simon Willison,预测了未来1、3、6年不同阶段的AI发展以及影响。
最近,一位哈佛教授痛心疾首地曝出,DeepSeek本来有机会诞生在美国?原本DeepSeek的工程师可以拿到英伟达的全职offer,美国却没有将他留住,导致「钱学森回国」的故事再一次上演,美国跟「国运级AI」擦肩而过!
2024年11月,艾伦人工智能研究所(Ai2)推出了Tülu 3 8B和70B,在性能上超越了同等参数的Llama 3.1 Instruct版本,并在长达82页的论文中公布其训练细节,训练数据、代码、测试基准一应俱全。