混元OCR模型核心技术揭秘:统一框架、真端到端
混元OCR模型核心技术揭秘:统一框架、真端到端腾讯混元大模型团队正式发布并开源HunyuanOCR模型!这是一款商业级、开源且轻量(1B参数)的OCR专用视觉语言模型,模型采用原生ViT和轻量LLM结合的架构。目前,该模型在抱抱脸(Hugging Face)趋势榜排名前四,GitHub标星超过700,并在Day 0被vllm官方团队接入。
腾讯混元大模型团队正式发布并开源HunyuanOCR模型!这是一款商业级、开源且轻量(1B参数)的OCR专用视觉语言模型,模型采用原生ViT和轻量LLM结合的架构。目前,该模型在抱抱脸(Hugging Face)趋势榜排名前四,GitHub标星超过700,并在Day 0被vllm官方团队接入。
越来越多的AI产品开始在增长策略上密集试验。有的继承了移动互联网时代的经典打法,有的则挖掘出AI技术本身的独特能力。有搞出了AI版砍一刀,让用户和AI斗智斗勇把价格从49砍到0.99。
Google 前天发布了 Antigravity,一款号称“下一代 agentic 开发平台”的全新 IDE。官方宣传强调它能规划、执行、验证整个开发流程,似乎代表着 AI 编程进入了新的阶段。然而,最早一批上手使用的开发者却纷纷吐槽:任务跑着跑着就因“模型过载”中断,信用额度几十分钟内耗尽,连完整测试都难以完成,体验堪称“开局即崩”。
刚刚,一个名为 Whisper Thunder (aka) David 的神秘模型登上了 Artificial Analysis 视频榜榜首,超越了 Veo 3、Veo 3.1、Kling 2.5 以及 Sora 2 Pro 等目前市面上所有公开的 AI 视频模型。
今年 6 月,AI 玩具赛道上热度很高的“芙崽 Fuzozo”(下文统一简称 Fuzozo)正式上线京东开卖,这个毛绒绒的挂饰吸引不少消费者,目前 Fuzozo 在京东 AI 玩具热卖榜上位列第二,据商业观察媒体“豹变”调查到的数据显示,Fuzozo 的月销量可达 2 万台以上。
大无语事件天天有,今天特别多——AI大模型公司阶跃星辰的研究员,自曝被苹果挂在arXiv上的论文,狠狠坑了一把。自己去反馈问题,对方简单回了两句就把issue关了;直到自己留下公开评论,对方才撤稿下架代码了。
地面上的算力“内卷”,终于突破了大气层的束缚。前脚,装有英伟达H100的Starcloud-1卫星搭乘SpaceX的猎鹰9号火箭成功进入轨道,迈出构建“太空超算”的关键一步。谷歌紧随其后,火速披露了部署搭载TPU卫星集群的“太阳捕手”计划(Project Suncatcher)。
“爸,门口有个流浪汉,说认识你。”Joe给正在上班的父亲发去一张图片,是一个胡子拉碴的陌生男人站在门口,父亲称并不认识这个人,“他想做什么?”“他说你们俩曾经一起上学,我请他进来了。”之后,Joe又陆续给父亲发去了这个貌似流浪汉的陌生人在翻家里的冰箱、用父亲的牙刷刷牙、甚至在父亲床上睡觉的图片……
在AI数据中心里,数以万计的英伟达H100 GPU,正静静地躺在地上吃灰。这些单价3万美元、被黄仁勋称为「工业黄金」的芯片,本该全速运转,为GPT-5或Sora注入灵魂,但此刻——它们没有电。
人工智能在过去的十年中,以惊人的速度革新了信息处理和内容生成的方式。然而,无论是大语言模型(LLM)本体,还是基于检索增强生成(RAG)的系统,在实际应用中都暴露出了一个深层的局限性:缺乏跨越时间的、可演化的、个性化的“记忆”。它们擅长瞬时推理,却难以实现持续积累经验、反思历史、乃至真正像人一样成长的目标。