
豆包为什么要给 AI 助手「开眼」?
豆包为什么要给 AI 助手「开眼」?当 AI 同时拥有了耳朵和眼睛,在未来硬件创新的支持下,还将解放更大的创新潜力。
当 AI 同时拥有了耳朵和眼睛,在未来硬件创新的支持下,还将解放更大的创新潜力。
字节最近真的猛猛开源啊……这一次,他们直接开源了GPT-4o级别的图像生成能力。不止于此,其最新融合的多模态模型BAGEL主打一个“大一统”, 将带图推理、图像编辑、3D生成等功能全都集中到了一个模型。
普林斯顿大学与字节 Seed、北大、清华等研究团队合作提出了 MMaDA(Multimodal Large Diffusion Language Models),作为首个系统性探索扩散架构的多模态基础模型,MMaDA 通过三项核心技术突破,成功实现了文本推理、多模态理解与图像生成的统一建模。
企业把 AI 用好这件事,未必从宏大之处搞刀削斧琢,最应该从微末之处推动「化学反应」。
DeepSeek依旧牢牢占据中国AI产品访问量第一的宝座,其月访问量甚至超过其他几款主流产品的总和。相比之下,腾讯「元宝」和「Kimi」的流量则出现明显下滑,环比降幅超过20%。在广告投放趋于保守之后,用户增长逐步放缓,流量更加依赖产品本身的可用性和用户黏性。
周末和一位在字节做视频 Agent 的 PM 聊天,想到了一个好问题。
今天,我们很高兴邀请到了王登科。
深谙“整合”之道的字节,又做了件大事。
和人工标记数据说拜拜,利用预训练语言模型中的注意力机制就能选择可激发推理能力的训练数据!
R1 横空出世,带火了 GRPO 算法,RL 也随之成为 2025 年的热门技术探索方向,近期,字节 Seed 团队就在图像生成方向进行了相关探索。