
真实场景文档理解:字节发布的WildDoc基准数据集向OCR提出了什么挑战?
真实场景文档理解:字节发布的WildDoc基准数据集向OCR提出了什么挑战?最近,字节跳动团队联合华中科技大学发布的基准数据集 WildDoc 引起了对 OCR 能力的再衡量。
最近,字节跳动团队联合华中科技大学发布的基准数据集 WildDoc 引起了对 OCR 能力的再衡量。
字节AI大牛杨建朝离职的消息在互联网上不胫而走。甚至离职原因都很具体,因为无法顾及北美和国内两边的工作,身心疲劳,压力太大,也有人说是退休。至少两位接近字节的人士告诉《白鲸实验室》,目前仍能在字节后台查到杨建朝的个人信息。
如果细究DeepSeek开源席卷的行业巨变,云厂商无疑是最适合讲述AI故事的主角。几个月过去,分析师们迫切地想检验这场新变革的成果,纷纷在5月各家大厂召开的财报电话会议上追问进展。
国内大厂探索AI变现呈现四类方式:模型产品(订阅)、模型服务(MaaS)、AI功能嵌入主业、算力基础设施。百度、阿里、腾讯、华为处于第一梯队,AI显著拉动营收增长;快手、字节、美图属第二梯队,AI提效主业或打造爆款应用初见成效;科大讯飞、昆仑万维尚处投入期。虽部分路径初步盈利,但巨额研发投入远超当前回报,尚无企业实现AI正现金流,技术投入更多带来市值提升效应。
图像生成、视频创作、照片精修需要找不同的模型完成也太太太太太麻烦了。 有没有这样一个“AI创作大师”,你只需要用一句话描述脑海中的灵感,它就能自动为你搭建流程、选择工具、反复修改,最终交付高质量的视觉作品呢?
大模型时代,没人愿意缺席AI+医疗。
腾讯的CodeBuddy、字节的Trea、现在阿里的通义灵码,中国互联网的三大巨头在AI编程领域集结完毕,明显就是要从老美的Cursor手中抢回中国客户。
字节跳动开源了一个口碑还不错的模型——BAGEL (ByteDance Agnostic Generation and Empathetic Language model), 一个统一多模态基础模型。啥叫“统一”?一个模型就能同时理解和生成文本、图像、视频!
过度依赖CoT思维链推理会降低模型性能,有新解了! 来自字节、复旦大学的研究人员提出自适应推理框架CAR,能根据模型困惑度动态选择短回答或详细的长文本推理,最终实现了准确性与效率的最佳平衡。
5 月 28 日,有消息称字节跳动发布最新内部邮件,宣布将逐步禁用包括 Cursor、Windsurf 在内的第三方 AI 开发软件,转而推广自研编程助手 Trae 作为替代方案。邮件由字节跳动安全与风控部门发出,称此举是出于防范数据泄露风险的考虑,自 6 月 30 日起将分批在内部实施相关禁用措施。