
比自回归更灵活、比离散扩散更通用,首个纯Discrete Flow Matching多模态巨兽降临
比自回归更灵活、比离散扩散更通用,首个纯Discrete Flow Matching多模态巨兽降临王劲,香港大学计算机系二年级博士生,导师为罗平老师。研究兴趣包括多模态大模型训练与评测、伪造检测等,有多项工作发表于 ICML、CVPR、ICCV、ECCV 等国际学术会议。
王劲,香港大学计算机系二年级博士生,导师为罗平老师。研究兴趣包括多模态大模型训练与评测、伪造检测等,有多项工作发表于 ICML、CVPR、ICCV、ECCV 等国际学术会议。
近日, Mastra AI 创始人 Sam Bhagwat 在 X 上发布了一条推文,称其中提到大约 60~70% 的 YC X25 Agent 公司正在使用 TypeScript 构建他们的 AI Agent。
Decoder是由The Verge 主编 Nilay Patel 主持的深度访谈节目。在这一期中,Decoder邀请到了 Runway 联合创始人兼 CEO Cris Valenzuela,一位既是技术推动者,也是理想主义创作者的创业者
地产界,跑出一个Manus
Nature never undertakes any change unless her interests are served by an increase in entropy. 自然界的任何变化,唯有在熵增符合其利益时方会发生——Max Planck
数据公司收购热潮在周一持续升温,云数据平台Snowflake 宣布收购Postgres 数据库合作伙伴Crunchy Data。知情人士透露此次交易估值约为 2.5 亿美元。
刚刚,OpenAI 正式对外推出了 AI 编码神器 Codex,其目前向 ChatGPT Plus 用户开放。据悉,Codex 在限定时段内提供宽松的使用额度,但在需求高峰期间,可能会对 Plus 用户设置速率限制,以确保其能广泛可用。
在人工智能领域,跨模态生成(如文本到图像、图像到文本)一直是技术发展的前沿方向。现有方法如扩散模型(Diffusion Models)和流匹配(Flow Matching)虽取得了显著进展,但仍面临依赖噪声分布、复杂条件机制等挑战。
多模态大模型(MLLM)在静态图像上已经展现出卓越的 OCR 能力,能准确识别和理解图像中的文字内容。MME-VideoOCR 致力于系统评估并推动MLLM在视频OCR中的感知、理解和推理能力。
大模型巨无霸体量,让端侧部署望而却步?华为联手中科大提出CBQ新方案,仅用0.1%的训练数据实现7倍压缩率,保留99%精度。