美团AI新品,专为程序员配送:不挑Python还是C++
美团AI新品,专为程序员配送:不挑Python还是C++太密了。
太密了。
AI IDE这个赛道,又挤进来一个重量级选手:美团。美团最近悄悄上线了他们自研的首款AI IDE:CatPaw。我下载下来,打开一看,好家伙,这界面,这布局,这交互逻辑,跟Cursor太像了。
11 月 2 日,英伟达首次把 H100 GPU 送入了太空,参阅报道《英伟达发射了首个太空 AI 服务器,H100 已上天》。而刚刚谷歌宣布,他们也要让 TPU 上天。
昨天一大早,就发现美团开源了他们首款全模态实时交互大模型:LongCat-Flash-Omni。
用外卖的打法做AI模型?美团这是跟“又快又稳”杠上了(doge)。
直到我看到 Dedalus Labs 宣布完成 1100 万美元种子轮融资的消息,才意识到有人正在系统性地解决这个问题。这家由 Cathy Di 和 Windsor Nguyen 创立的公司,正在构建一个基础设施层,让开发者能够用 5 行代码就搭建起一个功能完整的 AI agent。这不是夸张的营销话术,而是他们真正在做的事情。
美团,你是跨界上瘾了是吧!(doge)没错,最新开源SOTA视频模型,又是来自这家“送外卖”的公司。模型名为LongCat-Video,参数13.6B,支持文生/图生视频,视频时长可达数分钟。
当前的训练与评测范式存在一个根本性的局限:几乎所有主流 Benchmark(如 MATH500、AIME)都聚焦于孤立的单步问题,问题之间相互独立,模型只需「回答一个问题,然后结束」。但真实世界的推理场景往往截然不同: 为填补这一空白,复旦大学与美团 LongCat Team 联合推出 R-HORIZON—— 首个系统性评估与增强 LRMs 长链推理能力的方法与基准。
美团LongCat团队发布了当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench(Versatile Interactive Tasks Benchmark)。VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为典型载体,构建了一个包含66个工具的交互式评测环境,并设计了跨场景综合任务。
Sora2太卷了。居然能预测ChatGPT的输出、渲染HTML?!让它模拟“给ChatGPT发信息”,它不仅生成了画面,还来了一段有问有答的“交互”。先是编了一个问题:Write a playful haiku about a cat staring out the window.(写一首关于猫凝视窗外的俏皮俳句。)