原神Agent,字节出品Lumine
原神Agent,字节出品Lumine糟糕!现在Agent也会这招了:原神,启动!咳咳,这其实是字节最新手搓出来的原神Agent——Lumine。不仅在《原神》里玩得很6,跑图开荒以及动辄几个小时的长主线任务,Lumine都能自己搞定,而且水平还不菜。
糟糕!现在Agent也会这招了:原神,启动!咳咳,这其实是字节最新手搓出来的原神Agent——Lumine。不仅在《原神》里玩得很6,跑图开荒以及动辄几个小时的长主线任务,Lumine都能自己搞定,而且水平还不菜。
最大的时代红利,属于今年四季度发布的中美两大明星产品,OpenAI 的 Sora 2 与阿里的 Wan2.5-Preview。其中,Sora 2 的登场堪称一场教科书级的营销战役。熟悉的邀请码机制再次奏效,用户为了获得一个入场券除了需要购买 GPT 的会员之外,甚至还在二手平台再花几十美金购买邀请码。更绝的是,它把自己变成了一个 AI 版抖音,
最近,一个视频在推上传疯了。
今天推荐一个 Dense Image Captioning 的最新技术 —— CapRL (Captioning Reinforcement Learning)。CapRL 首次成功将 DeepSeek-R1 的强化学习方法应用到 image captioning 这种开放视觉任务,创新的以实用性重新定义 image captioning 的 reward。
上海人工智能实验室发布新一代文档解析大模型——MinerU2.5。作为MinerU系列最新成果,该模型仅以1.2B参数规模,就在OmniDocBench、olmOCR-bench、Ocean-OCR等权威评测上,全面超越Gemini2.5-Pro、GPT-4o、Qwen2.5-VL-72B等主流通用大模型,以及dots.ocr、MonkeyOCR、PP-StructureV3等专业文档解析工具。
Veo 3真正对手,竟不是Sora 2!通义万相2.5全网首发,直接甩出王炸:一句话,直出10秒1080P电影级视频,首次实现音画精准同步。一键生成BGM、人声,全网实测玩疯。
夸克“造点”AI发布了!直接上大招,Wan2.5+Midjourney V7双强模型联合!夸克“造点”还在今天第一时间,率先接入了阿里自家刚刚发布的视频生成模型通义万相Wan2.5,甚至直接开放了7天免费体验。
挑战自回归的扩散语言模型刚刚迎来了一个新里程碑:蚂蚁集团和人大联合团队用 20T 数据,从零训练出了业界首个原生 MoE 架构扩散语言模型 LLaDA-MoE。该模型虽然激活参数仅 1.4B,但性能可以比肩参数更多的自回归稠密模型 Qwen2.5-3B,而且推理速度更快。这为扩散语言模型的技术可行性提供了关键验证。
来自斯坦福的研究者们最近发布的一篇论文(https://arxiv.org/abs/2509.01684)直指RL强化学习在机器学习工程(Machine Learning Engineering)领域的两个关键问题,并克服了它们,最终仅通过Qwen2.5-3B便在MLE任务上超越了仅依赖提示(prompting)的、规模更大的静态语言模型Claude3.5。
AI视频生成正在迎来“通义时刻”! 就在昨夜,阿里突然发布了一款由音频驱动的14B视频模型Wan2.2-S2V—— 仅需一张图片和一段音频,即可生成面部表情自然、口型一致、肢体动作丝滑的电影级数字人视频。