斯坦福MIT天团出手!1美元养龙虾,图文视频全包,打工人神外挂

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
斯坦福MIT天团出手!1美元养龙虾,图文视频全包,打工人神外挂
7111点击    2026-04-02 10:40

别人还在卷单点能力,Agnes已经把文本Agent、图像、视频和办公自动化打包进开发者工具箱:1美元「养龙虾」,外加图像、视频、PPT一条龙,给出的不是零散的能力点,而是一整套AI生产力。


近日,Agnes旗下核心模型矩阵正式上线Zenmux平台(https://zenmux.ai/models?sort=newest),一口气开放四款主力模型调用,覆盖文本Agent与多模态生成两大核心方向。


其中包括Claw系列Agnes-1.5-LiteAgnes-1.5-Pro,以及多模态方向的Agnes-Image-1.2Agnes-Video-V1.2,直接把「文本+图像+视频」的整套能力打包上线。


更值得关注的是,上线首周模型调用量即快速攀升,已超过多家头部模型公司同类产品表现,显示出强劲的市场接受度与开发者活跃度,成为近期开发者侧增长最为迅猛的一组模型组合之一。


斯坦福MIT天团出手!1美元养龙虾,图文视频全包,打工人神外挂

Agnes模型矩阵在Zenmux正式上线


在行业普遍进入「性能+成本」双重竞争阶段的背景下,Agnes通过高性价比模型与完整工具链的组合,正在迅速打开开发者生态入口。


AgnesClaw

低至1美元的「养虾」入门神器


在OpenClaw热度持续攀升之际,Agnes将「Claw」接入自家App,AgnesClaw一键部署。


用户通过订阅会员(部分地区Starter新用户最低可低至1美元/月)即可免费部署并使用AgnesClaw,同时解锁平台全部高级功能,性价比极高。


AgnesClaw的入口前置到首页,用户一键部署完成后,在对话框中切换至AgnesClaw模式,即可体验「养龙虾」,整体学习体验成本极低。


AgnesClaw目前支持与Telegram绑定,后续接入更多平台,提供定时任务、长期记忆和skills库,包括Agnes预置常用skills(如PPT生成、表格处理、图像/视频生成、AI搜索、深度研究等)和开源skills。


部分AI应用由于底层模型能力的限制,可能存在无法安装或流畅运行特定skill组件的问题。


而Agnes官方表示,AgnesClaw凭借自研的「龙虾」基座模型与强大的工具调用适配能力,几乎可以无缝安装并使用绝大多数热门skills。


用户可以利用它创建定时任务、处理文件并整理为结构化文档、实现办公自动化等。


同时,AgnesClaw具备自我进化能力,通过上下文理解和记忆能力,在使用过程中能更好地理解用户习惯,从而更有效地协助完成任务。


斯坦福MIT天团出手!1美元养龙虾,图文视频全包,打工人神外挂

一键部署AgnesClaw


AgnesClaw的最大亮点在于自研的「龙虾」基座模型,这是赋予Agnes版本「龙虾」具备更强的理解力和skill适配能力的核心。


Agnes为用户高性价比「养龙虾」,专门推出了两款不同参数规模基于LLM优化的Agent模型,分别是Agnes-1.5-Pro模型Agnes-1.5-Lite模型


斯坦福MIT天团出手!1美元养龙虾,图文视频全包,打工人神外挂

PinchBench榜单中Agnes-1.5 系列模型在准确性维度表现突出


AgnesClaw定位「下一代极速多模态混合专家模型」,架构上融合了隐式MoE(Latent MoE)、Mamba-2状态空间模型与原生多模态早融合技术,旨在同时解决超长上下文、高频工具调用、复杂Multi-Agent协作三大痛点,打破传统「规模-延迟-记忆」三元悖论


根据全球权威「养虾」AI评测榜单PinchBench,Agnes-1.5-Pro模型在准确性维度表现突出,已跻身榜单前列,成为开发者「最佳养虾模型」选择之一。


斯坦福MIT天团出手!1美元养龙虾,图文视频全包,打工人神外挂


斯坦福MIT天团出手!1美元养龙虾,图文视频全包,打工人神外挂

PinchBench榜单


Agnes-Image-1.2

开源第一,闭源第二


本次发布中,Agnes 20B全新图像编辑模型Agnes-Image-1.2的表现超出预期。


根据官方公布的测试数据,该模型综合评分达到4.25分(满分5分),在闭源模型中仅次于NanoBananaPro的4.48分,超越了Seedream4.0和Seedream4.5,在开源模型中排名第一。


斯坦福MIT天团出手!1美元养龙虾,图文视频全包,打工人神外挂

全新图像模型综合评分达到4.25分(满分5分)


在单项指标上,Agnes-Image-1.2模型在人像维度提升尤为显著,针对人像场景的定向微调有效增强了面部细节保真、局部编辑可控性以及与背景的自然融合能力,Portrait从3.98提升至4.30(+0.32)。


同时,Extract(2.47→3.05,+0.58)与Viewpoint(2.82→3.17,+0.35)也有进一步提升,表明模型在目标区域分离与结构/几何稳定性方面更可靠,有助于复杂编辑任务的一致性表现。


完整模型家族

覆盖多模态全链路


除了Agnes-1.5-Pro与Agnes-1.5-Lite两款模型和Agnes-Image-1.2图像编辑模型,Agnes这次还亮出了更加完整的模型矩阵,包括搜索与研究模型、AI Slides模型、图片与视频生成模型。


在图片和视频生成领域,Agnes构建了完整模型体系,包括图像和视频模型。除了之前介绍的Agnes-Image-1.2(20B)模型,Agnes另外还有一款19B的Agnes-Video-V1.2视频生成模型。


据了解,Agnes-Video-V1.2可实现原生音画同步生成,支持图生视频和特定风格/角色的生成,可适配多种业务场景。


该模型采用双流音视频Transformer架构,能在同一模型中同时生成音频与视频,从而实现人物口型、动作与声音天然同步。模型经测试可在有限显存环境下运行,方便企业级规模化部署和个人开发者的本地实验。


在语言模型方面,Agnes针对自己的主推市场东南亚地区,推出了8B参数的东南亚小语种模型Agnes-SeaLLM,目前已成为该地区小语种理解与生成任务SOTA模型。


斯坦福MIT天团出手!1美元养龙虾,图文视频全包,打工人神外挂

东南亚小语种模型Agnes-SeaLLM


在信息处理和研究能力方面,Agnes发布了Agnes-Search(30B)模型和面向复杂研究任务的Agnes-DeepResearch(30B)模型。


前者在内部测试中实现78.6%的推理成本下降,生成速度提升18.6%;后者测试引用准确率为100%,基准测试准确率平均提升14.3%。


在办公自动化场景中,Agnes-Slides(30B)模型可以将网页或文档内容自动生成为PPT,通常1分钟即可生成15—20页演示文稿,平均生成成本低至约每页几美分。


模型后训练为主

RLAF框架减少人工依赖


在底层训练范式上,Agnes采用的是一整套连续演进的技术路径:从CPT(continuous pre-training,持续预训练)到PT(post-training,后训练),再到以自建RL(reinforcement learning)为核心的强化阶段,使模型能力可以持续迭代,而非一次性收敛。


更关键的是,他们把「进化」这件事,从模型层扩展到了Agent层。


在AgnesClaw体系中,Agent不仅调用skills,还可以在任务执行过程中通过反馈不断优化自身策略,实现智能体与skills的协同自进化。


这意味着,系统能力不再完全依赖预训练,而是在真实使用中持续变强。


支撑这套体系的,是一支高度国际化的研究团队——成员来自斯坦福、伯克利、MIT、NUS、NTU,以及清华、浙大、南大、东大等顶尖高校,核心科研带头人包括来自微软亚研院、英特尔研究院的首席科学家,以及高校教授与图灵奖得主门下研究者。


他们提出了一套名为RLAF(Reinforcement Learning with Agentic Feedback)的带智能反馈的新的强化学习框架,以减少对人工标注的依赖。该框架包含两个自研核心组件:


  1. DSPO(Dynamic-filter Sequence-level Policy Optimization):动态过滤序列级策略优化算法。官方数据显示,在同规模模型对比中,相比DeepSeek Search-R1 (GRPO,7B)实现34.1%的性能提升。
  2. UV(Universal Verifier):通用验证器,用智能评估器替换人工标注数据和人工定义的奖励机制。


在RLAF框架中,多个AI Agent会对模型输出进行自动评估,从逻辑一致性、事实准确性和任务完成度等多个维度生成反馈信号。


这种「AI训练AI」的方式,可以减少大量人工标注,从而降低训练成本并提升效率。


随着AI行业进入新一轮竞争阶段,成本效率正逐渐成为商业化成败的关键因素。而此次登陆Zenmux(https://zenmux.ai/models?sort=newest),某种程度上也是Agnes一个关键分水岭——


模型不再只是「榜单表现」,而是直接进入开发者真实调用与对比的第一线


从上线一周的调用表现来看,这套Claw+多模态组合已经开始改写一部分开发者的选择。


当越来越多模型走向平台化分发,真正能留下来的,或许不只是更强的参数规模,而是谁更便宜、谁更好用、谁更能被快速接入真实世界。


Agnes,显然正在把答案往这个方向推。


文章来自于"新智元",作者 "元宇"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

4
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner