给6个AI各发10万美元炒股半年,大部分跑赢了大盘

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
给6个AI各发10万美元炒股半年,大部分跑赢了大盘
7509点击    2026-04-07 11:04

给6个AI各发10万美元炒股半年,大部分跑赢了大盘


一家叫 Rallies Arena 的团队,6 个月前干了一件事:给 6 个主流大模型各发了 10 万美元,让它们在真实股票市场上自己做研究、自己下单、自己管仓位。


结果呢?大部分模型跑赢了大盘。


不是模拟盘,不是回测,是真金白银。这篇帖子在 X 上拿到了 18.7 万次浏览,65 个赞。数字不算爆,但内容含金量很高——因为他们不只是跑了一个实验,还把实验的结论变成了一个产品:AI Hedge Fund。


给6个AI各发10万美元炒股半年,大部分跑赢了大盘

Rallies Arena 的 AI Hedge Fund 项目 Logo


01 实验设计


实验的核心思路很简单:把大模型当基金经理用。每个模型拿到 10 万美元的初始资金,接入尽可能多的金融数据源,然后像真正的基金经理一样——先研究,再下单。不是让它拍脑袋买,而是让它花大量时间做功课。


具体来说,团队给每个模型接入了一整套工具链:


SEC 文件向量搜索、分析师评级数据、多时间周期的实时 K 线图(通过视觉 API 让模型"看"图)、历史基本面数据、Reddit 舆情趋势、宏观经济指标、实时新闻,以及组合管理和执行系统。


这就好比你雇了一个分析师,给他 Bloomberg 终端、路透社、SEC 数据库和所有你能买到的数据订阅——然后说:去吧,帮我赚钱。


区别是,这个分析师是 GPT、Claude、Gemini 和 Qwen。


这里有个细节很关键:团队说他们在系统提示词和工具调用上迭代了几百次。也就是说,不是简单地把模型接上数据就完事了,而是要反复调教——什么时候该搜 SEC 文件、什么时候该看 K 线图、什么时候该查 Reddit 舆情,这些"何时用什么工具"的决策逻辑,本身就是一门学问。


这有点像训练一个新入职的分析师——光有能力不够,你还得教他工作方法。


02 模型的性格


最有意思的发现是:不同的大模型在投资时表现出截然不同的"性格"。


Qwen 系列模型是典型的赌徒型选手——它会把所有资金压在一个仓位上,而且非常固执,不肯认错。你可能觉得这是大模型"幻觉"的一种表现,但在投资场景里,这种行为直接等于满仓梭哈,输赢全看运气。


Claude 则表现得更像一个老练的基金经理。它会主动管理仓位,在市场变化时及时调整,不会死扛。团队特别提到 Claude 在"主动管理"(proactive position management)方面表现突出。


而 GPT 的风格介于两者之间。来看一个它真实的交易推理:


给6个AI各发10万美元炒股半年,大部分跑赢了大盘


GPT 模型买入 GOOGL 的完整推理过程:从宏观判断到个股分析,最终以 286.64 美元建仓


注意它的推理链:先判断宏观环境("高利率持续,市场广度不足"),再分析个股基本面(Alphabet 运营利润率约 32%,营收增长约 15%,ROE 约 32%,季度自由现金流约 200 亿美元),然后注意到技术面的窗口(30 天下跌约 9%,年初至今下跌约 13%),最后得出结论:在弱势中买入优质资产,而非在狂热中追涨。


这套逻辑,说实话,比很多散户强多了。


如果用一句话总结各模型的投资风格:Qwen 是赌场玩家,Claude 是基金经理,GPT 是研究员。它们的差异不在智力水平上,而在"风险偏好"上——而这种偏好,很可能是被训练数据和微调策略隐性塑造的。


这个发现本身就很有价值。它意味着选择哪个模型来做投资决策,不仅仅是一个"谁更聪明"的问题,更是一个"谁的性格适合这个任务"的问题。


03 半年成绩


关键数据来了。在这半年的实盘测试中,除了 GPT 之外,其他闭源模型都跑赢了大盘。有些甚至拉开了明显差距。


团队自己也说,半年的时间还太短,不能下结论。但它至少证明了一件事:大模型配上足够的数据工具,在投资决策上不是玩具级别的。


值得一提的是,GPT 虽然整体没跑赢大盘,但它的个股分析能力并不差。上面那个 GOOGL 的交易,买入价 286.64 美元,目前已经浮盈 3.18%。说明 GPT 的问题可能不在选股,而在仓位管理和择时。


这其实揭示了一个有意思的规律:在投资中,选对股票只是成功的一半,另一半是仓位控制和交易时机。很多散户也是这样——分析得头头是道,但一操作就亏钱。AI 模型也不例外。


04 工具为王


团队反复强调一个观点:模型的能力上限取决于你给它什么工具。


如果你直接让 GPT 或 Claude 去炒股,它做不了。因为它没有实时数据——它只能用网上搜到的过时信息,根本碰不到 SEC 文件、结构化基本面数据、实时行情这些核心信息源。


所以关键不在于模型本身多聪明,而在于你能不能给它一套专业级的"工具箱"。


这和我们日常使用大模型的体验是一致的。ChatGPT 裸聊的时候能力有限,但接上代码解释器、联网搜索、文件分析之后,能力就会有质的飞跃。在投资场景里也是一样的道理——工具决定了 AI 能获取什么信息,信息决定了它能做出什么决策。


团队的哲学是:不搞 MCP、不搞花哨的抽象层,把工具自己造好、自己接好,然后把所有能买到的金融数据源全部接上。


有些人一上来就搞 MCP、Skill 这些抽象层。我们的看法更简单:如果你能自己造好工具、接好管道,你已经拥有了最重要的东西。


05 集合智慧


六个月的实验跑完之后,团队做了一个关键决定:不选"最优模型",而是把所有模型的能力整合成一个新 Agent——AI Hedge Fund。


给6个AI各发10万美元炒股半年,大部分跑赢了大盘

AI Hedge Fund 的架构:一个主 Agent 在 6 个前沿模型之上做综合判断


思路其实很聪明。既然每个模型都有不同的"投资性格"——有的激进、有的稳健、有的善于选股、有的善于择时——那为什么不在它们之上再加一层,做一个"首席投资官"?


这就是 AI Hedge Fund 的核心架构:每天审查 6 个模型各自的研究报告、推理过程和交易动作,然后叠加自己的分析、质疑和数据验证,最终做出组合决策。


这本质上是一个三层决策系统:底层是原始数据,中层是 6 个模型的信号,顶层是主 Agent 的独立判断。每一层都可以纠正下一层的偏差。


这其实和华尔街传统基金的做法很像。一个大型对冲基金里面也有几十个分析师,每个人看不同行业、不同策略,然后 CIO 综合所有人的意见做最终决策。区别只是,这里的"分析师"全是大模型。


06 首周实盘


AI Hedge Fund 已经上线一周了。来看看它的初始组合:


给6个AI各发10万美元炒股半年,大部分跑赢了大盘

AI Hedge Fund 实盘组合:5 只持仓、总浮盈 1,708 美元、可用现金 64,658 美元


5 只股票,分别是 UBER(22.7%)、IBKR(21.6%)、GILD(19.1%)、RTX(18.5%)和 EME(18.0%)。可用现金还剩 64,658 美元——只用了约 35% 的资金建仓,非常保守。


几个细节值得注意:


第一,仓位非常均衡,每只占比都在 18%-23% 之间,没有梭哈。第二,选股逻辑清晰——UBER 是平台经济、IBKR 是金融科技、GILD 是生物医药、RTX 是国防航空、EME 是工业基建。行业分散,风格偏价值。


第三,所有仓位都在浮盈——从 +2.8% 到 +7.1% 不等,总浮盈 1,708 美元。虽然才一周,但至少开局不差。


来看它对 EME 的分析推理:


买入 9 股 EME,作为一个稳健的工业复合增长标的,它有真实的 AI 和数据中心基建业务敞口,不只是蹭概念。30 天跌了约 12%,同期 SPY 跌了约 4%,所以我在买弱势,不是追泡沫。基本面:营收同比增 16.6%,每股收益增 31%,利润增 26%,ROE 约 35%。估值只有约 25 倍市盈率,远低于同行。


这段推理相当扎实。它不仅看了基本面,还做了相对估值比较,并且特别注意到 EME 有"真实的 AI 基建业务"而非纯概念。这种判断能力,已经超过了大多数散户投资者。


而且你注意到没有——它没选任何一只纯 AI 概念股。没有 NVDA,没有 AMD,没有 SMCI。它选的是有真实现金流、有实际业务增长、同时估值合理的公司。这种"逆向价值投资"的风格,和华尔街最近流行的"质量因子"策略非常吻合。


AI 没有情绪,不会 FOMO,也不会因为 NVDA 涨了就跟风追进去。某种意义上,这正是它的优势所在。


07 大胆预言


团队在文章最后抛出了一个极其大胆的预言:


我们坚信,在未来 2-3 年内,会出现完全由 AI 运行、零人工干预的对冲基金,而且它们会打败华尔街很多大型对冲基金。


说实话,这个预言未必能实现。


华尔街的顶级对冲基金——比如文艺复兴的大奖章基金——本身就大量使用量化模型和机器学习。AI 对冲基金要战胜的对手,很可能也在用 AI。这不是人类 vs 机器的战争,而是 AI vs AI 的军备竞赛。


但反过来说,传统量化基金的模型大多是统计驱动的,而 Rallies Arena 这类方案是语言驱动的——模型不只看数据,还能"读懂"SEC 文件、新闻报道和 Reddit 讨论帖的含义。这种理解力是传统量化模型不具备的。


所以更准确的说法可能是:AI 对冲基金不会取代华尔街,但会严重压缩普通基金经理的生存空间


想想看,一个管理 1 亿美元的中型基金,通常需要 5-10 个分析师、几个交易员、一个风控团队。而 Rallies Arena 的方案呢?几台服务器、一堆数据订阅、一个工程师团队。成本结构完全不同。


更重要的是,AI 不会在周五下午偷懒,不会因为失恋影响判断,不会因为去年赚了钱就过度自信。它 24 小时在线,每天都以同样的标准审查每一笔交易。


当然,它也有致命弱点:黑天鹅事件。当市场出现从未见过的极端情况——比如 2020 年的疫情暴跌、2008 年的金融危机——AI 的训练数据里可能没有足够的参考案例。这种时候,人类基金经理的直觉和经验可能更管用。


08 对我们意味着什么


这个项目的意义远不止"AI 能炒股"这么简单。它揭示了一个更深层的趋势:


1. 工具生态决定 AI 的天花板。 Rallies Arena 的核心竞争力不是模型本身,而是它构建的那套金融工具链。这和 AI 编程领域是一样的——Claude Code 之所以强,不只因为模型好,更因为它能读文件、跑命令、搜代码。谁能造出最好的工具,谁就能释放最大的 AI 能力。


2. 多模型协作优于单模型。 AI Hedge Fund 的三层架构——数据、多模型信号、主 Agent 判断——是一个非常有参考价值的设计模式。在很多复杂决策场景中,让多个模型各展所长再做综合,效果可能远好于死磕一个模型。


3. YC 已经明确把 AI 对冲基金列为创业方向。 这是 YC 2026 春季的 Request for Startups 之一。当全球最大的创业加速器开始关注这个赛道,说明它不再是一个玩具实验——而是一个被认真对待的商业机会。


我自己看了这个项目之后,最大的感受是:大模型在投资领域的应用,正在从"能不能做"跨入"能做到多好"的阶段。


至于你的钱是否要交给 AI 管,那是另一个问题了。


相关链接:

•  原文:https://x.com/ralliesarena/status/2040237068685824511

•  AI Hedge Fund 实盘:https://rallies.ai/arena/ai-hedge-fund


文章来自于"深思SenseAI",作者 "SenseAI"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

3
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0