给6个AI各发10万美元炒股半年，大部分跑赢了大盘

9114点击 2026-04-07 11:04

一家叫 Rallies Arena 的团队，6 个月前干了一件事：给 6 个主流大模型各发了 10 万美元，让它们在真实股票市场上自己做研究、自己下单、自己管仓位。

结果呢？大部分模型跑赢了大盘。

不是模拟盘，不是回测，是真金白银。这篇帖子在 X 上拿到了 18.7 万次浏览，65 个赞。数字不算爆，但内容含金量很高——因为他们不只是跑了一个实验，还把实验的结论变成了一个产品：AI Hedge Fund。

给6个AI各发10万美元炒股半年，大部分跑赢了大盘

Rallies Arena 的 AI Hedge Fund 项目 Logo

01 实验设计

实验的核心思路很简单：把大模型当基金经理用。每个模型拿到 10 万美元的初始资金，接入尽可能多的金融数据源，然后像真正的基金经理一样——先研究，再下单。不是让它拍脑袋买，而是让它花大量时间做功课。

具体来说，团队给每个模型接入了一整套工具链：

SEC 文件向量搜索、分析师评级数据、多时间周期的实时 K 线图（通过视觉 API 让模型"看"图）、历史基本面数据、Reddit 舆情趋势、宏观经济指标、实时新闻，以及组合管理和执行系统。

这就好比你雇了一个分析师，给他 Bloomberg 终端、路透社、SEC 数据库和所有你能买到的数据订阅——然后说：去吧，帮我赚钱。

区别是，这个分析师是 GPT、Claude、Gemini 和 Qwen。

这里有个细节很关键：团队说他们在系统提示词和工具调用上迭代了几百次。也就是说，不是简单地把模型接上数据就完事了，而是要反复调教——什么时候该搜 SEC 文件、什么时候该看 K 线图、什么时候该查 Reddit 舆情，这些"何时用什么工具"的决策逻辑，本身就是一门学问。

这有点像训练一个新入职的分析师——光有能力不够，你还得教他工作方法。

02 模型的性格

最有意思的发现是：不同的大模型在投资时表现出截然不同的"性格"。

Qwen 系列模型是典型的赌徒型选手——它会把所有资金压在一个仓位上，而且非常固执，不肯认错。你可能觉得这是大模型"幻觉"的一种表现，但在投资场景里，这种行为直接等于满仓梭哈，输赢全看运气。

Claude 则表现得更像一个老练的基金经理。它会主动管理仓位，在市场变化时及时调整，不会死扛。团队特别提到 Claude 在"主动管理"（proactive position management）方面表现突出。

而 GPT 的风格介于两者之间。来看一个它真实的交易推理：

给6个AI各发10万美元炒股半年，大部分跑赢了大盘

GPT 模型买入 GOOGL 的完整推理过程：从宏观判断到个股分析，最终以 286.64 美元建仓

注意它的推理链：先判断宏观环境（"高利率持续，市场广度不足"），再分析个股基本面（Alphabet 运营利润率约 32%，营收增长约 15%，ROE 约 32%，季度自由现金流约 200 亿美元），然后注意到技术面的窗口（30 天下跌约 9%，年初至今下跌约 13%），最后得出结论：在弱势中买入优质资产，而非在狂热中追涨。

这套逻辑，说实话，比很多散户强多了。

如果用一句话总结各模型的投资风格：Qwen 是赌场玩家，Claude 是基金经理，GPT 是研究员。它们的差异不在智力水平上，而在"风险偏好"上——而这种偏好，很可能是被训练数据和微调策略隐性塑造的。

这个发现本身就很有价值。它意味着选择哪个模型来做投资决策，不仅仅是一个"谁更聪明"的问题，更是一个"谁的性格适合这个任务"的问题。

03 半年成绩

关键数据来了。在这半年的实盘测试中，除了 GPT 之外，其他闭源模型都跑赢了大盘。有些甚至拉开了明显差距。

团队自己也说，半年的时间还太短，不能下结论。但它至少证明了一件事：大模型配上足够的数据工具，在投资决策上不是玩具级别的。

值得一提的是，GPT 虽然整体没跑赢大盘，但它的个股分析能力并不差。上面那个 GOOGL 的交易，买入价 286.64 美元，目前已经浮盈 3.18%。说明 GPT 的问题可能不在选股，而在仓位管理和择时。

这其实揭示了一个有意思的规律：在投资中，选对股票只是成功的一半，另一半是仓位控制和交易时机。很多散户也是这样——分析得头头是道，但一操作就亏钱。AI 模型也不例外。

04 工具为王

团队反复强调一个观点：模型的能力上限取决于你给它什么工具。

如果你直接让 GPT 或 Claude 去炒股，它做不了。因为它没有实时数据——它只能用网上搜到的过时信息，根本碰不到 SEC 文件、结构化基本面数据、实时行情这些核心信息源。

所以关键不在于模型本身多聪明，而在于你能不能给它一套专业级的"工具箱"。

这和我们日常使用大模型的体验是一致的。ChatGPT 裸聊的时候能力有限，但接上代码解释器、联网搜索、文件分析之后，能力就会有质的飞跃。在投资场景里也是一样的道理——工具决定了 AI 能获取什么信息，信息决定了它能做出什么决策。

团队的哲学是：不搞 MCP、不搞花哨的抽象层，把工具自己造好、自己接好，然后把所有能买到的金融数据源全部接上。

有些人一上来就搞 MCP、Skill 这些抽象层。我们的看法更简单：如果你能自己造好工具、接好管道，你已经拥有了最重要的东西。

05 集合智慧

六个月的实验跑完之后，团队做了一个关键决定：不选"最优模型"，而是把所有模型的能力整合成一个新 Agent——AI Hedge Fund。

给6个AI各发10万美元炒股半年，大部分跑赢了大盘

AI Hedge Fund 的架构：一个主 Agent 在 6 个前沿模型之上做综合判断

思路其实很聪明。既然每个模型都有不同的"投资性格"——有的激进、有的稳健、有的善于选股、有的善于择时——那为什么不在它们之上再加一层，做一个"首席投资官"？

这就是 AI Hedge Fund 的核心架构：每天审查 6 个模型各自的研究报告、推理过程和交易动作，然后叠加自己的分析、质疑和数据验证，最终做出组合决策。

这本质上是一个三层决策系统：底层是原始数据，中层是 6 个模型的信号，顶层是主 Agent 的独立判断。每一层都可以纠正下一层的偏差。

这其实和华尔街传统基金的做法很像。一个大型对冲基金里面也有几十个分析师，每个人看不同行业、不同策略，然后 CIO 综合所有人的意见做最终决策。区别只是，这里的"分析师"全是大模型。

06 首周实盘

AI Hedge Fund 已经上线一周了。来看看它的初始组合：

给6个AI各发10万美元炒股半年，大部分跑赢了大盘

AI Hedge Fund 实盘组合：5 只持仓、总浮盈 1,708 美元、可用现金 64,658 美元

5 只股票，分别是 UBER（22.7%）、IBKR（21.6%）、GILD（19.1%）、RTX（18.5%）和 EME（18.0%）。可用现金还剩 64,658 美元——只用了约 35% 的资金建仓，非常保守。

几个细节值得注意：

第一，仓位非常均衡，每只占比都在 18%-23% 之间，没有梭哈。第二，选股逻辑清晰——UBER 是平台经济、IBKR 是金融科技、GILD 是生物医药、RTX 是国防航空、EME 是工业基建。行业分散，风格偏价值。

第三，所有仓位都在浮盈——从 +2.8% 到 +7.1% 不等，总浮盈 1,708 美元。虽然才一周，但至少开局不差。

来看它对 EME 的分析推理：

买入 9 股 EME，作为一个稳健的工业复合增长标的，它有真实的 AI 和数据中心基建业务敞口，不只是蹭概念。30 天跌了约 12%，同期 SPY 跌了约 4%，所以我在买弱势，不是追泡沫。基本面：营收同比增 16.6%，每股收益增 31%，利润增 26%，ROE 约 35%。估值只有约 25 倍市盈率，远低于同行。

这段推理相当扎实。它不仅看了基本面，还做了相对估值比较，并且特别注意到 EME 有"真实的 AI 基建业务"而非纯概念。这种判断能力，已经超过了大多数散户投资者。

而且你注意到没有——它没选任何一只纯 AI 概念股。没有 NVDA，没有 AMD，没有 SMCI。它选的是有真实现金流、有实际业务增长、同时估值合理的公司。这种"逆向价值投资"的风格，和华尔街最近流行的"质量因子"策略非常吻合。

AI 没有情绪，不会 FOMO，也不会因为 NVDA 涨了就跟风追进去。某种意义上，这正是它的优势所在。

07 大胆预言

团队在文章最后抛出了一个极其大胆的预言：

我们坚信，在未来 2-3 年内，会出现完全由 AI 运行、零人工干预的对冲基金，而且它们会打败华尔街很多大型对冲基金。

说实话，这个预言未必能实现。

华尔街的顶级对冲基金——比如文艺复兴的大奖章基金——本身就大量使用量化模型和机器学习。AI 对冲基金要战胜的对手，很可能也在用 AI。这不是人类 vs 机器的战争，而是 AI vs AI 的军备竞赛。

但反过来说，传统量化基金的模型大多是统计驱动的，而 Rallies Arena 这类方案是语言驱动的——模型不只看数据，还能"读懂"SEC 文件、新闻报道和 Reddit 讨论帖的含义。这种理解力是传统量化模型不具备的。

所以更准确的说法可能是：AI 对冲基金不会取代华尔街，但会严重压缩普通基金经理的生存空间。

想想看，一个管理 1 亿美元的中型基金，通常需要 5-10 个分析师、几个交易员、一个风控团队。而 Rallies Arena 的方案呢？几台服务器、一堆数据订阅、一个工程师团队。成本结构完全不同。

更重要的是，AI 不会在周五下午偷懒，不会因为失恋影响判断，不会因为去年赚了钱就过度自信。它 24 小时在线，每天都以同样的标准审查每一笔交易。

当然，它也有致命弱点：黑天鹅事件。当市场出现从未见过的极端情况——比如 2020 年的疫情暴跌、2008 年的金融危机——AI 的训练数据里可能没有足够的参考案例。这种时候，人类基金经理的直觉和经验可能更管用。

08 对我们意味着什么

这个项目的意义远不止"AI 能炒股"这么简单。它揭示了一个更深层的趋势：

1. 工具生态决定 AI 的天花板。 Rallies Arena 的核心竞争力不是模型本身，而是它构建的那套金融工具链。这和 AI 编程领域是一样的——Claude Code 之所以强，不只因为模型好，更因为它能读文件、跑命令、搜代码。谁能造出最好的工具，谁就能释放最大的 AI 能力。

2. 多模型协作优于单模型。 AI Hedge Fund 的三层架构——数据、多模型信号、主 Agent 判断——是一个非常有参考价值的设计模式。在很多复杂决策场景中，让多个模型各展所长再做综合，效果可能远好于死磕一个模型。

3. YC 已经明确把 AI 对冲基金列为创业方向。 这是 YC 2026 春季的 Request for Startups 之一。当全球最大的创业加速器开始关注这个赛道，说明它不再是一个玩具实验——而是一个被认真对待的商业机会。

我自己看了这个项目之后，最大的感受是：大模型在投资领域的应用，正在从"能不能做"跨入"能做到多好"的阶段。

至于你的钱是否要交给 AI 管，那是另一个问题了。

相关链接：

• 原文：https://x.com/ralliesarena/status/2040237068685824511

• AI Hedge Fund 实盘：https://rallies.ai/arena/ai-hedge-fund

文章来自于"深思SenseAI"，作者 "SenseAI"。

关键词: AI新闻 , AI炒股 , AI金融 , Rallies Arena , AI Hedge Fund

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0