Alpha Arena竞赛将Claude、ChatGPT等八大模型投入实盘比赛,最终整体组合亏损约三分之一,多数模型亏损、过度交易且决策分歧明显。分析指出,LLM虽擅长资料研究,但在择时与仓位管理上仍有缺陷,且历史回测失效迫使研究转向实盘。AI独立掌镜交易尚不成熟,目前更多作为辅助工具。
人工智能正在叩响华尔街交易室的大门,但目前的成绩单并不好看。
一系列公开交易竞赛的早期结果显示,主流大型语言模型(LLM)在自主交易中普遍表现欠佳——大多数系统亏损,交易过于频繁,且在接收相同指令时作出截然不同的决策。这些结果引发了一个核心问题:LLM与真实市场运作之间,究竟存在多深的鸿沟。
其中最具代表性的案例来自科技初创公司Nof1运营的Alpha Arena竞赛。该竞赛将Anthropic的Claude、谷歌的Gemini、OpenAI的ChatGPT以及Elon Musk的Grok等八大前沿AI系统投入四轮独立比赛,每轮赛前各获1万美元资金,在两周内自主交易美国科技股。最终,整体投资组合亏损约三分之一,32组结果中仅有6次实现盈利。
Nof1创始人Jay Azhang直言:"现在把钱直接交给LLM让它自己去交易,这条路还走不通。"
竞赛结果:亏损、过度交易与决策分歧
Alpha Arena的数据揭示了当前LLM在交易场景中的多重缺陷。在相同提示词下,阿里巴巴的Qwen在一轮竞赛中共执行了1,418笔交易,而表现最佳的Grok 4.20仅下单158笔。Grok的最佳成绩出现在其能够观察竞争对手表现的那一轮赛事中。
AI博客Flat Circle追踪了11个市场相关竞技场,结果显示,所有竞技场中至少有一个模型实现盈利,但仅有两个竞技场的中位模型为正收益,说明大多数模型难以跑赢市场。
各模型之间的决策差异同样引人关注。据Azhang介绍,在Alpha Arena最新一轮测试中,Claude倾向于做多,Gemini对做空毫无抵触,而Qwen则乐于使用高杠杆承担风险。"它们各有'个性',管理起来几乎像管理一位人类分析师,"运营LLM驱动基金的Intelligent Alpha负责人Doug Clinton表示,通过告知模型其存在某种偏差,可以在一定程度上改善结果。
能力边界:LLM擅长研究,但不擅长择时
Jay Azhang指出,LLM在研究和调用正确工具方面具备优势,但在交易执行层面存在系统性短板:它们尚不清楚分析师评级、内部人交易、情绪变化等众多影响股价的变量各自的权重,因而容易出现交易时机错误、仓位规模不当以及买卖过于频繁等问题。
Intelligent Alpha的基准测试提供了相对积极的参照。该测试为10个AI模型提供财务文件、分析师预测、财报电话会议记录、宏观经济数据及网络搜索权限,聚焦于盈利预测方向的判断。结果显示,2025年第四季度,OpenAI的ChatGPT正确预测盈利预测方向的准确率达68%,创下迄今最佳成绩。Clinton表示,随着每次新版本发布,模型表现总体呈改善趋势。
方法论困境:回测失效,实盘测试成唯一选项
评估AI交易能力面临一个根本性的方法论障碍。传统量化策略依赖历史回测验证有效性,但这一框架对LLM几乎完全失效——一个在2026年被问及如何交易2020年3月行情的模型,早已"知道"那段历史的走向。这种被称为"前瞻偏差"(lookahead bias)的污染问题,迫使研究者只能通过实盘市场对AI进行评估,由此催生了当前各类基准测试和竞技场的大量涌现。
Flat Circle博客作者、前另类数据提供商YipitData联合创始人Jim Moran认为,目前大多数公开实验周期过短、噪音过大,尚不足以支撑确定性结论。这些竞技场还存在天然劣势,包括无法获取专有股票研究资源以及执行质量较低。"如果把这些竞技场里的某个AI代理直接移植到一家顶级对冲基金内部运行,它的表现应该会更好,"他说。
行业前景:真正有效的策略,或将悄然消失于公众视野
前Coatue Management数据科学主管、现就职于NX1 Capital的Alexander Izydorczyk近期撰文指出,他所追踪的AI交易机器人中,目前尚无一个展现出持久的超额收益能力。他认为,这些竞技场的局限性在于其训练数据中缺失了秘密交易机构所使用的实用量化技术。
然而,Izydorczyk也留下了一个耐人寻味的判断:"初学者有时能看到老手看不到的东西。"他在个人博客中写道,"当LLM代理交易策略真正开始奏效时,你不会马上听到任何消息。"
Nof1正在筹备Alpha Arena第二季,计划赋予每个AI模型网络搜索、更长思考时间、更多数据来源以及多步骤执行能力。但该公司的核心商业模式,是为散户交易者提供构建AI交易代理的系统工具——而非直接将AI推上交易席位。这一定位本身,或许已是对当前AI交易能力最务实的注脚。
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
乐鱼,米兰官方网站,
乐鱼体育相关资讯:米兰app官方正版官网,