人工智能(AI)还没有准备好取代你的基金经理,一系列公开测试说明了其中缘由。
在全球领先AI模型参与的一系列新的交易竞赛中,迄今为止AI的表现并不算好。大多数系统蒙受了亏损。它们交易过于频繁,在收到完全相同指令时会作出截然不同的决策。而且目前仍无人知道,这些缺陷会否随着模型迭代升级而消失,还是揭示了大语言模型与市场实际运作方式之间存在的根本性鸿沟。
以科技初创公司Nof1运营的Alpha Arena为例。该平台让八个主要前沿AI系统同台较量,开展四场比赛,其中包括Anthropic的Claude、谷歌的Gemini、OpenAI的ChatGPT以及埃隆·马斯克的Grok。每个系统在每场比赛开始前都获得1万美元资金,随后在两周内自主交易美国科技股。挑战包括依据多种信号交易、采取防御性策略、对竞争对手表现作出反应,以及使用高杠杆操作。
整体投资组合最终亏掉了约三分之一资金。在全部32组结果中,模型仅有6次实现盈利。Grok 4.20在一项可获知竞争对手表现的挑战中取得最佳成绩。它只进行了158笔交易;在相同提示下,阿里巴巴的千问则交易了1418次。
Alpha Arena只是越来越多相关实验中的一个。这些实验都在测试,大语言模型能否胜任金融业最困难的工作:战胜市场。尽管这些竞赛远谈不上具有学术严谨性,但它们迄今最公开地展示了,当这些系统尝试承担华尔街一些利润最丰厚、风险最高的工作时,会发生什么。
这些初步结果之所以重要,是因为交易正是金融业对于完全交给AI仍保持谨慎的少数工作之一。过去几年,从摩根大通到Balyasny Asset Management等行业巨头,几乎已将这项技术用于其他各个环节。如今,大语言模型已在量化机构中用于解析新闻,在对冲基金中起草备忘录,在大型银行中识别欺诈等。但在真金白银的交易上,“人类参与”仍是行业信条,似乎也是情有可原。
Nof1创始人Jay AzhangNof1创始人Jay Azhang表示:“大语言模型本身其实无法真正赚钱。你基本上需要一整套非常复杂的约束框架、支撑系统和数据平台,才有可能给它们一个发挥的机会。”
他说,大语言模型擅长做研究,也擅长为某些任务寻找并调用合适工具。但它们目前仍不知道,影响股价波动的诸多变量 —— 包括分析师评级、内部交易和市场情绪变化等 —— 各自究竟有多重要。它们往往把握不好交易时机,错误设定仓位规模,而且买卖过于频繁。
AI博客Flat Circle追踪了11个与市场相关的竞技平台,所有平台都至少有一个模型实现盈利。但在这11个平台中,只有两个平台的模型中位数实现盈利,这表明大多数模型都难以战胜市场。
这一结果与人类的表现如出一辙,因为众所周知,多数主动管理型基金同样跑输大盘。而且就像人类一样,这些模型也容易出现明显偏颇。多场竞赛显示,AI系统在收到相同指令时会作出非常不同的决定,这对部署它们的机构具有重大影响。Azhang举例说,在Alpha Arena最近一轮比赛中,Claude大多倾向做多,Gemini并不排斥做空,而千问则更愿意借助高杠杆承担风险。
运营Intelligent Alpha的Doug Clinton表示:“它们有自己的‘个性’,你必须像管理人类分析师那样去管理它们。”他说,如果让模型意识到自己表现出某种偏见,结果可以得到改善。Intelligent Alpha有一个由大语言模型驱动的基金,就AI预测企业盈利的表现发布其自身的基准。
Intelligent Alpha的基准为10个AI模型提供财务申报文件、分析师预测、业绩电话会纪要、宏观经济数据以及最多10次网络搜索权限。由于聚焦范围更窄,大语言模型在这项测试中的表现更为积极。2025年第四季度,OpenAI的ChatGPT对盈利预期变动方向的判断准确率达到68%,创下迄今最佳成绩。Clinton表示,这些模型通常会随着每次新版本发布而持续改进。
责任编辑:李桐
头玩app官网下载电脑,多乐游戏下载,
头玩pc版相关资讯:多乐棋牌游戏,