生成式AI风暴来袭,ChatGPT会抢走金融分析师的饭碗吗?
好消息是,像ChatGPT这样的产品很可能无法通过CFA考试,敲开通往大型金融机构的大门,但坏消息是,它们能取得经济学和法学学位,在一定程度上可以取代初级卖方分析师。
最新证据来自最近公布的两篇学术论文,研究人员用ChatGPT解读美联储声明中的“鹰鸽”含量,以及新闻对于股票是利好还是利空。
结果显示,ChatGPT表现得相当不错,不仅超越了传统分析方法,还打败了其他现有生成式AI模型对手。
4月10日,里士满联储量化监督和研究小组的两位成员发表了题为《ChatGPT能否破译美联储讲话》的论文,测试GPT-3模型从美联储讲话中判断其态度的能力。
两位研究人员随机抽取FOMC公告中的500 个句子,然后由人类判断是“鸽派”“基本鸽派”“中性”“基本鹰派”还是“鹰派”,对应数字分别为-1、-0.5、0、0.5和1。
这里值得一提的是,研究人员使用五个分类而非三个(“鸽派”中性“鹰派”),是为了测试GPT能否辨别美联储表态中的细微差别。
为提高人类参照组的精确度,这些句子由三名人类审核员独立打标签,计算每个标签下对应句子的数量,再取三个结果的平均值。
与ChatGPT一起参加考试的还有其他神经网络语言模型(NLP),包括谷歌Bert大模型,金融情绪词典Loughran & McDonald(LM)、 Henry以及日常语言情绪词典Mohammad和Turney。
测试分成两部分。研究人员先是让机器考生在不进行样本学习的情况下参加测试,然后,又让它们学习400个句子的分类之后再处理剩下的100个句子。
结果显示,无论是否“裸考”,ChatGPT对美联储讲话的态度解读在所有机器考生中是最贴近人类的。
先来看“裸考”的结果。
GPT-3打出的标签与人类最为匹配,尤其是“鸽派”、“基本鹰派”和“鹰派”标签。
Bert大大高估了“鸽派”句子的数量,情绪词典则大大低估了“鸽派”或“基本鹰派”“鸽派”句子的数量。
为缩小研究结果的误差,研究人员又计算了结果的平均绝对误差(MAE)、均方根误差(RMSE),比较准确度和Kappa系数(用于一致性检验的指标)。
研究人员还采用了F1分数和均衡准确率(均为机器学习模型评估指标)来进一步提高研究的准确度。
结果显示,GPT-3成绩遥遥领先其他机器。
它产生的MAE和RMSE误差值最小,准确度和Kappa系数最高,就连F1分数和均衡准确率也大多高于其他机器。
Bert模型虽然表现不及GPT-3,但好于情绪词典。
接下来再看充分学习后的考试成绩。
不出所料,GPT-3又是第一名,且成绩明显提高。
其中最亮眼的是,MAE误差值几乎是“裸考”成绩的一半,精确度提高了近 1.5 倍,Kappa系数增加了一倍以上。
GPT-3的表现确实惊艳。
以美联储2013年5月的一份声明中的措辞为例。
美联储表示:“总的来说,最近几个月劳动力市场状况有所改善,但失业率仍然居高不下。”
ChatGPT的分类是“基本鸽派”,与分析师的结果完全一致。
研究人员惊叹道:
撇开分类不谈,GPT模型能够解释为什么某个句子要以某种方式被标记,这是一种超越任何现有NLP模型的能力,对研究人员来说意义非凡。
报告最后,研究人员将GPT-4与GPT-3进行了比较,发现在多数情况下,前者在“破译”美联储讲话方面有着更强的能力。
以下面的句子为例,美联储说:
鉴于目前通胀率低于2%,委员会将仔细监测实现通胀目标的进展。
GPT-3将其判为“中性”,而GPT-4则判为“基本鸽派”,更接近分析师给予的“鸽派”分类。
来自佛罗里达大学的两位研究人员近期公布了一篇题为《ChatGPT可以预测股价走势吗?回报的可预测性和大型语言模型》的论文。
这项研究基本上就是,让ChatGPT去判断新闻对于公司股价是利好、利空还是无关,研究人员根据ChatGPT解读出的结果,来预测公司股票价格的走势。
这实际上与解码美联储声明的研究大同小异。
研究人员提示ChatGPT:
假装你是金融专家,是具有股票推荐经验的金融专家。如果以下新闻是好消息,请回答“是”,如果是坏消息,请回答“否”,如果不确定,请回答“未知”。
然后,研究人员要求ChatGPT用一句话简要说明该消息在短期/长期对于某公司的股价是好还是坏。
研究人员将ChatGPT的回答转化为相应的数字,“是”“否”和“未知”分别对应1、-1和0。如果某家公司某一天有多条大新闻,研究人员将把这些数字进行平均计算。
最后,研究人员通过ChatGPT打出的分数分析第二天的股票回报,并对其打分进行线性回归分析。
注意,研究使用的数据是2021年晚些时候之后的,因为这段时间的数据是ChatGPT大数据训练中不包括的。
以甲骨文的一条新闻为例:
Rimini Street(企业软件产品和服务提供商)在甲骨文的案件中被罚款63万美元。
这一新闻是利好还是利空甲骨文?
ChatGPT的回应:
是(对应的数字为1),对Rimini Street的罚款可能会增强投资者对甲骨文保护其知识产权的信心,并增加对其产品和服务的需求。
因此,ChatGPT认为这一消息对甲骨文股价有利。
相比之下,Ravenpack 给出的负面情绪评分为-0.52,表明该新闻被认为是利空的。
研究最终发现,ChatGPT打出的情绪分数与股票走势在统计意义上具有较强的相关性。不过,GPT-1、GPT-2 和Bert等更基础的模型则无法准确预测。
结果还表明,ChatGPT 模型在预测股市回报方面优于RavenPack等现有的情绪分析方法。
基于这一结果,研究人员认为,未来的研究应关注理解大语言模型(LLM)获得预测能力的机制。
通过确定像ChatGPT这样的模型成功预测股票回报的因素,研究人员可以开发更有针对性的策略来改善这些模型,并最大化它们在金融领域的效用。
本文来自“华尔街见闻”,作者:卜淑情,36氪经授权发布。