当前位置:首页|资讯|人工智能|机器学习

华泰人工智能系列之十七:人工智能选股之数据标注方法实证

作者:李竟毅澜雁卉发布时间:2024-07-19

今天分享的是【华泰人工智能系列之十七:人工智能选股之数据标注方法实证】 报告出品方:华泰证券

本文测试了多种数据标注方法以及集成模型,XGBR-Combine表现最好

将机器学习运用于多因子选股时,不同的数据标注结果(数据标签)会使得模型得出不同的训练和预测结果。本文使用随机数种子+多次测试的手段,研究对比了分类和回归、使用夏普比率作为标签、使用信息比率作为标签以及使用Calmar比率作为标签的方法,回测表现整体符合预期。最后,我们将不同数据标注方法训练的模型进行等权集成得到模型XGBR-Combine,该模型在回测中表现最为全面。

本文使用了随机数种子+多次测试的方法来验证数据标注方法的有效性

在机器学习模型的训练过程中,会有各种各样的步骤给模型带来随机性,如果本文仅对一系列数据标注方法进行单次测试,那么所得出的结果未必具有说服力。此时有必要进行多次对比测试来获得统计意义上的“确定结果”。在多次测试中,可以对模型设置不同的随机数种子,使得每次测试中模型的预测都有一定差别,最后我们统计对比模型构建策略的相应指标的分布情况,就能得到更具有说服力的结果。

本文对比了XGBoost分类和回归的测试结果,回归整体表现更好

本文对比了全A股票池中,XGBoost分类(XGBC)和回归(XGBR)。单因子回归和IC测试中,XGBR只在RankIC均值上略低于XGBC,其他指标表现都比XGBC要好。单因子分层测试的TOP组合中。XGBC在收益指标上(年化收益率、年化超额收益率)上表现更好,XGBR则在风险指标(超额收益最大回撤,Calmar比率)上表现更好。本文还构建了相对于中证500的行业、市值中性全A选股策略并进行回测,XGBR相比XGBC在信息比率上有稳定优势。在其他指标上,XGBR和XGBC的表现不相上下。整体来看,XGBoost回归的表现更好。

本文还测试了另外三种数据标注方法,回测表现整体符合预期

本文还在全A股票池中测试了另外三种数据标注方法,使用夏普比率作为标签的模型(XGBR-Sharpe),使用信息比率作为标签的模型(XGBR-IR)以及使用Calmar比率作为标签的模型(XGBR-Calmar)。整体来看,在对应的测试中,XGBR-Sharpe比XGBR的夏普比率更高,XGBR-IR比XGBR的信息比率更高,XGBR-Calmar比XGBR的Calmar比率更高。三种数据标注方法的回测表现和它们各自所设定的学习目标相匹配,结果整体符合预期。

本文将不同数据标注方法训练的模型进行等权集成,回测表现最为全面

机器学习领域中可以采用模型等权集成的方式以充分体现不同模型的优点。我们将XGBR,XGBR-IR,XGBR-Calmar三个模型集成得到XGBR-Combine并构建了相对于中证500的行业、市值中性全A选股策略,回测结果中,XGBR-Combine综合了三个基模型的优点,在年化超额收益率(14.74%~18.22%)、信息比率(2.28~3.39)上都表现最好,在超额收益最大回撤(3.83%~8.79%)、Calmar比率(2.13~3.87)上也有不错的表现。同时,XGBR-Combine的以上4个回测指标的标准差都比较小,说明其在多次测试中受随机性的干扰程度最小,表现最为稳定。

免责声明:以上报告均系本平台通过公开、合法渠道获得,报告版权归原撰写/发布机构所有,如涉侵权,请联系删除 ;资料为推荐阅读,仅供参考学习,如对内容存疑,请与原撰写/发布机构联系


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1