亲宝软件园·资讯

展开

通过深度学习股价截面数据分析和预测股票价格

数量技术宅 人气:0

更多精彩内容,欢迎关注公众号:数量技术宅,也可添加技术宅个人微信号:sljsz01,与我交流。

引言

不论在学术领域还是实践范畴上,股价预测一直是重要的研究课题。直到现在,各种预测股价的理论仍然在不断研究中。在金融领域,用来解释股票价格界面分析的特性被称为“因子”,很多金融方面的研究已经识别出了这些截面数据因子跟股价涨跌的关系。由于这些因子和股票价格的关系日趋复杂和非线性,最近,使用机器学习,特别是深度学习用于预测股票价格的研究被不断提出。不过,这些理论上的研究都和实际的投资操作有着一定距离。

我们解读的这篇论文《Cross-sectional Stock Price Prediction using Deep Learning for Actual Investment Management》被2020年国际人工智能与区块链大会(AIBC 2020)收录,在文章中,作者提出了使用深度学习进行实际投资管理的截面每日股价预测框架。 例如,作者使用在收盘时可用的信息来构建投资组合,并在第二天开盘时进行投资。作者在日本股票市场进行实证分析,并确认框架的盈利能力。

前置概念介绍

股价预测已经日渐成为一个重要的研究主题,各类预测股价的理论不断提出,到目前为止,这些理论大概可以分位两个方面:时间序列分析和截面数据分析。

第一类理论将股票价格作为时间序列数据,然后进行时间序列分析。金融上的时间序列分析始于线性模型,例如自回归模型(AR),这类模型中,参数是唯一且确定的。在实际的金融时间序列中,随着许多非线性特性被发现,在时间序列结构中并入波动率的广义自回归条件异方差模型(GARCH)开始被应用。近年来,GARCH模型进一步发展,扩展出了很多变量。另外,在时间序列分析领域,例如k最近邻法,神经网络和支持向量机等非线性模型已经广泛应用于股票价格预测。这些模型不仅努力从学术上把握经济意义,而且努力在实践中提高预测准确性,它们通过反复试验来尝试掌握股价波动的模式,这些尝试在近几年已经引起人们对算力的重视。

第二类理论使用诸如公司属性之类的横截面数据执行横截面(回归)分析。 通过截面分析来解释股价的特征在金融领域被称为“因子”。 金融方面的许多实证研究已经确定了哪些股票的横截面特征相对增加,哪些股票价格下降。 解释横截面股票价格的代表性模型是Fama-French三因子模型。 模型指出,可以通过三个因子来解释股票收益的横截面结构:β(市场投资组合),规模(市场资本化)和价值(价格市价比)。 从那以后,除了Fama-French三因子模型中的因子外,其他因子也相继被发现。 到2012年发现的因子就多达300多个,而且,大多数这些因子是在最近10年中发现的。

尽管投资者需要考虑的因子在快速增长,但要同时测试超过300个因子,从维度的规模上将也是非常困难的。此外,由于不错的可操作性和结果的鲁棒性,线性回归模型还是在金融领域长期应用。但是,由于大量因子和股票收益关系的复杂性,线性回归模型在预测准确性上限制很大。就像很多非参数截面股票预测研究的那样,使用深度学习来非线性拟合各种因子相比简单拟合各种因子的线性回归,可以提高预测的准确性和股票盈利。

但是,这些研究仅限于每月的股票价格预测而且它们与实际的投资管理不符。 在这篇论文中,作者提出了一个使用每日股价横截面数据预测使用深度学习进行实际投资管理的框架,并且在日本股市进行实证分析,以确认框架的有效性。为了每天进行投资,作者会在实际投资时建立投资组合。 例如,在收市时段利用可用信息构建投资组合,然后在第二天开市时在市场上进行投资。 此外,投资组合周转率是计算并比较以考虑影响交易成本。 周转率高的投资组合与较低利率的投资组合相比,交易成本更高。

数据集

文章使用的数据集为TOPIX500成分股指数,TOPIX500覆盖了日本股市的大盘股和部分中盘股,同时这个指数也常作为海外投资机构投资日本股市的投资标的。

文章使用了33个因子,如下表:

在实践中,这些指标相对都用得比较多。

问题建模

作者把问题定义为了一个回归问题,这样就把问题转化成了寻找一个预测变量f,同时用均方误差(MSE)作为损失函数。定义t时刻训练模型的均方误差如下:

加载全部内容

相关教程
猜你喜欢
用户评论