会员服务 ·

分别基于SVM和ARIMA模型的股票预测 Python实现附Github源码

2017 年 9 月 9 日 数据挖掘入门与实战 要学习更多点这→

大数据挖掘DT数据分析公众号： datadw

本文代码上传Github

在公众号里回复关键字“股票预测”获取地址。

SVM 支持向量机

原理就不赘述了，相关文章可以看这里

支持向量机(SVM)用于上证指数的预测

支持向量机（SVM）入门详解（续）与python实现

支持向量机SVM入门详解：那些你需要消化的知识

SVM是一种十分优秀的分类算法，使用SVM也能给股票进行一定程度上的预测。

核心

因为是分类算法，因此不像ARIMA一样预测的是时序。分类就要有东西可分，因此将当日涨记为1，跌记为0，作为分类的依据。使用历史数据作为训练数据。

处理数据：

股票历史数据来源于yahoo_finance api，获取其中Open，Close，Low，High，Volume作为基础。因为除去Volume以外，其余数据都是Price，基于Price并不能很好的表达股票的特性，或者说并不太适用于SVM分类算法的特性。基于SVM算法的特性，股票并不是到达一个价格范围就有大概率涨或跌（不知道我这个表达大家能不能看懂）。

2.基于上述原因，我决定将Price转换成另一种形式的数据。例如：High-Low=全天最大价格差，Open-YesterdayOpen=当天Open价格变动，Open-YesterdayClose=开盘价格变动。（我也并不太懂经济学，仅仅是为了寻找另一种更好的方案）

3.单纯地基于历史数据是完全不够的，因此还使用了R语言和tm.plugin.sentiment包，进行语义分析，进行新闻正面负面的判定。这块不是我做的，了解的并不多。新闻并不是每天都有的，这样的话新闻数据就显得有些鸡肋，无法在分类算法中起到作用，但是我们能在多个站点中提取，或是直接将关键字定为Debt（判断大众反应）。

4.这里仅仅是进行了两个站点的新闻挖掘，然后可通过rpy2包在Python中运行R语言，或是R语言得到的数据导出成Json，Python再读取。至此，数据处理告一段落。

SVM算法：

股票数据不能完全基于历史数据，因此需要一定数量的历史数据推出预测数据，例如这边使用了70天的数据训练，来推出后一天的股票涨跌，而不是所有的历史数据。

最后的成绩是53.74%的正确率，对于一个基本使用历史数据来预测股市的方法而言已经是个不错的结局了。

ARIMA

全称为自回归积分滑动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA)。核心函数是ARIMA（p，d，q）称为差分自回归移动平均模型，AR是自回归， p为自回归项； MA为移动平均，q为移动平均项数，d为时间序列成为平稳时所做的差分次数。所谓ARIMA模型，是指将非平稳时间序列转化为平稳时间序列，然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。

时间序列ARIMA模型详解：python实现店铺一周销售量预测