用神经网络预测 2018 年美国中期选举

2018 年 10 月 25 日 AI研习社

本文为 AI 研习社编译的技术博客，原标题：

Using Neural Networks to Predict the 2018 Midterm Election

翻译 | 刘晓东校对 | 老赵整理 | 志豪

原文链接：

https://medium.com/@seanswayze1/using-neural-networks-to-predict-the-2018-midterm-election-e972ccfc74a

使用神经网络预测2018年美国中期选举

Sean Swayze

2018.10.10

摘要

本文中，研究人员使用Python从网上爬取历史数据，并采用神经网络分析这些数据，然后搭建了一个预测模型，用来预测2018年各个地区众议院的中期选举结果。提供给模型的信息主要是每个地区的人口普查数据、历史选举结果和公开的金融数据。研究人员搭建了两种不同的模型，虽然都是用来预测民主胜利的，但是不同的是，两种模型是否使用了之前国会的选举结果。当包含该数据时，民主党占据17个席位的优势；如果不包含，则只有3个席位的优势。

神经网络

该神经网络构建为，如下使用14组输入数据的前馈神经网络：

表1-用于预测的源数据

表一中的数据集，是从广大的对大选结果有影响的因素中，选出的具有代表性的一些数据集。来自人口普查局的数据是手动归档的。2002-2014年的竞选经费，选举结果和任期数据，都是通过python网络爬虫程序在2018年9月爬到的，爬虫程序中使用了Beautiful Soup包。这些数据存储在一个Excel电子表格中（见附录）。

最终的神经网络模版，拥有14个输入节点，两组隐藏层，每组隐藏层有5个神经元，每个单一输出结点，给出预期的共和党和民主党的投票占有率。

在仅使用2000-2014年的数据训练神经网络，而要求网络预测2016年大选结果的过程中，通过不断减小损失函数，使得神经网络在不断进化。为了持续减小神经网络的损失函数，当损失函数因过拟合而开始增加时，训练必须停止。在多次测试和错误之后，使用2016和2014的选举结果作为测试集，研究人员发现正是2000年选举结果的加入，使得模型的准确率下降。因此，研究人员仅使用了2002-2016年的数据来预测2018年的选举结果。

第二个模型包含之前议会的选举结果，尽管这个模型没有显著改善验证集上的损失，但是该模型确实给民主党带来了更多胜利的可能。由于测试表明在训练集上的差异没有明显的差异，这两者的结果如下：原始模型标记为“模型A”，而更新模型则包括前一次选举的结果，标记为“模型B”。

该模型中使用了的一个概念是，重新初始化神经网络并运行多次是为了给每个单独的区域创建统计数据。对于最终的预测，神经网络被重新初始化并运行了10000次。由于权值在每次运行的时候都会被随机初始化，所以每个生成网络的预测结果是不同的。采用这种方法，研究人员找到了每个地区的样本均值和标准差。

在这个过程中，虽然寻找无偏样本均值是成功的，但是由权重初始化问题，导致计算方差是小于实际方差的。对于该较低的标准差预测值，一个可能的解释是，该模型原始的权重生成没有足够的随机性，因而不能够解释实际选举结果的多变性。为了解释该多变性，研究人员将模型计算出的每个地区的标准差，乘一个系数2，使其与每个地区变化的观测值是一致的。

表2-两种模型的预测结果

这些数据是从结果的概率分布中得到的，这些结果是以种族为独立事件作为假设的。由于选举是有相互关系的，概率密度分布比预测值更宽，而且这些数字可能更接近50%。

在解读这些结果前，应该指明，在国家层面，模型预测出的席位分布的多变性，是有瑕疵的。模型计算每个地区的结果是独立的，接着在计算分布时，把每个地区当作一个独立变量。实际上，在模型范围之外的有很多变量是难以融合进神经网络的，但是能显著地拓宽席位的概率分布。为了纠正这一不准确的假设，研究人员需要纳入一个与相似地区相关的因子。除非在过程中增加一个可能的偏移，否则，这一影响的结果是不能由神经网络决定的。虽然模型中的扩展量因此有缺陷，但平均结果并不受此缺陷的影响，并且仍然可以得出有意义的预测。

进一步分析这些数据，由于模型的性质，特别是在地区层级，该模型预测任何给定结果的原因变得困难。主要的阻碍因素是，神经网络只是一个大量权重和偏移组合，因此试图去理解神经网络的每次迭代对一组数据的作用是不可行的。然而，阻碍这个过程的更大原因是，该模型不是由一个，而是由成千上万个较小的模型组成的，这些小模型每个区域的结果平均计算得出的。因此，为了正确分析每个给定地区的结果，研究人员需要解剖的不是一个，而是成千上万个神经网络。然而，这并不意味着，对模型预测结果不能进行一般化的抽象。两种模型对11月的选举结果给出了不同的预测。尽管预测结果都是民主党会领先于共和党，但是领先的优势是不相同的。模型A的预测结果是，民主党的优势较小，而模型B的预测结果是，民主党的优势较大。由于模型B加入了之前的选举结果，这可以表明，模型B已经分析出，现任政党的模式会在中期选举时表现地更糟糕。这种差异也表明，其他非人口因素有助于民主党获得更多的领先优势。

结论

作者的假设是模型B更准确，因为它包含了更多相关数据。模型B中的额外数据是上次的选举结果，这些数据可以帮助模型预测一个地区的党派关系，这超出了人口统计学所能描述的范围。这应该可以产生更加精确的结果，特别是在，人口特征与政治倾向和全国平均水平不对称的地区。

表3-根据模型B产生的前十个最具竞争力的地区

使用上述神经网络方法是有很多优点和缺点的。使用神经网络最大的优点之一就是，它使得研究人员免受一定量偏见的影响，而这些偏见通常是在创建任何类型的预测模型中固有的。一旦给定一组数据，神经网络就不加思考地优化对历史数据的拟合，并在这一过程中完全消除人类的偏见。然而，这并不意味着这一过程就没有偏差的可能。在选择使用哪些数据集训练神经网络的时候，误差仍然会被引入进来。该模型最大的优点也是其最主要的缺点。模型的不透明性消除了通常用于预测的大部分偏差，但也使其很难进行深入的分析。比起模型预测，即将到来的众议院中期选举结果将会更加有趣。

附录

数据电子表格：

https://docs.google.com/spreadsheets/d/1oqODh1eXi80oltRlFolRgdx5nkdhsf1fFGONOLHpFPM/edit?usp=sharing

我要感谢为天才儿童创办的希林学校，它给我提供了作这个研究的时间和地方，还要感谢弗兰克博士，他在这个项目的过程中担任我的导师。

想要继续查看该篇文章相关链接和参考文献？

戳链接：

http://ai.yanxishe.com/page/TextTranslation/1125

（你没看错，我们已更换为全新域名【ai.yanxishe.com】啦）

AI研习社每日更新精彩内容，观看更多精彩内容：

如何让你的深度神经网络跑得更快

动图直观了解RNN工作原理

一文带你了解 Faster R-CNN

用卷积 LSTM 来预测海水温度（上）

用卷积 LSTM 来预测海水温度（下）

等你来译：

用神经网络预测股票市场

用Excel来阐释一维&三维卷积

用Excel来阐释什么是多层卷积(Python)

深度网络揭秘之防止过拟合

今日资源推荐

机器学习＋TensorFlow教程＋数学经典教材合辑大礼包

该资源里包含了大量的机器学习、数学、Tensorflow 等经典学习教程，欢迎下载！

下载链接：http://ai.yanxishe.com/page/resourceDetail/604

想要获取更多AI领域相关学习资源，可以访问AI研习社资源板块下载，

所有资源目前一律限时免费，欢迎大家前往社区资源中心

（http://www.gair.link/page/resources）下载喔~

全球AI+智适应教育峰会

免费门票开放申请！

雷锋网联合乂学教育松鼠AI以及IEEE教育工程和自适应教育标准工作组，于11月15日在北京嘉里中心举办全球AI+智适应教育峰会。美国三院院士、机器学习泰斗Michael Jordan、机器学习之父Tom Mitchell已确认出席，带你揭秘AI智适应教育的现在和未来。

扫码免费注册

登录查看更多

相关内容

神经网络

关注 5912

人工神经网络（Artificial Neural Network，即ANN ），是20世纪80 年代以来人工智能领域兴起的研究热点。它从信息处理角度对人脑神经元网络进行抽象，建立某种简单模型，按不同的连接方式组成不同的网络。在工程与学术界也常直接简称为神经网络或类神经网络。神经网络是一种运算模型，由大量的节点（或称神经元）之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数（activation function）。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆。网络的输出则依网络的连接方式，权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。最近十多年来，人工神经网络的研究工作不断深入，已经取得了很大的进展，其在模式识别、智能机器人、自动控制、预测估计、生物、医学、经济等领域已成功地解决了许多现代计算机难以解决的实际问题，表现出了良好的智能特性。

超越深度学习：梯度提升机Gradient Boosting Machines (GBM)，73页ppt

专知会员服务

52+阅读 · 2020年6月21日

【KDD2020】从用户行为中挖掘隐含的相关性反馈，用于Web问题的回答

专知会员服务

35+阅读 · 2020年6月13日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

网络流量监测与分析大数据综述，A Survey on Big Data for Network Traffic Monitoring and Analysis

专知会员服务

65+阅读 · 2020年3月5日