大数据面前，统计学的价值在哪里( 八 ) 原标题：大数

而当时还有一个机构，准确地说是一个年轻人，叫盖洛普，他的预测结果跟文学文摘的预测正好相反。起初盖洛普做这类调查统计，是因为他的母亲要竞选众议员，他是给他母亲帮忙，于是就在经费不多的情况下做了对较小人群的相关调查，然后这个调查结果很成功，他母亲当上了众议员。接下来他就想调查一下，罗斯福和兰登谁会赢得1936年竞选。但是他比不了文学文摘的财大气粗，所以他只调查了5000个人，根据这5000人的调查结果，盖洛普预测罗斯福当选。

结果罗斯福果然成功连任总统，盖洛普的预测胜利了。

这个选举结果出来之后，对《文学文摘》杂志的声誉造成了巨大的冲击：毕竟文学文摘调查了240万人，最后却发布了一个错误的预测，而盖洛普只调查了5000人，发布的预测却是正确的。结果，文学文摘因为这个事情后来就关门倒闭了。而那个年轻人盖洛普，就此成立了一个民意调查公司，也就是现在的盖洛普咨询公司。

这是事情的结果。那么为什么调查了5000人的预测，要比调查240万人的结果更准确呢？我们先不说240万这种海量数据，它在规模变大以后会带来计算效率的下降，我们也不提这类海量收集数据会导致成本居高不下的问题。根本的原因，是当时文学文摘通过杂志夹带问卷进行调查的这种方式。因为当初问卷是夹在杂志中发放的，所以文学文摘收集来的240万份有效问卷，实际面对的都是订阅了这份期刊的用户。那么，当时什么样的家庭会订阅这样的杂志呢？一般来说都是家境比较好的家庭，所以，文学文摘虽然号称调查了240万人之多，但是它调查的主要群体，是当时美国国内相对而言有钱的那部分人。而穷人群体的意见，它这个调查实际并没有覆盖到。

数据的量多不一定就代表准确，收集来的数据质量好、有代表性，才有可能分析出准确的结果。

统计学是一门分析数据的艺术