大数据面前,统计学的价值在哪里( 八 )

而当时还有一个机构 , 准确地说是一个年轻人 , 叫盖洛普 , 他的预测结果跟文学文摘的预测正好相反 。 起初盖洛普做这类调查统计 , 是因为他的母亲要竞选众议员 , 他是给他母亲帮忙 , 于是就在经费不多的情况下做了对较小人群的相关调查 , 然后这个调查结果很成功 , 他母亲当上了众议员 。 接下来他就想调查一下 , 罗斯福和兰登谁会赢得1936年竞选 。 但是他比不了文学文摘的财大气粗 , 所以他只调查了5000个人 , 根据这5000人的调查结果 , 盖洛普预测罗斯福当选 。

结果罗斯福果然成功连任总统 , 盖洛普的预测胜利了 。

这个选举结果出来之后 , 对《文学文摘》杂志的声誉造成了巨大的冲击:毕竟文学文摘调查了240万人 , 最后却发布了一个错误的预测 , 而盖洛普只调查了5000人 , 发布的预测却是正确的 。 结果 , 文学文摘因为这个事情后来就关门倒闭了 。 而那个年轻人盖洛普 , 就此成立了一个民意调查公司 , 也就是现在的盖洛普咨询公司 。

这是事情的结果 。 那么为什么调查了5000人的预测 , 要比调查240万人的结果更准确呢?我们先不说240万这种海量数据 , 它在规模变大以后会带来计算效率的下降 , 我们也不提这类海量收集数据会导致成本居高不下的问题 。 根本的原因 , 是当时文学文摘通过杂志夹带问卷进行调查的这种方式 。 因为当初问卷是夹在杂志中发放的 , 所以文学文摘收集来的240万份有效问卷 , 实际面对的都是订阅了这份期刊的用户 。 那么 , 当时什么样的家庭会订阅这样的杂志呢?一般来说都是家境比较好的家庭 , 所以 , 文学文摘虽然号称调查了240万人之多 , 但是它调查的主要群体 , 是当时美国国内相对而言有钱的那部分人 。 而穷人群体的意见 , 它这个调查实际并没有覆盖到 。

数据的量多不一定就代表准确 , 收集来的数据质量好、有代表性 , 才有可能分析出准确的结果 。

统计学是一门分析数据的艺术


推荐阅读