大数据面前,统计学的价值在哪里( 七 )

这时候 , 一个叫开普勒的人出现了 。 开普勒认为 , 第谷每天去观测 , 一年365天每一颗行星都会有365个数据 , 这样20年观测记录积累下来 , 要分析处理的数据就太多了 , 而且那个时候的数据分析只能依靠手工计算 , 这个处理工作量实在太大了 。 于是开普勒就说 , 能不能每年只给我一个数据 , 比如说你可以只告诉我每年的1月1日 , 地球在什么位置 , 土星在什么位置 , 太阳在什么位置 , 等等 。 这样20年的观测数据筛选之后 , 每一颗行星的数据就只有20个了 。 开普勒知道 , 地球每隔365天会回到同一个位置 , 然后他把地球的位置固定 , 再分析其他行星跟地球的相对位置 。 开普勒通过固定地球的位置 , 对其他行星位置20年的数据进行分析 , 就成功得到了其他行星的运行轨迹 。 此后开普勒就发现 , 如果地球位置不变的话 , 那么其他行星的20年运行轨迹画出来之后 , 这些行星都是围着太阳运转 , 运行轨迹都是椭圆形的 。 由此开普勒发现了行星运动的规律 。

从这个天文学上的著名案例 , 我们可以看出来 , 数据太多可能会导致信息量变得巨大 , 反而增加寻找到规律的难度 。 从而需要通过科学的方法简化数据 。

关于这方面的案例还有不少 。 比如说美国总统富兰克林·罗斯福 。 他是美国历史上唯一一位连任四届的总统 。 1932年的时候他第一次当总统 , 当时美国和许多国家正在遭受经济危机 , 罗斯福面临的压力也很大 。 因此到了1936年罗斯福想竞选自己的第二任总统的时候 , 美国许多人预测罗斯福很难连任 。 那一次 , 罗斯福的主要竞选对手是兰登 。 当时就有两个机构在预测总统选举结果 , 其中一个是《文学文摘》杂志 , 它在当时是一个非常有影响力的刊物 , 因为这个杂志此前几次对总统选举结果的预测都成功了 。 到了1936年美国总统选举的时候 , 文学文摘搞了一个大的调查统计 , 它调查了240万人 。 具体方式就是在杂志里面夹上关于总统选举的调查问卷 , 然后收集反馈 。 其实当时文学文摘调查的还不止240万人 , 还要更多 , 只不过最后收回来的有效问卷是240万份 。 正是根据这个调查结果 , 文学文摘宣布他们预测兰登将战胜罗斯福赢得大选 。


推荐阅读