大数据面前，统计学的价值在哪里( 十 ) 原标题：大数

如何判断因果关系呢，这就需要我们非常小心，而且要非常艺术地做数据分析了，我们最终还是要回到统计学上来。

这里，我们举一个历史上的疾病案例，这就是小儿麻痹症，也就是脊髓灰质炎。现在大家看到的小儿麻痹症病例比较少，因为现在有相应的疫苗。历史上，脊髓灰质炎曾经是一个让人非常害怕的疾病。

在20世纪50年代，当时美国一所大学的实验室，做出了一种针对这个疾病的疫苗，已经证明它在实验室条件下能够产生有效的抗体。但是他们不知道，如果应用到实际生活中的大规模实验，这个疫苗还会不会有效。所以当时美国政府部门就决定要做实验，这个时间大致在1954年。因为当时脊髓灰质炎的患者主要是孩子，所以当时的实验人群定为小学一二三年级的学生。怎么做实验才能够真正说明疫苗是否有效呢？为了确保统计结果最终反映真实的因果关系，当时提出了五套实验方案。

第一套方案是，因为1953年之前是没有这个疫苗的，所以就从1954年开始，给所有的一二三年级小学生接种疫苗，最后再来看一下， 1954年的发病率，跟1953年相比，会不会有差别。这个方案是个办法，但是它有问题，因为之前每一年的脊髓灰质炎发病率的差别比较大。比如说1951年全美可能有3万名脊髓灰质炎患者， 1952年则有6万名，而1953年又可能缩减到不足4万名。这个脊髓灰质炎每年发病率的波动都比较大，万一到时候实验结果是3万名到4万名之间，如何判断这个结果是随机变化的，还是疫苗发生了作用？

第二个方案则提出要按照地区来做。比如，在纽约地区，就给一二三年级小学生们全部接种疫苗，而在芝加哥地区的就全部不接种疫苗，然后来统计，纽约和芝加哥这两个地区的脊髓灰质炎发病情况。这个方案后来发现也不行。因为脊髓灰质炎本身就是传染病，一个地区可能流行这个疾病了，而另外一个地区就可能没流行，那么这两个地区的数据看起来就会有差异，但是这不是疫苗的效果，不具有可比性。