大数据面前,统计学的价值在哪里( 十 )

如何判断因果关系呢 , 这就需要我们非常小心 , 而且要非常艺术地做数据分析了 , 我们最终还是要回到统计学上来 。

这里 , 我们举一个历史上的疾病案例 , 这就是小儿麻痹症 , 也就是脊髓灰质炎 。 现在大家看到的小儿麻痹症病例比较少 , 因为现在有相应的疫苗 。 历史上 , 脊髓灰质炎曾经是一个让人非常害怕的疾病 。

在20世纪50年代 , 当时美国一所大学的实验室 , 做出了一种针对这个疾病的疫苗 , 已经证明它在实验室条件下能够产生有效的抗体 。 但是他们不知道 , 如果应用到实际生活中的大规模实验 , 这个疫苗还会不会有效 。 所以当时美国政府部门就决定要做实验 , 这个时间大致在1954年 。 因为当时脊髓灰质炎的患者主要是孩子 , 所以当时的实验人群定为小学一二三年级的学生 。 怎么做实验才能够真正说明疫苗是否有效呢?为了确保统计结果最终反映真实的因果关系 , 当时提出了五套实验方案 。

第一套方案是 , 因为1953年之前是没有这个疫苗的 , 所以就从1954年开始 , 给所有的一二三年级小学生接种疫苗 , 最后再来看一下 , 1954年的发病率 , 跟1953年相比 , 会不会有差别 。 这个方案是个办法 , 但是它有问题 , 因为之前每一年的脊髓灰质炎发病率的差别比较大 。 比如说1951年全美可能有3万名脊髓灰质炎患者 , 1952年则有6万名 , 而1953年又可能缩减到不足4万名 。 这个脊髓灰质炎每年发病率的波动都比较大 , 万一到时候实验结果是3万名到4万名之间 , 如何判断这个结果是随机变化的 , 还是疫苗发生了作用?

第二个方案则提出要按照地区来做 。 比如 , 在纽约地区 , 就给一二三年级小学生们全部接种疫苗 , 而在芝加哥地区的就全部不接种疫苗 , 然后来统计 , 纽约和芝加哥这两个地区的脊髓灰质炎发病情况 。 这个方案后来发现也不行 。 因为脊髓灰质炎本身就是传染病 , 一个地区可能流行这个疾病了 , 而另外一个地区就可能没流行 , 那么这两个地区的数据看起来就会有差异 , 但是这不是疫苗的效果 , 不具有可比性 。


推荐阅读