大数据面前,统计学的价值在哪里( 十 )
如何判断因果关系呢 , 这就需要我们非常小心 , 而且要非常艺术地做数据分析了 , 我们最终还是要回到统计学上来 。
这里 , 我们举一个历史上的疾病案例 , 这就是小儿麻痹症 , 也就是脊髓灰质炎 。 现在大家看到的小儿麻痹症病例比较少 , 因为现在有相应的疫苗 。 历史上 , 脊髓灰质炎曾经是一个让人非常害怕的疾病 。
在20世纪50年代 , 当时美国一所大学的实验室 , 做出了一种针对这个疾病的疫苗 , 已经证明它在实验室条件下能够产生有效的抗体 。 但是他们不知道 , 如果应用到实际生活中的大规模实验 , 这个疫苗还会不会有效 。 所以当时美国政府部门就决定要做实验 , 这个时间大致在1954年 。 因为当时脊髓灰质炎的患者主要是孩子 , 所以当时的实验人群定为小学一二三年级的学生 。 怎么做实验才能够真正说明疫苗是否有效呢?为了确保统计结果最终反映真实的因果关系 , 当时提出了五套实验方案 。
第一套方案是 , 因为1953年之前是没有这个疫苗的 , 所以就从1954年开始 , 给所有的一二三年级小学生接种疫苗 , 最后再来看一下 , 1954年的发病率 , 跟1953年相比 , 会不会有差别 。 这个方案是个办法 , 但是它有问题 , 因为之前每一年的脊髓灰质炎发病率的差别比较大 。 比如说1951年全美可能有3万名脊髓灰质炎患者 , 1952年则有6万名 , 而1953年又可能缩减到不足4万名 。 这个脊髓灰质炎每年发病率的波动都比较大 , 万一到时候实验结果是3万名到4万名之间 , 如何判断这个结果是随机变化的 , 还是疫苗发生了作用?
第二个方案则提出要按照地区来做 。 比如 , 在纽约地区 , 就给一二三年级小学生们全部接种疫苗 , 而在芝加哥地区的就全部不接种疫苗 , 然后来统计 , 纽约和芝加哥这两个地区的脊髓灰质炎发病情况 。 这个方案后来发现也不行 。 因为脊髓灰质炎本身就是传染病 , 一个地区可能流行这个疾病了 , 而另外一个地区就可能没流行 , 那么这两个地区的数据看起来就会有差异 , 但是这不是疫苗的效果 , 不具有可比性 。
推荐阅读
- 陈亚男|陈亚男直播狂捞82万?数据作假口碑降到4.09,朱小伟被打内幕被扒
- 肖战|肖战数据多厉害?榜单出炉碾压众多小鲜肉,没想到超过王一博17倍
- 李沁|这数据太真实,不敢相信,没有了肖战的撑场,江苏台收视一落千丈
- 开端|《开端》中7位宝藏演员,都比刘涛演得好,在演技面前,颜值名气都不值一提
- 带货|这些明星用实例告诉我们,“变味”的亲情在利益面前一文不值
- 芒果台|官方公布的收视数据,芒果台还真的拿到了卫视年冠?
- 黄景瑜|黄景瑜:16岁辍学打工,半路出道红透半边天,从不在父母面前流泪
- 肖战|肖战开年喜事连连,斩获年度人气男演员,数据太耀眼
- 选秀|重温《甄嬛传》:她才是最有心机的女人,甄嬛在她面前黯淡失色
- 言承旭|2021年香港流媒体音乐数据:前10位MIRROR占8席,卫兰30强不入?
