大数据面前,统计学的价值在哪里( 四 )

第一组的实验有价值 , 但是它也不一定能够全面反映真实的情况 , 所以调查人员还有第二组实验 。

第二组实验 , 是要求受调查者回答五个问题 。 这五个问题在回答之前 , 需要受调查者承诺 , 他不能为了答题去查阅任何资料 , 不能去寻求任何帮助 , 也就是说 , 看了这五个问题之后 , 受调查者需要立即给出答案 。 调查者承诺 , 如果五个问题中 , 回答对了四个以上 , 就奖励给受访者十块钱 , 如果答对三个或者三个以下 , 就没有奖励 。

而这五个问题中 , 其中有三个问题特别简单 , 类似于像1+1等于几这种问题 。 另外两个问题则非常生僻 。 如果受调查者不去查阅资料或咨询他人的话 , 基本是不太可能回答出来的 。 因此 , 如果有受调查者答对了这两道难题 , 十有八九就说明他违反了自己事先承诺的“不去查阅资料寻求帮助” , 由此可以推论他在这件事情上不诚实 。

然后统计人员通过这两组实验结果 , 互相验证 。 这两组数据收集的过程都非常恰当地体现了统计学在收集数据方面的智慧 。

所以说 , 即使在大数据时代 , 不是说有了计算机 , 有了爬虫技术 , 我们就能收集到适合研究目的的所有数据 。 统计学是一个收集数据的艺术 , 针对特定的研究目的 , 设计非常漂亮的数据收集方案 , 就是一个非常艺术的收集数据的过程了 。

我们再举一个例子 。 这是最近美国麻省理工刚刚完成的一个实验 , 大致在2018年左右完成的 , 实验结果也公布出来了 。 目的是想了解大家目前的婚姻观念 , 100人受到邀请来到一个封闭的场所参与这个实验 。 参加实验时 , 每人都会被贴上一个编号 。 男的编号是单数一三五七九 , 女的编号是双数二四六八十 , 以此类推 。 参与实验的这100人不知道自己的编号 , 也不知道究竟有多少人参加了这次实验 。 换句话说 , 他们不知道参加这次实验的正好是50个男人和50个女人 , 受访者仅仅知道 , 这次实验有很多人参加 。


推荐阅读