大数据面前,统计学的价值在哪里( 二 )

很高兴有这样一个机会 , 我能与大家在这里做一些关于统计学与大数据的交流 , 与大家分享一些观点 。

在讲大数据之前 , 我们首先来看看什么是数据 。 很长一段时间里 , 大家对数据的理解 , 可能只是停留在阿拉伯数字这个层面 。 近些年来 , 大家开始讲大数据 。 结果有人就开始好奇了:这个大数据和我们之前说的数据有什么关系呢?

阿拉伯数字是不是数据呢?当然是数据 。 大数据是不是数据呢?当然也还是数据 。 不过 , 现在我们对数据的理解要广泛得多了 。 凡是可以被数据化的信息载体 , 我们都可以认为是数据 。 比如说 , 我们接触的文本 , 包括平时看到的一些文字 , 现在我们都可以把它量化 。 我们看到的图片、视频和音频 , 现在也都可以量化 。 包括阿拉伯数字、文本、图片、视频和音频 , 我们都称之为数据 。 现在我们理解的数据 , 从来源上来说更加广泛了 , 从类型上说变得很复杂了 。 这些不同来源、类型复杂的数据组合在一起 , 达到一定的体量之后 , 就可以认为是一个大数据了 。

现在我们来说一下统计学 , 统计学是什么呢?首先 , 从学科定位上说 , 统计学已经被列为一级学科了 。 这一点和数学、法学等都一样了 。 大不列颠百科全书对统计学有个定义 , 说这是一门收集数据、分析数据的科学和艺术 。 定义中提到统计学是一门科学 , 这个容易理解 。 那为什么说统计学是一门艺术呢?这个问题 , 就和我今天主要回答的一个问题很有关系 。 顺便说一句 , 现在美国很多高校的统计系 , 它并不设在理学院下面 , 而是设在艺术学院下面 。

今天我主要回答一个问题:在大数据时代 , 我们究竟是否需要基于抽样的统计学?

有些人认为 , 现在计算机科学非常发达 , 可以收集海量的数据 。 为了特定的研究目的 , 我们现在甚至有能力通过计算机技术收集与特定的研究目的相关的全部数据 。 今天 , 基于抽样的统计学就没有那么重要了 , 甚至都不在被需要了 。 事实真的是这样吗?


推荐阅读