如何读懂数据?

本文转自微信公众号未一统计

   数据、特别是统计数据,至于我们认识世界、掌握事物特征和发展规律的重要性,就像人的眼睛一样。离开数据,我们将深处迷茫。大数据时代的到来,人们对数据的认识又上了一个新的台阶,已经到了无数据不言谈、无数据不行文、无数据不决策的程度。显然,这是一个好现象,说明人们已普遍养成了数据观念。

然而,什么是数据?我们是否认识数据?我们能否读懂数据?或许有人会说,这没啥,很简单。其实,这是一个很大的话题,要真正认识和读懂数据并非易事,有时甚至极其困难,因为任何一个数据都是活的,都是有来源、有故事的。

限于篇幅,本文不详细讨论什么是数据。概而言之,从广义上看,任何被记录的信息都是数据;从狭义上看,一切能反映事物量化特征的数就是数据;从统计的角度看,能够用统计方法进行处理和分析的数据才是统计数据。为了更好地应用数据,充分地让数据说真话,下面我以统计角度,从个方面就如何认识和读懂数据谈点看法。

首先,要从数据的指标内涵上去认识和解读。在统计上,任何一个数据都是某一指标的一个具体结果,因此要认识和解读数据首先要正确理解指标的内涵。统计指标是基于一定理论对所研究现象某一可量化的本质特征的科学概括,有其明确的内涵和外延,其在一定时间空间条件下的具体结果就成为数据。指标是数据的载体,数据是指标的体现,两者是本与标的关系。所以,要想读懂数据,就需要先读懂指标。例如众所周知的GDP指的是一个国家(或地区)所有常单位在一定时期内生产的全部最终产品和服务的价值总和。某年某地区的GDP多少亿元只是一个规模大小的体现,而衡量这个规模大小的依据是GDP本身的内涵,即什么是GDP。对于普通的数据使用者或解读者来说,可以不必要知道为什么要这样定义这个指标,但一定要明白这个所定义指标的本质规定性是什么(最终产品和劳务),它与其他同类或相关指标(GNP、NI)有什么不同,核算的口径范围如何(什么是最终产品和务?哪些该算哪些不该算?),具体如何核算(生产法?收入法?支出法?),每一种核算方法的构成内容有哪些(例如收入法的GDP由劳动者报酬、固定资产折旧、生产税净额和营业盈余四部分构成),每一项构成内容又是如何定义和规定的(例如什么是劳动者报酬?它如何构成?)等等一系列问题。当然,要搞清楚上述问题并不是一件容易的事,所以尽管很多人都在谈GDP,但却很少人真正懂得什么是GDP。

作为理解指标内涵的延伸,还需要弄清楚数据的时间规定和空间规定,这个问题看似简单,但稍有不慎就会出错,造成前后左右以及相关数据之间的不可比。此外,还要千万留意数据的计量单位,它是数据的有机构成部分,任何统计数据都是由数、量和计量单位构成的。计量单位弄错,就会使整个统计分析失去意义。

其次,要从数据的性质和具体意义上去认识和解读。就数据的性质而言,我认为要重点关注这么几点:(1)它属于定性数据还是定量数据?其中定性数据包括定类数据(例如性别数据)和定序数据(例如等级数据),定量数据包括定距数据(例如利润数据)和定比数据(例如身高数据)。不同性质的数据,其计算分析方法与适用条件均不一样,例如像利润、气温等定距数据,就不能进行通常的对比分析。(2)它属于总量数据还是质量数据?其中总量数据又分为时期总量(例如产量数据)和时点总量(例如人口数据),前者具有动态可加性,后者不能;质量数据是总量数据的派生数据,又分为平均数与相对数,而平均数与相对数又有多种具体不同的类型,计算方法与适用场合也各不相同。(3)它属于正向数据、逆向数据还是中性数据?正向数据是希望其越大越好的数据(例如人均GDP),逆向数据是希望其越小越好的数据(例如万元GDP能耗量),而中性数据是希望其保持在适度范围的数据(例如基尼系数)。当然,所谓的正向、逆向和中性都是基于一定条件的,不是绝对的。从某种意义上讲,所有数据都是中性数据,都不能片面追求极大或极小,尤其在统计综合评价时更要注意这一点。

就数据的具体意义而言,就是要搞清楚每一个数据所能说明的问题是什么,即能通过“量”看到“质”。例如,看到人均GDP数据,就能够判断其整体经济发展水平;看到基尼系数数据,就能够明白其收入分配的差异程度;看到相关系数数据,就能够确定其相关的性质和程度;如此等等。只有这样,数据的价值才能得到体现。否则,数据就只能是数据,摆在你面前也说明不了任何问题。

第三,要从数据的来源和测度上去认识和解读。除了熟悉数据的内涵和性质外,还必须知道数据是怎么来的、怎么测度的。它是观测数据还是实验数据或是模拟数据?是全面观测数据还是样本观测数据?是大样本数据还是小样本数据?若是实验数据,其有关条件如何?若是模拟数据,其有关假设怎样?数据的测度单位怎么定义(例如居民收入测度,以个人为测度单位还是以家庭为测度单位)?用什么方法测度(计数?丈量?观测?实验?卫星遥感?主观评分?问卷量表?或是其他什么方法)?弄清楚这些问题,对于正确理解或解读数据非常重要,因为尽管有时候数据的指标名称相同,但如果来源与测度方法不同,那么它们说明问题的广度、深度和视角都会不同,统计分析方法也应有差异。

第四,要从数据的关系上去认识和解读。我们研究和分析问题,需要依赖一系列数据,即通过统计指标体系来系统地加以反映。数据不是孤立的,往往是相互关联的,但关联的方式与程度不尽相同。所以,我们在应用数据时,要对数据群中的数据进行归纳梳理,看看哪些数据是同类的、哪些数据是互补的;那些数据之间存在相关关系、哪些数据之间存在因果关系;哪些属于过程数据、哪些属于结果数据;哪些属于核心数据、哪些属于辅助数据。搞清楚数据群中每一种数据的位置,对于我们在综合评价时指标的选择、构建模型时因变量与自变量的确定与选择,都至关重要。

第五,要从数据的内在结构上去认识和解读。在统计上,有些数据所依附的指标是高度概括和极其综合的(例如GDP),其本身由很多部分的数据所组成,因此我们还需要从数据的内部结构上去观察其空间差异和时间变化。例如,收入法GDP四部分所占比重及其变化、支出法GDP四部分所占比重及其变化分别说明什么问题?同样的GDP增长速度但各构成部分的作用不同说明什么问题?同样的人均GDP但各构成部分不同又说明什么问题?再如,居民可支配收入各构成部分所占比重及其变化,又反映了什么问题?如此等等,数据的内部结构都大有文章。

第六,要从数据背后的数据去认识和解读。任何一种数据只能说明一个侧面的问题,具有一定的片面性和局限性,因此我们在使用一些数据特别是派生数据时,一定要结合问题的具体背景,以其背后的数据来还原事实真相。例如,我们常用增长速度来表示事物发展变化的快慢。但同样的增长速度是否代表同样的发展成果?这就值得注意了。如果起点不同,那么同样增长速度背后的绝对量就不同,即增长1%的绝对量不同。这也正是为什么我国GDP几十年高速度的增长才逐步缩小与平均每年只增长2%-3%的美国之间距离的原因所在。同样只有结合人均GDP增长速度等数据来观察实际人均可支配收入数据的变化,才更具有说服力。再有一点就是,当发现两个数据之间有某种关联的时候,要看一看背后有没有同时影响着这两个数据的决定性数据。

总之,数据就是有根据的数,从“根本”上去量化“据”,从“源头”上去寻找“据”,从“关系”上去梳理“据”,从“内情”和“背景”上去剖析“据”,才是我们认识和读懂数据的根本所在。只有读懂数据,才能选对方法,用对模型,搞准分析。

        (已刊登于《中国统计》2018年第9期)