1.2.2 统计推断的主流技术

目前用得最多的统计推断技术主要有关联性分析、差异显著性检验、聚类分析、降维分析、信度和效度检验、主成分分析等多种。

1.关联性分析

关联性分析是指对两个或多个可能具备相关性的变量进行分析,从而衡量变量之间相关关系的密切程度。相关关系的密切程度可以分为高度一致性(即高度正相关关系)、高度相反性(即高度负相关关系)、不相关。

从关联性分析包含的策略看,关联性分析包含相关性分析和回归分析两个层次。

在统计分析学中,对两个数据序列相关性的分析主要通过相关系数r和相关性检验概率p值两个指标来体现。其中,相关系数r的绝对值在0到1之间,反映两列数据的关联程度;p值则为不相关的概率值。

若变量之间的关联性可以用一个函数式表达出来,那么人们把探索这个函数式的过程称为回归分析,把这个函数式称为回归方程。借助回归方程,一方面能够表达变量间相互影响的关系,另一方面还能用于预测。

随着大数据时代的来临,由于数据之间的关联常常为多维的、双向的,因此针对数据之间的内在逻辑,人们更加关注其关联性,而不是其中的因果关系。

2.差异显著性检验

差异显著性检验简称为差异性检验,用于判断两个数据序列是否存在显著的差别。数据序列的差异显著性检验分为均值差异性和分布差异性两种形式。对于具有正态分布形态的两列连续型数据,通常可检验其均值差异性,即通过检查均值之间的差异程度判断其差异是否很显著;而对不明形态或非正态分布的数据,则常常检查其分布差异性。

差异显著性检验是一种推断检验。通常首先假设两列数据之间没有显著差异,通过计算相应的统计量判断无显著差异的可能性(即概率p值)。在统计学中,通常以0.05为界限(即95%的置信度),若两列数据无显著差异的检验概率值p大于0.05,则承认原假设,即两列数据之间没有显著差异;反之,若两列数据无显著差异的检验概率值p小于0.05,则认为它们之间具有显著差异。

3.降维分析

在调查或研究过程中,常常需从多个视角制作调查或评价指标,从而能够全面地反映调查对象的属性和特点。然而,调查完成后,研究者经常发现指标项非常多,难以凝练出较为简练的结论,或者因多个指标项的语义存在严重重叠,导致语义关系不清晰,这就需要基于数据进一步凝练指标项,以使研究结论维度更少,语义更清晰。

简而言之,降维就是减少评价指标的维度,进一步凝练指标项的过程,从而使结论变得更加易于表述和理解。

4.聚类分析

在数据统计与分析过程中,常常需要把成千上万的个案分成若干类,以便于操作。例如,人们把学生分为男生、女生,就是一种分类,还可以把学生按照综合表现分为优等生、良好生、普通生和差生,这也是一种分类。这种仅仅基于单个变量的分类非常简单,一目了然。然而,如果分类依据非常复杂,需要基于多个变量的取值来实施分类,那么其操作就需要专门的算法。

这种依据多个因素变量的取值,对个案分类的过程就是聚类分析,也叫分类分析。所以,聚类分析就是分析收集到的数据,根据其内在规律和特点,把相似的数据归结为一类,从而形成多个类别的过程。

在数据统计分析过程中,聚类分析可以分为针对个案(记录)的分类和针对变量(字段)的分类。针对变量的聚类过程实际上也是一种降维过程。

5.信度和效度检验

信度是反映数据可靠性的指标,用于反映数据是否可靠,是不是测量对象的真实反映;而效度是反映测量依据有效性的指标,效度通常由测量工具的有效性来体现。例如,以天平测量物体的质量,天平是有效的测量工具,那么这次测量效度就高。

6.主成分分析

主成分分析是从描述客观事物的若干变量中抽取其关键信息的统计分析方法,其作用是把描述某一类别客观事物的若干变量用较少的、更简洁的几个潜变量描述出来。