1.2.3 统计分析技术及其应用领域

1.统计分析的两种思路——数据分析与数据挖掘

数据统计分析的发展遵循两条思路。其一,面向静态数据的数据分析(Data Anlaysis,DA);其二,面向动态数据的实时数据挖掘(Data Mining,DM)。

所谓面向静态数据的数据分析,是指借助数据分析专业软件,对通过社会调查、科学实验所获得的数据,或者对从信息系统导出的某一时间段的数据进行分析。这种分析很少考虑数据的动态性、过程性和变化性,往往是针对某一时间段的状态所做的数据分析。

所谓面向动态数据的实时数据挖掘,是指在信息系统中集成数据挖掘算法,以便信息系统能够随时针对动态数据开展分析。这种技术强化时间序列特点,依托支持动态数据采集和集成的数据仓技术,开展实时的数据分析。它对用户具有很高的要求,已经成为主流数据库系统的重要功能。

2.大数据时代的统计分析已渗透到诸多领域

随着“大数据热”愈演愈烈,数据分析与数据挖掘的算法日益成熟,统计学、数据挖掘的技术手段被引入大数据处理过程中,起到了重要的作用。

首先,统计学理论被引入大数据处理领域,统计分析的手段已经变成了数据分析的常规手段。由于大数据的规模比较大,经过数据清洗的有效数据通常符合统计规律,因此信度检验、关联性分析、数据离散性描述(方差、标准差)、聚类分析、主成分分析等被广泛地应用到大数据处理的过程中。目前,这些技术已经被集成到多种计算机信息系统中,发挥着越来越重要的作用。

其次,除了传统的数据分析技术之外,遗传算法、神经网络、语义网络、分布式数据库管理等面向大数据的处理技术也已经日益成熟。

最后,专业的数据挖掘软件、数据推送技术快速发展。应大数据处理的要求,IBM、微软、甲骨文(Oracle)等公司都在自己的大型数据库管理系统(Database Management System,DBMS)中集成了数据挖掘技术,强化时间序列特点、支持数据挖掘技术的数据仓已经成为主流数据库系统的重要组件,为基于大数据的数据挖掘提供了强大的技术支撑。

3.统计分析的算法与思维被广泛地应用于人工智能领域

大数据、并行计算、深度学习是当代人工智能的三大要素。人工智能建立于海量优质数据和应用场景的基础之上,基于海量数据的模型训练是深度学习的核心策略。在这个过程中,算法的质量、训练数据的数量、规模等因素尤为重要,丰富的海量数据集是算法模型训练的前提。大数据一方面为人工智能提供了大量的训练数据,另一方面还为人工智能的发展提供了优质的数据处理算法。在这个过程中,统计分析中常见的判别分析、聚类分析、回归分析等算法是人工智能领域模式识别和模型训练的基石,正是由于统计分析算法和统计思维的存在,人工智能才在近几年取得如此瞩目的成就。