|
探索性数据分析(Exploratory Data Analysis,EDA)是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,并通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。当我们对数据中的信息没有足够的经验,且不知道该用何种传统统计方法进行分析时,经常采用探索性数据分析进行数据分析。 EDA方法与传统统计学中的验证性分析方法不同,二者的主要区别如下: 1.EDA不需要事先假设,而验证性分析需要事先提出假设。 2.EDA中采用的方法往往比验证性分析简单。EDA常用的统计量包括众数、中位数、四分位数、和、平均值、极差、标准差、方差、极小值、极大值等。当然,还可运用简单且直观的茎叶图、箱线图、残差图、字母值、数据变换、中位数平滑等进行探索性分析。可见,相对于传统验证性分析方法,EDA更为简单、易学和易用。 3.在一般数据科学项目中,探索分析在先,而验证性分析在后。通常,基于EDA的数据分析工作可分为两个阶段:探索性分析和验证性分析阶段,即先做探索性数据分析,然后根据EDA得出的数据结构和模式特征,提出假设,并选择合适的验证性分析方法。 【出处】朝乐门.数据科学,清华大学出版社,2016年8月第1版.
|