|
数据科学有助于破译数据中隐藏的有用关系。在使用统计、机器学习和算法技术进行任何高级数据分析之前,必须执行基础数据探索以研究数据集的基本特征。数据探索有助于更好地理解数据,有时候能比使用高级分析技术更快地从数据中获得必要的见解。 简单的数据透视表功能,计算平均值和偏差等统计数据,以及将数据绘制为线条、条形图和散点图,是日常业务设置中使用的数据探索技术的一部分。数据探索提供了一组工具,以获得对数据集的基本了解。在掌握数据的结构、值的分布、极值的存在以及数据集中属性之间的相互关系时,数据探索的结果非常有用。数据探索还为应用正确的进一步统计和数据科学过程提供指导。 数据探索可以大致分为两种类型——描述性统计和数据可视化。描述性统计是将数据集的关键特征压缩为简单数字度量的过程。使用的一些常见量化指标是均值、标准差和相关性。可视化是将数据或其部分投影到多维空间或抽象图像中的过程。所有有用的图表都属于这一类。 在数据科学过程中,数据探索可用于许多不同的步骤,包括预处理或数据准备、建模和模型结果的可解释性,具体如下: (1)数据理解:数据探索提供数据集中每个属性(也称为变量)的高级概述以及属性之间的交互。数据探索有助于回答问题,例如属性的典型值或数据点与典型值的差异,或极值的存在。 (2)数据准备:在应用数据科学算法之前,必须准备数据集以处理数据中可能存在的任何异常。这些异常包括异常值、缺失值或高度相关的属性。当输入属性彼此相关时,一些数据科学算法不能很好地工作。因此,需要识别和移除相关属性。 (3)数据科学任务:基本数据探索有时可以替代整个数据科学过程。例如,散点图可以识别低维数据中的聚类,或者可以帮助开发具有简单视觉规则的回归或分类模型。 (4)解释结果:数据探索可用于理解数据科学过程的结果预测、分类和聚类。直方图有助于理解属性的分布,也可用于可视化数值预测、错误率估计等。 【出处】维贾伊.库图,巴拉.德斯潘德,著,黄智濒,白鹏 译.数据科学概念与实践,机械工业出版社,2020年9月第1版。
|