找回密码
 立即注册
查看: 69|回复: 0

数据词典:数据探索(Data Explore)

[复制链接]

108

主题

1

回帖

478

积分

管理员

积分
478
发表于 2025-10-28 08:16:43 | 显示全部楼层 |阅读模式
数据科学有助于破译数据中隐藏的有用关系。在使用统计、机器学习和算法技术进行任何高级数据分析之前,必须执行基础数据探索以研究数据集的基本特征。数据探索有助于更好地理解数据,有时候能比使用高级分析技术更快地从数据中获得必要的见解。
简单的数据透视表功能,计算平均值和偏差等统计数据,以及将数据绘制为线条、条形图和散点图,是日常业务设置中使用的数据探索技术的一部分。数据探索提供了一组工具,以获得对数据集的基本了解。在掌握数据的结构、值的分布、极值的存在以及数据集中属性之间的相互关系时,数据探索的结果非常有用。数据探索还为应用正确的进一步统计和数据科学过程提供指导。
数据探索可以大致分为两种类型——描述性统计和数据可视化。描述性统计是将数据集的关键特征压缩为简单数字度量的过程。使用的一些常见量化指标是均值、标准差和相关性。可视化是将数据或其部分投影到多维空间或抽象图像中的过程。所有有用的图表都属于这一类。
在数据科学过程中,数据探索可用于许多不同的步骤,包括预处理或数据准备、建模和模型结果的可解释性,具体如下:
(1)数据理解:数据探索提供数据集中每个属性(也称为变量)的高级概述以及属性之间的交互。数据探索有助于回答问题,例如属性的典型值或数据点与典型值的差异,或极值的存在。
(2)数据准备:在应用数据科学算法之前,必须准备数据集以处理数据中可能存在的任何异常。这些异常包括异常值、缺失值或高度相关的属性。当输入属性彼此相关时,一些数据科学算法不能很好地工作。因此,需要识别和移除相关属性。
(3)数据科学任务:基本数据探索有时可以替代整个数据科学过程。例如,散点图可以识别低维数据中的聚类,或者可以帮助开发具有简单视觉规则的回归或分类模型。
(4)解释结果:数据探索可用于理解数据科学过程的结果预测、分类和聚类。直方图有助于理解属性的分布,也可用于可视化数值预测、错误率估计等。
【出处】维贾伊.库图,巴拉.德斯潘德,著,黄智濒,白鹏 译.数据科学概念与实践,机械工业出版社,20209月第1版。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|全数联人才测评中心 ( 京ICP备2024094898号 )

GMT+8, 2025-11-18 06:44 , Processed in 0.105793 second(s), 20 queries .

版权所有: 全数联人才测评(北京)中心

友情链接: 中华全国数字人才培育联盟 全数联人才测评中心学习平台 全数联人才测评中心存证平台 全数联人工智能专员认证中心

快速回复 返回顶部 返回列表