找回密码
 立即注册
查看: 36|回复: 0

数据词典:数据剖析(Data Profiling)

[复制链接]

1231

主题

74

回帖

4110

积分

管理员

积分
4110
发表于 2025-12-5 11:21:55 | 显示全部楼层 |阅读模式
数据剖析(Data Profiling)是一种用于检查数据和评估质量的数据分析形式。数据剖析使用统计技术来发现数据集合的真实结构、内容和质量。剖析引擎生成统计信息,分析人员可以使用这些统计信息识别数据内容和结构中的模式。例如:
1.空值数。标识空值存在,并检查是否允许空值。
2.最大/最小值。识别异常值,如负值。
3.最大/最小长度。确定具有特定长度要求的字段的异常值或无效值。
4.单个列值的频率分布。能够评估合理性(如交易的国家代码分布、频繁或不经常发生的值 的检查,以及用默认值填充的记录百分比)。
5.数据类型和格式。识别不符合格式要求的水平,以及意外格式识别(如小数位数、嵌入空 格、样本值)。
剖析还包括跨列分析,它可以识别重叠或重复的列,并暴露值的内在依赖关系。表间分析探索重叠的值集,并帮助识别外键关系。大多数数据分析工具允许深入分析数据,以进行进一步调查。
分析人员必须评估剖析引擎的结果,以确定数据是否符合规则和其他要求。一个好的分析人员 可以使用分析结果确认已知的关系,并发现数据集内和数据集之间隐藏的特征和模式,包括业务规 则和有效性约束。剖析通常被作为项目中数据发现的一部分(尤其是数据集成项目),或者用于评估待改进的数据的当前状态。数据剖析结果可用来识别那些可以提升数据和元数据质量的机会。
虽然剖析是理解数据的有效方法,但只是提高数据质量的第一步,它使组织能够识别潜在的问 题。解决问题还需要其他形式的分析,包括业务流程分析、数据血缘分析和更深入的数据分析,这 些分析有助于隔离出问题的根本原因。
【出处】English, Larry. Information Quality Applied: Best Practices for Improving Business Information, Proces¬ses ,and Systems. Wiley Publishing, 2009. Print.

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|全数联人才测评中心 ( 京ICP备2024094898号 )

GMT+8, 2026-1-3 00:47 , Processed in 0.080868 second(s), 20 queries .

版权所有: 全数联人才测评(北京)中心 备案图标.png 京公网安备11011102002767号 京ICP备2024094898号

友情链接: 中华全国数字人才培育联盟 全数联人才测评中心学习平台 全数联人才测评中心存证平台 全数联人工智能职业认证中心

快速回复 返回顶部 返回列表