|
数据剖析(Data Profiling)是一种用于检查数据和评估质量的数据分析形式。数据剖析使用统计技术来发现数据集合的真实结构、内容和质量。剖析引擎生成统计信息,分析人员可以使用这些统计信息识别数据内容和结构中的模式。例如: 1.空值数。标识空值存在,并检查是否允许空值。 2.最大/最小值。识别异常值,如负值。 3.最大/最小长度。确定具有特定长度要求的字段的异常值或无效值。 4.单个列值的频率分布。能够评估合理性(如交易的国家代码分布、频繁或不经常发生的值 的检查,以及用默认值填充的记录百分比)。 5.数据类型和格式。识别不符合格式要求的水平,以及意外格式识别(如小数位数、嵌入空 格、样本值)。 剖析还包括跨列分析,它可以识别重叠或重复的列,并暴露值的内在依赖关系。表间分析探索重叠的值集,并帮助识别外键关系。大多数数据分析工具允许深入分析数据,以进行进一步调查。 分析人员必须评估剖析引擎的结果,以确定数据是否符合规则和其他要求。一个好的分析人员 可以使用分析结果确认已知的关系,并发现数据集内和数据集之间隐藏的特征和模式,包括业务规 则和有效性约束。剖析通常被作为项目中数据发现的一部分(尤其是数据集成项目),或者用于评估待改进的数据的当前状态。数据剖析结果可用来识别那些可以提升数据和元数据质量的机会。 虽然剖析是理解数据的有效方法,但只是提高数据质量的第一步,它使组织能够识别潜在的问 题。解决问题还需要其他形式的分析,包括业务流程分析、数据血缘分析和更深入的数据分析,这 些分析有助于隔离出问题的根本原因。 【出处】English, Larry. Information Quality Applied: Best Practices for Improving Business Information, Proces¬ses ,and Systems. Wiley Publishing, 2009. Print.
|