找回密码
 立即注册
查看: 41|回复: 0

数据词典:数据质量(Data Quality)

[复制链接]

1231

主题

74

回帖

4110

积分

管理员

积分
4110
发表于 2025-11-26 09:26:40 | 显示全部楼层 |阅读模式
数据质量的定义可以从以下两个方面来理解:数据本身的数据质量、数据的过程质量。
就数据本身的数据质量而言,主要包括以下几个方面:
1.数据的真实性。数据必须真实准确地反映实际发生的业务。
2.数据的完备性。数据的完备性是说数据是充分的,任何有关操作的数据都没有被遗漏。
3.数据的自洽性。数据并不是孤立存在的,数据之间往往存在着各种各样的约束,这种约束描述了数据的关联关系。数据必须能够满足这种数据之间的关联关系,而不能够相互矛盾。
数据的真实性、完备性、自洽性是数据本身应具有的属性,称为数据的绝对质量,是保证数据质量的基础。除了数据的绝对质量外,还有我们在利用和存贮数据的过程中所产生的数据质量,包括使用质量、存储质量和传输质量,称之为过程质量。
就数据的过程质量而言,主要包括以下几个方面:
1.数据的使用质量。数据的使用质量是指数据被正确地使用。再正确的数据,如果被错误地使用,就不可能得出正确的结论。
2.数据的存储质量。数据的存储质量是指数据被安全地存储在适当的介质上。所谓安全是指采用了适当的方案和技术来抵制外来的因素,使数据免受破坏,备份是我们常使用的技术,包括异地备份和双机备份等,美国的9.11事件和2004年底发生的印度洋海啸事件,使越来越多的企业领导意识到备份尤其是异地备份的重要性;所谓存储在适当的介质上是指当需要数据的时候能及时方便地取出。
3.数据的传输质量。数据的传输质量是指数据在传输过程中的效率和正确性。在现代信息社会中,数据在异地之间的传输越来越多,保证传输过程中的高效率和正确性非常重要。
数据质量是保证数据应用的基础,它的评估标准主要包括四个方面:完整性、一致性、准确性、及时性。评估数据是否达到预期设定的质量要求,就可以通过这四个方面来进行判断。
1.完整性。完整性指的是数据信息是否存在缺失的状况,数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。不完整的数据所能借鉴的价值就会大大降低,也是数据质量更为基础的一项评估标准。数据质量的完整性比较容易去评估,一般我们可以通过数据统计中的记录值和值进行评估。例如,网站日志日访问量就是一个记录值,平时的日访问量在1000左右,突然某一天降到100了,需要检查一下数据是否存在缺失了。
2.一致性。一致性是指数据是否遵循了统一的规范,数据集合是否保持了统一的格式。数据质量的一致性主要体现在数据记录的规范和数据是否符合逻辑。规范指的是,一项数据存在它特定的格式,例如手机号码一定是13位的数字。逻辑是多项数据间存在着固定的逻辑关系,例如PV(页面访问量)一定是大于等于UV(独立访客)的。一般的数据都有着标准的编码规则,对于数据记录的一致性检验是较为简单的,只要符合标准编码规则即可,例如地区类的标准编码格式为“北京”而不是“北京市”,我们只需将相应的值映射到标准的值上就可以了。
3.准确性。准确性是指数据记录的信息是否存在异常或错误。和一致性不一样,存在准确性问题的数据不仅仅只是规则上的不一致。常见的数据准确性错误,如乱码。数据质量的准确性可能存在于个别记录,也可能存在于整个数据集,例如数量级记录错误。这类错误则可以使用较大值和最小值的统计量去审核。准确性的量化评价指标主要有准确率、差错率、问题字段个数、问题记录覆盖率等。
4.及时性。及时性是指数据从产生到可以查看的时间间隔,也叫数据的延时时长。及时性对于数据分析本身要求并不高,但如果数据分析周期加上数据建立的时间过长,就可能导致分析得出的结论失去了借鉴意义。
【出处】祝守宇,蔡春久 等著.数据治理——工业企业数字化转型之道.电子工业出版社,202011月第1.

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|全数联人才测评中心 ( 京ICP备2024094898号 )

GMT+8, 2026-1-3 00:51 , Processed in 0.085214 second(s), 20 queries .

版权所有: 全数联人才测评(北京)中心 备案图标.png 京公网安备11011102002767号 京ICP备2024094898号

友情链接: 中华全国数字人才培育联盟 全数联人才测评中心学习平台 全数联人才测评中心存证平台 全数联人工智能职业认证中心

快速回复 返回顶部 返回列表