找回密码
 立即注册
查看: 29|回复: 0

数据词典:数据保管库(Data Vault)

[复制链接]

1231

主题

74

回帖

4110

积分

管理员

积分
4110
发表于 2025-12-5 10:50:30 | 显示全部楼层 |阅读模式
数据保管库Data Vault)是面向细节的,可追踪历史的,它是一组有连接关系的规范化的表的集合。这些表可以支持一个或多个业务功能,它是一种综合了第三范式(3NF)和星型模型优点的建模方法。其设计理念是要满足企业对灵活性、可扩展性、一致性和对需求的适应性要求,它是一种专为企业级数据仓库量身定制的建模方式。
Data Vault模型由三个模块组成,中心表、链接表、卫星表。如果用业务术语来表述,那么中心表表示了以横向方式贯穿企业的实际业务键或者主密钥集合。连接表标识了企业中存在于业务键之间的关系和联系。真正的数据仓库组件充当卫星表,其中存储了随时间推移的非易失数据。Data Vault模型基于数据的规范化及其类别的区分,由业务键(Hub)、业务关系(Link)、业务描述(Satellite)组成的。在上述特例中,业务键(中心表)与关系(链接表)被视为不同的类别。这些类别按照语境或者描述性信息(卫星表)进行区分,而这些语境或者描述性信息存在着一种随时间变化的趋势。
业务键是业务中的驱动因素,而且这也是它们如此令人关注的原因所在。业务键将数据集与业务过程联系起来,将业务过程与业务需求联系起来。如果没有业务键,数据集就没有价值。业务键是追踪经过业务过程和跨业务范围数据的唯一源头。
Data Vault既是一种数据建模的方法论,又是构建企业数据仓库的一种具体方法。建模方法论里定义了Data Vault的组成部分和组成部分之间的交互方式。Data Vault的建模方法中还包括了最佳实践,来指导构建企业数据仓库。例如,业务规则应该在数据的下游实现,就是说Data Vault只按照业务数据的原样保存数据,不做任何解释、过滤、清洗、转换。即使从不同数据源来的数据是自行矛盾的(例如同一个客户有不同的地址),Data Vault模型不会遵照任何业务的规则,如“系统A的地址为准”。Data Vault模型会保存两个不同版本的数据,对数据的解释将推迟到整个架构的后一个阶段(数据集市)。
Data Vault架构基于三层数据仓库架构。这三个层次通常确定为集结区(或登陆区)、数据仓库和信息交付层(或数据集市)。
多层机构使实现人员和设计人员可以对企业数据仓库去耦合化,将数据来源和获取功能与信息交付和数据供应功能分解开来。这样,团队就会变得更加敏捷,而该架构也具有了更强的故障恢复能力,能够更加灵活地对变更作出响应。
这几个部分是集结区、EDW和信息集市(或信息交付层)。不管实现过程中采用的平台和技术如何,这些层次都将一直存在。然而,当系统可以支持近实时处理时,对集结区的需求和依赖度就会下降。真实时数据将传输到EDW层。
除了这三个层次,Data Vault 还规定了以下几个不同的组件。
1.用于处理大数据的Hadoop或者NoSQL
2.流入流出商业智能生态系统的实时信息流;随着时间的推移,这也将EDW演化成为一个作业型的数据仓库。
3.从回写功能到主数据功能的流程采用了托管式SSBI,支持TQM
4.分离了软硬业务规则,使得企业数据仓库成为一个面向原始事实的记录系统,随时间推移不断装载原始事实。
Data Vault架构有以下四个目标:
1.无缝衔接已有的RDBMS和新的NoSQL平台。
2.使业务用户参与进来,并且为托管式SSBI提供空间(对数据仓库中的数据进行回写或者直接控制)。
3.为了实现数据直接实时到达数据仓库环境,不再强制要求数据先进入集结区数据表。
4.为了支持敏捷考分,将经常变更的业务规则从静态的数据对准规则中分离出来。
该架构在职能的划分上起到了重要作用,将数据获取与数据供应分离开来。通过划分职能并且将经常变化的业务规则推送给业务用户,使实现团队具备敏捷开发能力。
Data Vault (DV)将敏捷、BEAM需求收集、CMMITQM、六西格玛和DV建模等方面结合在一起,以定义一种旨在提高BI项目速度和质量的方法。因为它既能提高适应性,又能提高准确性。
DV还包括关于DW项目评估和敏捷任务分级的敏捷方法,以确复杂性或跨DW所涉及的工作。在较低的层次上,它还提供了一种非常简洁和迭代的方法来处理常见的功能需求。这些包括全面的、可重复的、渐进的、基于敏捷的流程,以完成日常的任务。Data Vault 具体实施过程如下。
1.数据模型,查找业务键、设计实体、应用键结构
2.ETL/ELT装载过程
3.实时消息传送
4.信息集市交付过程
5.信息集市的虚拟化
6.自动化最佳实践
7.业务规则,包括软的和硬的
8.托管式自助服务BI的回写功能
有些管理目标是通过工作实践来实现的。这些工作实践包括满足TQM需求,采用主数据,辅助业务、源系统和企业数据仓库的对准。只有当过程、设计和实现都是基于模式和数据驱动的,才能达到最高层级的优化。
【出处】W.H Inmon Daniel Linstedt 著 唐富年 译《数据架构—大数据、数据仓库以及Data Vault》,人民邮电出版社,201611月。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|全数联人才测评中心 ( 京ICP备2024094898号 )

GMT+8, 2026-1-3 00:52 , Processed in 0.084567 second(s), 20 queries .

版权所有: 全数联人才测评(北京)中心 备案图标.png 京公网安备11011102002767号 京ICP备2024094898号

友情链接: 中华全国数字人才培育联盟 全数联人才测评中心学习平台 全数联人才测评中心存证平台 全数联人工智能职业认证中心

快速回复 返回顶部 返回列表