找回密码
 立即注册
查看: 67|回复: 6

葵花宝典:2022年03月CDGP真题解析

[复制链接]

656

主题

70

回帖

2291

积分

管理员

积分
2291
发表于 2025-11-10 09:58:36 | 显示全部楼层 |阅读模式
1.元数据:从数据生命周期角度,搭建具有前瞻性的元数据管理体系。(10分)(考点:MD、生命周期)
2.数据质量:从数据质量生命周期角度,阐述数据质量管理的措施。(10分)(考点:DQ、生命周期)
3.主数据:根据你对主数据的理解,阐述具体如何识别主数据的步骤和过程(10分)(考点:MDM)
4.数据安全:1)企业从整体上应该具备什么数据安全能力——安全能力类型;2)哪些个人数据应该脱敏或者个人隐私那些要处理;3)数据脱敏的常用方法(10分)(考点:数据安全、隐私、脱敏)
5.数仓:有个央企,有多家子公司,建设一个数仓。阐述该央企数据仓库建设的步骤流程,以及数据仓库的组件(10分)(考点:DW、数据标准)
6.建模:照相馆建模,会员到摄影店消费,涉及的实体有:员工,会员,套餐,产品,服务,签约,预约,化妆,拍摄,选片,修片,交付,评价(10分)(考点:CDM、LDM、照相馆)

回复

使用道具 举报

656

主题

70

回帖

2291

积分

管理员

积分
2291
 楼主| 发表于 2025-11-10 09:58:51 | 显示全部楼层
第一题 论述题:(考点:MD、生命周期)
一、问题简述
元数据:从数据生命周期角度,搭建具有前瞻性的元数据管理体系。
二、问题解析
1.元数据生命周期;
2.元数据管理架构,架构的选择要结合组织的实际情况
三、参考答案
1.元数据管理生命周期和数据管理生命周期一致,都包括:创建或获取、存储或维护、处置、使用、增强、规划、设计和启用:
(1)规划:定义元数据的需求
(2)设计&启用:将创建和管理元数据作为正在进行的数据管理活动的一部分
(3)创建/获取:确保创建元数据并满足质量要求
(4)存储/维护:确保元数据保持当前状态并继续满足需求
(5)使用:使用元数据,从数据中获取价值。启用反馈循环可以提高元数据质量
(6)增强:使用新知识增强现有的元数据,实现新的元数据需求
(7)处置:清除或归档过时的元数据
2.元数据解决方案架构。元数据构架应该为所需的元数据提供一个单一的访问点。元数据构架的设计取决于组织的特定需求。构建通用元数据存储库的4种技术构架方法和数据仓库的设计方法相差不多∶
(1)集中式。集中的元数据构架由一个元数据存储库组成,该存储库包含来自不同源的元数据的副本。拥有有限IT资源的组织,或者那些寻求尽可能自动化的组织,一般不会选择这种架构。在公共元数据存储库中寻求高度一致性的组织,可以从集中式元数据构架中获益。
(2)分布式。一个完全分布式的元数据构架只有单个接入点。元数据检索引擎通过检索源数据来实时响应用户请求;没有现成的元数据的永久存储库。在这个体系构架中,元数据管理环境用以维护必要的源系统目录和查找信息,以有效地处理用户查询和搜索。源系统可以通过公共对象请求代理或者类似的中间件协议软件来访问。
(3)混合式。混合架构结合集中式和分布式体系结构的特性。元数据仍然直接从源系统中抽取并进入集中式存储库。然而,存储库设计只考虑用户添加的元数据、关键标准化项目和手动添加的元数据。
(4)双向式。这是另一种高级架构方法是双向元数据架构,它允许元数据在架构的任何部分(源、数据集成、用户界面)中进行更改,然后将变更从存储库(代理)同步到其原始源以实现反馈。这种方法显然存在各种挑战。该设计强制元数据存储库包含最新版本的元数据源,并强制对源的更改管理,必须系统地捕获变更,然后加以解决;必须构建和维护附加的一系列处理接口,以将存储库的内容回写至元数据源。
3.对于前瞻性的元数据管理架构,我建议采用双向式元数据管理架构,虽然双向式架构挑战最多,但可以全面解决:1)集中式架构数据更新实时性问题;2)分布式架构数据标准不一致问题;3)混合式架构对于实时性、标准化、数据分散、依赖源系统等问题。混合式只是部分的解决了集中式和分布式的问题,但引入的问题更多,可以作为一个过渡方案。
回复

使用道具 举报

656

主题

70

回帖

2291

积分

管理员

积分
2291
 楼主| 发表于 2025-11-10 09:59:07 | 显示全部楼层
第二题 论述题:(考点:DQ、生命周期)
一、问题简述
数据质量:从数据质量生命周期角度,阐述数据质量管理的措施。
二、问题解析
1.数据质量生命周期;
2.数据质量问题的来源;
3.数据质量管理方法。
三、参考答案
1.数据质量生命周期和数据管理生命周期一致,都包括:创建或获取、存储或维护、处置、使用、增强、规划、设计和启用:
(1)在规划阶段,定义高质量数据的特征;
(2)在设计和启用阶段,定义系统和流程控制来规避数据问题产生,保持数据质量;
(3)在创建和获取阶段,测量或检查数据,确保数据满足质量要求;
(4)在存储和维护阶段,借助系统和流程检测数据,确保数据能够持续的满足期望;
(5)在使用阶段,使用反馈循环机制来持续提升数据的质量;
(6)在增强阶段,就数据质量提升机会采取行动;
(7)在处置阶段,基于数据质量要求正确地识别和提升数据。
2.数据质量和数据治理一样是一个组织的持续性工作,而非项目。戴明环/休哈特环被认为是解决质量问题的基本方法,即PDCA(计划、执行、检查、行动)循环。
(1)在“计划”阶段,数据质量团队评估已知问题的范围、影响、和优先级,并评估解决方案。该计划应基于对问题的根本原因进行分析的坚实基础。通过了解问题的原因和影响,可以了解成本/收益,确定优先级,并制定解决这些问题的基本计划。
(2)在“执行”阶段,DQ团队负责解决问题的根本原因并计划对数据进行持续监视。对于基于非技术流程的根本原因,DQ团队可以与流程所有者合作实施变更。对于需要技术变更的根本原因,DQ团队应与技术团队合作,以确保正确实施需求,并且技术变更不会引入错误。
(3)“检查”阶段包括主动监视根据需求测试得到的数据质量。只要数据满足定义的质量的阈值,就无需采取其他措施。这些流程将在控制之下并满足业务需求。但是,如果数据低于可接受的质量的阈值,则必须采取其他措施将其提高到可接受的水平。
(4)“行动”阶段的活动旨在处理和解决新出现的数据质量问题。评估问题原因并提出解决方案后,周期重新开始。通过开始新的周期可以实现持续的改进。
3.数据质量工作一般包括:
(1)定义高质量数据
(2)定义数据质量战略
(3)定义初始评估范围
(4)执行初始数据质量评估
(5)识别改进并排列优先级
(6)定义数据质量改进目标
(7)开发和部署数据质量操作等方面
4.数据质量问题的解决方法:
数据质量的好坏基于数据能够多大程度上满足数据消费者的需求。拥有一个完善的数据管理流程,有助于组织对标准和需求进行规范化和文档化,依此来测量数据质量。
(1)元数据定义了数据所代表的含义。数据管理专员和数据建模流程是元数据的重要来源。管理较好的元数据有助于数据质量的提升。元数据存储库可以存储数据质量的测量结果,从而在整个组织中共享,也便于数据质量团队参考并就问题优先级达成一致,促进问题解决。
(2)由于数据管质量理理念经常与数据治理保持一致。同时数据质量问题是开展企业级数据治理的主要原因,因此数据质量项目作为数据治理项目的一部分时,数据治理成效将更加显著。将数据质量工作纳入总体治理工作,可使得数据质量团队与如下这些利益相关方和推动者一起开展工作;
a.风险和安全人员,能够帮助识别与数据相关的组织漏洞。
b.业务流程工程师和培训人员,可以帮助团队实施流程改进,从而提高效率,产生更适合下游使用的数据。
c.业务和数据操作管理员及数据所有者,能够识别关键数据,定义标准和数据质量期望,设定数据问题整改优先级。
(3)组织可以通过如下途径加快数据质量工作的开展∶
a.设定优先级。
b.制定和维护与数据质量有关的标准和策略。
c.建立沟通和知识共享机制。
d.监控、汇报数据质量工作的执行效果和数据质量测量结果。
e.分享数据质量探查结果,以此来树立数据质量意识、发现数据质量提升的机会。
(4)数据治理也负有主数据管理和参考数据管理的责任。值得一提的是,主数据管理和参考数据管理是保证数据质量的两个很好的例子。仅仅将数据标记为"主数据",就意味着对其内容和可靠性有一定的目标要求。
回复

使用道具 举报

656

主题

70

回帖

2291

积分

管理员

积分
2291
 楼主| 发表于 2025-11-10 09:59:18 | 显示全部楼层
第三题 论述题:(考点:MDM)
一、问题简述
主数据:根据你对主数据的理解,阐述具体如何识别主数据的步骤和过程
二、问题解析
1.主数据定义、举例说明、给出主数据与参考数据、元数据、交易数据的异同点分析;
2.主数据解析和标识活动
三、参考答案
1.主数据是一个组织中跨越部门、跨越业务、跨越系统的核心业务实体数据,主数据为业务交易提供上下文,同时也需要参考数据作为上下文。主数据实例包括相关方主数据、财务主数据、法律主数据、产品主数据、位置主数据、行业主数据等分类。
主数据是在组织间移动的核心实体数据,需要有统一的数据标准,才能确保数据可以在各业务系统和部门之间交换、共享和共用。可以参考国际、国内、行业等标准指定组织内部的主数据标准,并使用统一的数据标准要求和监控各业务系统的IT建设,实现以数据为中心数据系统开发工作。
2.主数据实体的识别/解析步骤:
实体解析的主要步骤包括:1)匹配、2)标识解析、3)匹配工作流和对帐类型、4)主数据ID管理、5)从属管理。
3.主数据管理平台(MDM的设计:
(1)作为主数据管理平台(MDM)需要全面关注主数据标准、主数据质量、主数据架构、以及用户的消费需求。在建设主数据平台之前,需要先调研组织的数据情况,即盘点组织数据并建立组数据数据的目录。
(2)建立主数据管理平台(MDM),统一管理组织主数据。一般的主数据平台都是采用中心辐射架构,即将组织各部门的业务系统中的主数据全部采集的主数据平台进行管理,也包括主数据目录管理。并对组织的集中主数据执行标准规则校验、清洗、增强、整合等。
(3)主数据管理平台(MDM)还需提供统一的标准的数据访问接口,设置针对角色和用户的权限功能,确保最小够用原则。可以通过建立数据访问试图、DaaS等技术来提高数据安全性。
回复

使用道具 举报

656

主题

70

回帖

2291

积分

管理员

积分
2291
 楼主| 发表于 2025-11-10 09:59:28 | 显示全部楼层
第四题 论述题:(考点:数据安全、隐私、脱敏)
一、问题简述
数据安全:1)企业从整体上应该具备什么数据安全能力——安全能力类型;2)哪些个人数据应该脱敏或者个人隐私那些要处理;3)数据脱敏的常用方法(10分)(数据安全、隐私、脱敏)
二、问题解析
1.信息安全、网络安全、数据安全、和系统安全等;
2.个人信息、敏感信息、法律规定的信息等;
3.主要考察9种脱敏方法。
三、参考答案
1.数据安全能力包括:
(1)信息安全,包括:脆弱性、威胁、风险、风险等级、数据安全组织、安全流程、数据完善性、加密、混淆/脱敏;
(2)网络安全,包括:后门、机器人/僵尸、Cookie、防火墙、边界、DMZ、超级用户账户、键盘记录器、渗透测试、虚拟专用网(VPN);
(3)数据安全,包括:设施安全、设备安全、凭据安全、电子通信安全。
(4)系统安全,包括:滥用过多权力、滥用合法权力、未经授权的特权升级、服务账户或共享账户滥用、平台入侵攻击、SQL注入漏洞、默认密码、备份数据滥用。
2.如下的个人数据应该进行脱敏或处理,包括:
(1)个人识别信息(PII);
(2)对财务敏感的数据;
(3)医学敏感数据(MSD)/个人健康信息(PHI);
(4)教育记录;
(5)以及中国的个人隐私相关数据;
3.数据脱敏的常用方法包括:
可通过混淆处理(变得模糊或不明确)或脱敏(删除、打乱或以其他方式更改数据的外观等)的方式来降低数据可用性,同时避免丢失数据的含义或数据与其他数据集的关系。
数据混淆或脱敏是解决数据使用过程中的一种安全手段。数据脱敏分为两种类型:静态脱敏和动态脱敏。
可以脱敏或混淆数据的方法有以下几种:
(1)替换。将字符或整数值替换为查找或标准模式中的字符或整数值。例如,可以用列表中的随机值替换名字。
(2)混排。在一个记录中交换相同类型的数据元素或者在不同行之间交换同一属性的数据元素。例如,在供应商发票中混排供应商名称,以便将发票上的原始供应商替换为其他有效供应商。
(3)时空变异。把日期前后移动若干天(小到足以保留趋势),足以使它无法识别。
(4)数值变异。应用一个随机因素(正负一个百分比,小到足以保持趋势),重要到足以使它不可识别。
(5)取消或删除。删除不应出现在测试系统中的数据。
(6)随机选择。将部分或全部数据元素替换为随机字符或一系列单个字符。
(7)加密技术。通过密码代码将可识别、有意义的字符流转换为不可识别的字符流。
(8)表达式脱敏。将所有值更改为一个表达式的结果。例如,用一个简单的表达式将一个大型自由格式数据库字段中的所有值(可能包含机密数据)强制编码为“这是个注释字段”。
(9)键值脱敏。指定的脱敏算法/进程的结果必须是唯一且可重复的,用于数据库键值字段(或类似字段)脱敏。这种类型脱敏对用于测试需要保持数据在组织范围内的完整性极为重要。
回复

使用道具 举报

656

主题

70

回帖

2291

积分

管理员

积分
2291
 楼主| 发表于 2025-11-10 09:59:40 | 显示全部楼层
第五题 设计题:(考点:DW、数据标准)
一、问题简述
数仓:有个央企,有多家子公司,建设一个数仓。阐述该央企数据仓库建设的步骤流程,以及数据仓库的组件(10分)(数据仓库、数据标准)
二、问题解析
1.多家子公司意味着数据标准不一致,需要在方案中考虑;
2.数据仓库建设的活动;
3.数据仓库包括的组件。
三、参考答案
1.数据仓库建设的主要流程包括:
(1)理解需求;
(2)定义和维护数据仓库/商务智能架构
(3)开发数据仓库和数据集市
(4)加载数据仓库
(5)实施商务智能产品组合
(6)维护数据产品
2.数据仓库/商务智能和大数据环境的架构如下图:略
大数据的发展为数据流入企业增加了一个新的途径,因而改变了数据仓库/商务智能的格局。参考上图可知本方案的数据的仓库的主要组件包括:
(1)源系统:多家子公司的数据作为数据源存在。可以包括各种业务系统的结构化数据和非结构化数据。
(2)数据集成:即ETL或者ELT的过程。
(3)数据存储区域:数据仓库包含多个不同用途的存储区域:
a.缓冲区。数据在这里短暂存留,以便可以对其进行转换、集成并准备加载到仓库。数据标准化的过程也在这里完成。
b.主数据管理。参考数据和主数据可以存储在单独的存储库中。数据仓库为主数据系统提供数据,这个单独的存储库为数据仓库提供同样维度数据。
c.中央数据仓库。完成转换和准备流程后,数据仓库中的数据通常会保留在中央或原子层中。在这一层保存所有历史的原子数据以及批处理运行后的最新实例化数据。
(4)操作型数据存储(ODS):操作型数据存储是中央持久存储的一个解决方案,它能支持较低的延迟,可以支持业务应用。
(5)数据集市:数据集市是一种数据存储,通常用于支持数据仓库环境的展示层,还用于呈现数据仓库的部门级或功能级子集,以便对历史信息进行集成报表、查询和分析。
(6)数据立方体(Cubes):存在三种经典的支持在线分析处理系统(OLAP)实现方法:基于关系数据库的、基于多维数据库的及混合型存储结构的,它们的名称与底层数据库类型有关。
回复

使用道具 举报

656

主题

70

回帖

2291

积分

管理员

积分
2291
 楼主| 发表于 2025-11-10 10:00:14 | 显示全部楼层
第六题 设计题:(考点:CDM、LDM、照相馆)
一、问题简述
建模:照相馆建模,会员到摄影店消费,涉及的实体有:员工,会员,套餐,产品,服务,签约,预约,化妆,拍摄,选片,修片,交付,评价(10分)(逻辑数据建模)
二、问题解析
1.逻辑模型设计题是必考题,历史上的CDGP考试,每期都考。主题包括:零售、书店、餐厅、电影院和照相馆等。
2.逻辑模型设计题的答题思路是:先找实体和关系,后找属性和外键约束。
3.一般画出10-15个左右的主要实体及其关系即可。
三、参考答案
CDM:略
LDM:略
【另外,说明主要实体之间的关系】
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|全数联人才测评中心 ( 京ICP备2024094898号 )

GMT+8, 2025-11-18 06:46 , Processed in 0.099706 second(s), 20 queries .

版权所有: 全数联人才测评(北京)中心

友情链接: 中华全国数字人才培育联盟 全数联人才测评中心学习平台 全数联人才测评中心存证平台 全数联人工智能专员认证中心

快速回复 返回顶部 返回列表