找回密码
 立即注册
查看: 20|回复: 6

葵花宝典:2022年12月CDGP真题解析

[复制链接]

656

主题

70

回帖

2291

积分

管理员

积分
2291
发表于 昨天 09:36 | 显示全部楼层 |阅读模式
1.社区建模,实体包括有:用户(会员、管理员)、模块、贴、留言、点赞、收藏。(10分)(逻辑数据建模)
2.某跨国公司在全球各国家地区有分支机构。10分)(数据生命周期、数据合规安全体系)
(1) 在遵守各国家地区法律法规安全的前提下,请从数据的创建、传输、处理、销毁等数据生命周期来说明如何进行数据的管理。
(2) 如何建立该跨国公司的数据合规安全体系?
3.现阶段,很多公司创建了数仓,一些公司创建了数据湖,很少公司创建了数据中台。10分)(数仓、数据湖、数据中台)
(1) 请说明数仓、数据湖的异同。
(2) 请说明数仓、数据湖与数据中台的关系。
4.元数据管理。10分)(MD)
(1) 请说明元数据模型CWM核心内容。
(2) 结合企业,请说明如何创建元数据管理体系。
5.如何进行数据质量管理?10分)(DQ)
6.如何创建数据仓库?10分)(DW)

回复

使用道具 举报

656

主题

70

回帖

2291

积分

管理员

积分
2291
 楼主| 发表于 昨天 09:36 | 显示全部楼层
第一题 设计题:(考点:CDM、LDM)
一、问题简述
社区建模,实体包括有:用户(会员、管理员)、模块、贴、留言、点赞、收藏。
二、问题解析:
1.逻辑模型设计题是必考题,历史上的CDGP考试,每期都考。主题包括:零售、书店、餐厅、电影院、照相馆和考试管理系统等。
2.逻辑模型设计题的答题思路是:先找实体和关系,后找属性和外键约束。
3.一般画出10-15个左右的主要实体及其关系即可。
4.参考赵瑞老师讲的“建模三板斧”和“七星建模法”。
三、参考答案:
CDM:略
LDM:略
回复

使用道具 举报

656

主题

70

回帖

2291

积分

管理员

积分
2291
 楼主| 发表于 昨天 09:36 | 显示全部楼层
第二题 论述题:(考点:数据生命周期、数据合规安全体系)
一、问题简述:
某跨国公司在全球各国家地区有分支机构。
(1)在遵守各国家地区法律法规安全的前提下,请从数据的创建、传输、处理、销毁等数据生命周期来说明如何进行数据的管理。
(2)如何建立该跨国公司的数据合规安全体系?
二、问题解析:
1.数据生命周期中的数据管理活动,这是通用方法。
2.不同法律法规和文化背景下的数据合规安全体系。
三、参考答案:
1.数据安全生命周期和数据生命周期一样也包括如下阶段:
(1)规划:将数据与安全和隐私需求关联
(2)设计&启用:在系统中建立数据保护和安全措施
(3)创建/获取:对新数据进行分类,以便合理保护数据
(4)存储/维护:确保数据存储符合政策法规的要求
(5)使用:管理访问权限,以保证对数据的合理使用,防止滥用
(6)增强:在监管要求和识别新的安全威胁上保持领先
(7)处置:遵循有关政策和法规要求处理数据
2.数据合规安全体系起始于数据安全规划
数据安全规划包括流程规划及数据分类和架构规划。它不仅包括系统安全,还包括设施、设备和凭证的安全。良好的安全规划实施是以明确的安全需求为出发点的。这些安全规划要求主要基于特定行业和地区的法律和规则。重要的是,要确保组织能够满足其相关方可能的规则要求,如欧盟的隐私要求比美国更严格。
安全规划要求还将基于与组织自身系统环境相关的风险。
安全规划要求应当被写入企业正式规章,并由明确的标准作为支撑,比如分类分级等。随着规划要求的演变,规章和标准都需要维护。工作人员需要持续得到培训,并且数据访问和系统使用需要受到监控,以保证合规性。
企业的文化对如何开展数据安全保护工作有着深刻的影响。组织通常宁愿最终应对危机,也不愿积极执行问责制和确保提前进行数据审核。虽然完美的数据安全几乎是不可能的,但是相对而言,避免岀现数据安全漏洞的最佳方法是树立安全意识、理解安全要求、遵守安全政策、执行安全程序。组织可以通过以下方式提高合规性:
(1)培训。通过对各级组织的安全培训来促进安全标准的推广。为了获得更好的培训效果,需要落实评价机制,如提高员工安全意识的在线测试。此类培训和测试应当是强制性的,应纳入员工绩效考核。
(2)整体一致的政策。为部门和项目组制定数据安全规章及与之相应的监管政策,并与企业规章相辅相成。应用“本地执行”(Act Local)的思维模式调动人们的积极性。
(3)评估数据安全的好处。将数据安全优势与组织能动性联系起来。组织应在其平衡计分卡和项目评估中包含数据安全的客观指标。
(4)为供应商设定安全要求。在服务等级协议(Service-Level Agreement,SLA)和外包合同义务中包含数据安全要求。服务等级协议必须包括所有数据保护操作活动。
(5)树立紧迫意识。强调法律、合同和监管要求,以树立紧迫意识,并建立数据安全管理的内部框架。
(6)持续的沟通。开展持续的员工数据安全培训项目,以便指导员工掌握计算机的安全操作方法和当前威胁。持续的沟通表明,计算机安全对于管理者来说足够重要,需要给予支持。
回复

使用道具 举报

656

主题

70

回帖

2291

积分

管理员

积分
2291
 楼主| 发表于 昨天 09:39 | 显示全部楼层
第三题 论述题:(考点:数仓、数据湖、中台)
一、问题简述:
现阶段,很多公司创建了数仓,一些公司创建了数据湖,很少公司创建了数据中台。
(1)请说明数仓、数据湖的异同。
(2)请说明数仓、数据湖与数据中台的关系。
二、问题解析:
1.数仓、数据湖、中台的定义和说明。
2.比较三者的异同、以及三者之间的相互关系。
三、参考答案:
1.定义和说明:
(1)“数据仓库(DW)”是两个主要组件的组合:一个集成的决策支持数据库和相关的软件程序,用于来自各种业务和外部来源数据的收集、清洗、转换、和存储。为了支持历史的、分析的、和BI需求,数据仓库还可以包括从属数据集市,它们是来自仓库的数据子集复本。在最广泛的范围内,数据仓库包括用于支持BI目的数据交付的任何数据存储或数据提取。
(2)“数据湖(Data Lake)”是一个可以提取、存储、评估、和分析大量各种各样类型和结构数据的环境。数据湖可以有多种用途。例如,提供
①数据科学家用来挖掘和分析数据的环境;
②原始数据的中央存储区,只需很少的转换即可;
③备用存储,用于存储详细的历史数据仓库数据;
④记录的在线档案;
⑤通过自动化模式识别来摄取流数据的环境。
数据湖可以实现为数据处理工具的复杂配置,包括Hadoop或其他数据存储系统、集群服务、数据转换、和数据集成。这些处理程序促进了跨基础架构的分析简化软件将配置整合在一起。
(3)数据中台是指通过数据技术,收集、计算、存储、加工大量数据,同时统一标准和口径。统一数据后,数据中心将形成标准数据,然后存储,形成大数据生产层,为客户提供高效服务。这些服务与企业的业务问题密切相关,是企业独有的,可重复使用。数据中台是企业业务和数据的沉淀。数据中台不仅可以降低重复建设和合作成本,而且具有差异化的竞争优势。
数据中台需要具备数据汇聚整合、数据提纯加工、数据服务可视化、数据价值变现4个核心能力,让企业员工、客户、伙伴能够方便地应用数据。
2.数据仓库、数据湖、数据中台的对比
表格:略
3.数据仓库、数据湖、数据中台的关系
三者没有直接的隶属关系。一个企业可以同时构建数据仓库、数据湖、和数据中台,共同成为企业数据架构的一部分。
数据仓库可以和数据湖进行结合,形成湖仓一体解决方案,结合二者的优势。数据仓库和/或数据湖也可以作为数据中台的数据存储管理层,并通过数据标准一致的数据中台为上层的数据消费提供统一服务。
总之,三者可以自成方案,创建满足各自的数据应用场景的数据架构方案,三者也可以进行整合,形成统一的数据解决方案。
回复

使用道具 举报

656

主题

70

回帖

2291

积分

管理员

积分
2291
 楼主| 发表于 昨天 09:39 | 显示全部楼层
第四题 设计题:(考点:MD)
一、问题简述:
元数据管理。
(1)请说明元数据模型CWM核心内容。
(2)元数据管理平台的架构设计。
(3)结合企业,请说明如何创建元数据管理体系。
二、问题解析:
1.CWM,即公共仓库元模型。
2.元数据管理平台的架构设计图。
3.元数据管理体系建设的相关方面。
三、参考答案:
1.CWM建设:
元数据仓库遵循基于CWM(公共仓库元模型)的元数据管理策略。CWM是用来输入、输出共享公共仓库元数据的一个完全的语法和语义规范,提供了一个描述数据源、数据目标、转换、分析和处理的元数据管理基础框架,为不同工具和产品的元数据共享和交换提供了一个切实可行的标准。
通过构建基于CWM的元数据仓库,数据源、ETL工具、各类报表和BI工具、各类数据库系统的元数据有了一致的标准,各软件工具只需要建立一个与元数据仓库连接的CWM适配器就能实现相互之间的元数据交换或共享。
与中央存储库模式相比,基于CWM的元数据仓库模式更新数据更加及时,并支持增量元数据的版本管理,而中央存储库的元数据更新周期通常在一天以上,并且需要将所有不同时期的元数据都存储下来才能支持元数据版本管理。但本质上,元数据仓库模式并没有多大变化,业务元数据仍然需要手动补录,业务元数据和技术元数据之间大多还是需要通过手工方式进行映射,因此管理成本无法降低很多。
当前,大部分企业的元数据管理处于中央存储库和元数据仓库这两个阶段。
2.元数据管理平台架构设计
元数据管理平台可分为数据源层、元数据采集层、元数据管理层、数据应用层四层架构,参考下图:

3.如何创建元数据管理体系
在数据治理整体框架下,建立元数据管理体系,从组织、制度、流程、技术与工具等方面保障元数据的有效实施和运营管理,规范元数据的日常采集和处理活动,帮助企业有效管理元数据。
(1)组织保障:明确业务牵头部门、业务与信息化的协作关系,明确各部门数据认责范围。在数据治理团队的指导下,针对企业的数据管理组织现状,建立公司高层支持、中层管理协调、基层执行三个层面的数据治理组织,明确各层的工作职责,为元数据管理工作提供组织保障。
(2)制度保障:元数据管理是企业的IT基础设施,涉及的系统较广,需要调动的资源较多,在实施的过程中,企业高层管理者需要给予强有力的支持,并制定相应的规章制度进行保障,这是项目实施持续推进的动力。
(3)流程保障:为保证数据治理措施的落地执行,需要从数据认责、标准管理、质量管理等多个方面进行流程设计,制定企业范围内数据的变更管理流程,保证信息系统中的数据与管理规范、数据标准的一致性。
(4)技术与工具:搭建统一的元数据管理平台,实现企业级元数据集中管控,支持元数据采集、元数据管理、元数据共享、元数据血统分析、元数据影响分析、企业数据地图等功能。
(5)运营维护:定义捕获、维护业务元数据、技术元数据、操作元数据,定期分发和交付元数据。
(6)监控管理:提供元数据的新增和变更流程,控制元数据新增、变更等操作,支持元数据的日常监控,管理元数据版本,做好元数据的血缘分析、影响分析。
(7)统计分析:元数据系统运营情况统计报告,支持元数据查询、元数据使用情况分析(如冷热度分析)等。
(8)宣传推广:通过企业内部网络、会议等各种渠道,推广元数据管理平台,提高元数据管理平台的使用量,提升元数据在企业中的价值认识度。
回复

使用道具 举报

656

主题

70

回帖

2291

积分

管理员

积分
2291
 楼主| 发表于 昨天 09:40 | 显示全部楼层
第五题 论述题:(考点:DQ)
一、问题简述:
如何进行数据质量管理。
二、问题解析:
1.数据质量生命周期管理
2.数据质量管理活动
3.戴明环(休哈特图)
三、参考答案:
1.数据质量和数据治理一样是一个组织的持续性工作,而非项目。戴明环/休哈特环被认为是解决质量问题的基本方法,即PDCA(计划、执行、检查、行动)循环。
(1)在“计划”阶段,数据质量团队评估已知问题的范围、影响、和优先级,并评估解决方案。该计划应基于对问题的根本原因进行分析的坚实基础。通过了解问题的原因和影响,可以了解成本/收益,确定优先级,并制定解决这些问题的基本计划。
(2)在“执行”阶段,DQ团队负责解决问题的根本原因并计划对数据进行持续监视。对于基于非技术流程的根本原因,DQ团队可以与流程所有者合作实施变更。对于需要技术变更的根本原因,DQ团队应与技术团队合作,以确保正确实施需求,并且技术变更不会引入错误。
(3)“检查”阶段包括主动监视根据需求测试得到的数据质量。只要数据满足定义的质量的阈值,就无需采取其他措施。这些流程将在控制之下并满足业务需求。但是,如果数据低于可接受的质量的阈值,则必须采取其他措施将其提高到可接受的水平。
(4)“行动”阶段的活动旨在处理和解决新出现的数据质量问题。评估问题原因并提出解决方案后,周期重新开始。通过开始新的周期可以实现持续的改进。
2.数据质量工作一般包括:
(1)定义高质量数据
(2)定义数据质量战略
(3)定义初始评估范围
(4)执行初始数据质量评估
(5)识别改进并排列优先级
(6)定义数据质量改进目标
(7)开发和部署数据质量操作等方面
3.数据质量生命周期和数据管理生命周期一致,都包括:创建或获取、存储或维护、处置、使用、增强、规划、设计和启用:
(1)在规划阶段,定义高质量数据的特征;
(2)在设计和启用阶段,定义系统和流程控制来规避数据问题产生,保持数据质量;
(3)在创建和获取阶段,测量或检查数据,确保数据满足质量要求;
(4)在存储和维护阶段,借助系统和流程检测数据,确保数据能够持续的满足期望;
(5)在使用阶段,使用反馈循环机制来持续提升数据的质量;
(6)在增强阶段,就数据质量提升机会采取行动;
(7)在处置阶段,基于数据质量要求正确地识别和提升数据。
回复

使用道具 举报

656

主题

70

回帖

2291

积分

管理员

积分
2291
 楼主| 发表于 昨天 09:40 | 显示全部楼层
第六题 论述题:(考点:DW)
一、问题简述:
如何创建数据仓库。
二、问题解析:
1.数据仓库建设活动。
三、参考答案:
1.数据仓库建设的主要流程包括:
(1)理解需求;
(2)定义和维护数据仓库/商务智能架构
(3)开发数据仓库和数据集市
(4)加载数据仓库
(5)实施商务智能产品组合
(6)维护数据产品
2.数据仓库/商务智能和大数据环境的架构如下图:

大数据的发展为数据流入企业增加了一个新的途径,因而改变了数据仓库/商务智能的格局。参考上图可知本方案的数据的仓库的主要组件包括:
(1)源系统:多家子公司的数据作为数据源存在。可以包括各种业务系统的结构化数据和非结构化数据。
(2)数据集成:即ETL或者ELT的过程。
(3)数据存储区域:数据仓库包含多个不同用途的存储区域:
d.缓冲区。数据在这里短暂存留,以便可以对其进行转换、集成并准备加载到仓库。数据标准化的过程也在这里完成。
e.主数据管理。参考数据和主数据可以存储在单独的存储库中。数据仓库为主数据系统提供数据,这个单独的存储库为数据仓库提供同样维度数据。
f.中央数据仓库。完成转换和准备流程后,数据仓库中的数据通常会保留在中央或原子层中。在这一层保存所有历史的原子数据以及批处理运行后的最新实例化数据。
(4)操作型数据存储(ODS):操作型数据存储是中央持久存储的一个解决方案,它能支持较低的延迟,可以支持业务应用。
(5)数据集市:数据集市是一种数据存储,通常用于支持数据仓库环境的展示层,还用于呈现数据仓库的部门级或功能级子集,以便对历史信息进行集成报表、查询和分析。
数据立方体(Cubes):存在三种经典的支持在线分析处理系统(OLAP)实现方法:基于关系数据库的、基于多维数据库的及混合型存储结构的,它们的名称与底层数据库类型有关。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|全数联人才测评中心 ( 京ICP备2024094898号 )

GMT+8, 2025-11-18 05:46 , Processed in 0.107973 second(s), 20 queries .

版权所有: 全数联人才测评(北京)中心

友情链接: 中华全国数字人才培育联盟 全数联人才测评中心学习平台 全数联人才测评中心存证平台 全数联人工智能专员认证中心

快速回复 返回顶部 返回列表