找回密码
 立即注册
查看: 12|回复: 6

葵花宝典:2022年09月CDGP真题解析

[复制链接]

656

主题

70

回帖

2291

积分

管理员

积分
2291
发表于 3 天前 | 显示全部楼层 |阅读模式
1.考试管理系统参照三范式进行逻辑模型设计。(10分)(逻辑数据建模)
2.有效管理数据安全的方法有哪些?安全架构考虑哪些?(10分)(考点:数据安全、数据架构)
3.元数据战略管理方法有哪些?(10分)(考点:MD、战略)
4.主数据中心环境的基本方法:注册,交易,混合的优缺点。(10分)(考点:主数据)
5.核酸采集当前每晚10点批量加载,时效性差,请提出架构优化方案?当前数仓ETL任务大部分都串行,服务器资源和CPU都满了,有2000万预算,你有什么解决方案?(10分)(考点:架构设计)
6.怎么全面评估数据质量当前状态?提升数据质量的方案,解决数据问题方法?(10分)(考点:DQ)

回复

使用道具 举报

656

主题

70

回帖

2291

积分

管理员

积分
2291
 楼主| 发表于 3 天前 | 显示全部楼层
第一题 设计题:(考点:CDM、LDM)
一、问题简述
考试管理系统参照三范式进行逻辑模型设计。
二、问题解析:
1.逻辑模型设计题是必考题,历史上的CDGP考试,每期都考。主题包括:零售、书店、餐厅、电影院和照相馆等。
2.逻辑模型设计题的答题思路是:先找实体和关系,后找属性和外键约束。
3.一般画出10-15个左右的主要实体及其关系即可。。
三、参考答案:
CDM:略
LDM:略
【另外,说明主要实体之间的关系】
回复

使用道具 举报

656

主题

70

回帖

2291

积分

管理员

积分
2291
 楼主| 发表于 3 天前 | 显示全部楼层
第二题 论述题:(考点:数据安全)
一、问题简述:
有效管理数据安全的方法有哪些?安全架构考虑哪些?
二、问题解析:
1.企业整体数据安全解决方案;
2.依据企业架构思考数据安全架构。
三、参考答案:
1.数据安全与数据管理类似,相关方面关联紧密,最好将数据安全作为一项企业解决方案,并在数据生命周期的全过程中加以应用。如果没有努力与业务部门协调一致,那么组织将不得不寻求不同的解决方案,以满足安全需求,这样会使得总体成本增加;同时,因应用不同的安全方案而存在降低数据安全性的潜在风险。无效的安全架构或流程可能会因组织违规或出现数据安全问题而影响生产力,使得组织为之付出代价。因此,有足够的资金支持,面向系统、企业内保持方案一致,建立运行中的安全战略,都将降低这些风险。
在数据和信息安全实施过程中,首先要评估组织当前的数据状态,确定需要保护的数据范围。该过程包括以下步骤∶
(1)识别和分类敏感数据资产。根据行业和组织的不同,它们可能会有很少或很多的数据资产,而敏感数据范围涵盖身份识别、医疗和财务信息等方面。
(2)定位整个企业的敏感数据。安全要求可能会有所不同,这取决于数据的存储位置。如果敏感信息集中存储在一个地方,那么很有可能会由于单点违规导致所有数据泄露,形成较高风险。
(3)确定各项资产的保护方式。根据数据内容和技术类型,保证资产安全所需的措施因资产不同而不同。
(4)确认信息与业务流程的交互方式。需要对业务流程进行分析,以确定在何种条件下允许哪些人访问数据。
除了对数据本身进行分类,还需要评估外部威胁,如来自黑客和犯罪分子的威胁,以及员工和流程带来的内部风险。大量数据的丢失和泄露都是由员工的无知导致的。员工的无知表现在,没有意识到信息是高度敏感的,或是违反安全规章的。残留在网络服务器上的客户销售数据被黑客攻击,下载至项目承包商计算机上的员工数据被盗,保留在执行人员计算机中未加密的商业秘密丢失,所有这些都可能源于安全控制策略的缺失,或者缺乏强制执行安全策略的措施。
近年来,由于安全漏洞事件的发生,一些知名品牌公司已经遭遇了巨大的财务损失和客户信任度下降。威胁不仅仅来自于外部日益复杂和有针对性的黑客犯罪社区,还来自于有意识或无意识的、内部的或外部的威胁带来的损害。
2.企业架构定义了企业构成和信息资产,以及它们之间的相关关系,还有关于革新、规章和指南的业务规则。数据安全架构是企业架构的组成部分,描述了如何在企业内实现数据安全,以满足业务规则和外部法规的要求。数据安全架构将影响如下内容∶
(1)数据安全管理工具。
(2)数据加密标准和机制。
(3)外部供应商和承包商访问指南。
(4)互联网上的数据传输协议。
(5)文件要求。
(6)远程访问标准。
(7)安全漏洞事件报告程序。
安全架构对于以下各项之间的数据整合尤为重要∶
(1)内部系统和业务部门。
(2)组织及外部商业伙伴。
(3)组织和监管机构。
与传统电子数据交换集成架构相比,内外各方之间面向服务的集成机制所形成的架构模式,将会调用一个与之不同的数据安全实施方案。对于大型企业而言,这些准则之间的正式联系对于保护信息免遭滥用、盗窃、泄露和丢失至关重要。每一方都必须了解与其他方有关的要素,以便他们能够表述一致,并朝着共同的目标努力。
回复

使用道具 举报

656

主题

70

回帖

2291

积分

管理员

积分
2291
 楼主| 发表于 3 天前 | 显示全部楼层
第三题 论述题:(考点:MD)
一、问题简述:
元数据战略管理方法有哪些?
二、问题解析:
1.元数据的定义和作用;
2.元数据战略定义和活动。
三、参考答案:
元数据是描述数据的数据,是数据治理和管理的基础。元数据是在企业的各个方面创建的。将元数据组合在一起,以便人员和流程可以使用它,是一个挑战。
元数据战略描述组织打算如何管理其元数据,以及如何从当前状态移动到未来的状态。元数据战略应该为开发团队提供改进元数据管理的框架。开发元数据需求将有助于澄清战略的驱动因素,并识别实施战略的潜在障碍。
元数据战略包括定义组织未来状态下的企业元数据内容和体系结构,以及满足战略目标所需的实现阶段。步骤包括∶
(1)启动元数据战略计划。启动计划的目标是使元数据战略团队能够定义其短期和长期目标。规划包括起草一份与总体治理工作一致的宪章、范围和目标文件,并制订一个沟通计划来支持这项工作。关键的利益相关者应该参与规划工作。
(2)进行关键利益相关者访谈。对商业和技术利益相关者的访谈为元数据战略提供了基础知识。
(3)评估现有的元数据来源和信息体系结构。评估、确定在访谈和文档评审中需要解决的元数据和系统问题的难度级别。在此阶段,对关键IT人员进行详细的访谈,并审查系统架构、数据模型等文档。
(4)开发未来的元数据架构。细化和确认未来的远景,并提出这个阶段所管理的元数据的长期目标架构。这一阶段必须考虑组织战略,如组织与数据治理和管理的一致性、管理的元数据架构、元数据交付体系架构、技术体系架构和安全体系架构。
(5)制订阶段性实施计划。验证、整合和优先考虑访谈和数据分析的结果。记录元数据战略,并确定分阶段实施方式,以从现有的元数据环境转移到未来管理元数据的环境。
随着对元数据需求、体系架构和元数据生命周期的深入理解,战略将随着时间的推移而发展。
回复

使用道具 举报

656

主题

70

回帖

2291

积分

管理员

积分
2291
 楼主| 发表于 3 天前 | 显示全部楼层
第四题 论述题:(考点:MDM)
一、问题简述:
主数据中心环境的基本方法:注册,交易,混合的优缺点。
二、问题解析:
1.主数据和参考数据定义和关系;
2.主数据的架构和优缺点对比。
三、参考答案:
1.奇泽姆提出了一种六层的数据分类法,包括元数据、参考数据、企业结构数据、交易结构数据、交易活动数据、和交易审计数据。在这种分类法中,他将主数据定义为参考数据、企业结构数据和交易结构数据的聚合。参考数据和主数据的定义如下:
(1)主数据应该代表与关键业务实体有关的权威的、最准确的数据。
(2)参考数据是指可用于描述或分类其他数据,或者将数据与组织外部的信息联系起来的任何数据。
2.参考数据和主数据的整合有几种基本的架构方法。每个主数据主题域都可能有自己的记录系统。例如,人力资源系统通常被用作员工数据的记录系统,客户关系管理系统可以充当客户数据记录系统的角色,而 ERP 系统则可以起到企业财务数据及产品数据记录系统的作用。
数据共享中心结构模型展示的就是主数据的星形架构。主数据中心可以处理与分支项目(源系统、业务应用和数据存储等)的交互,同时将交互点数量降到最低。本地数据中心可以扩展并延伸主数据中心。
3.实现主数据中心环境的三种基本方法各有利弊∶
(1)注册中心。注册中心是指向多种记录系统中主数据记录的索引。记录系统管理应用程序本地的主数据,可以根据主索引访问主数据。注册中心相对容易实现,因为它很少需要对记录系统进行更改。但是,要对多个系统中的主数据进行组合时通常需要复杂的查询。此外,还需要实施多个业务规则,以解决跨系统时产生的语义差异。
(2)交易中心。在该种方法中,各应用程序与中心系统交互,实现对主数据的访问和更新。主数据存在于交易中心内,而不存在于任何其他的应用程序中。交易中心是主数据的记录系统。交易中心使更好的治理成为可能,并对外提供一致的主数据源。但是,从现有的记录系统中删除更新主数据功能的成本很高。业务规则仅被实施在单一系统中,即中心系统。
(3)混合模式。混合模式是注册表和交易中心的混合体。记录系统管理应用程序本地的主数据。主数据在一个公共存储库中被合并,并经由数据共享中心实现共享,如此消除了从记录系统直接进行访问的需要。混合法在提供企业视图的同时,能尽量减少对记录系统的影响,但是,它需要在系统间进行数据复制,而且数据中心和记录系统之间会有延迟。
回复

使用道具 举报

656

主题

70

回帖

2291

积分

管理员

积分
2291
 楼主| 发表于 3 天前 | 显示全部楼层
第五题 设计题:(考点:架构设计)
一、问题简述:
核酸采集当前每晚10点批量加载,时效性差,请提出架构优化方案?当前数仓ETL任务大部分都串行,服务器资源和CPU都满了,有2000万预算,你有什么解决方案?
二、问题解析:
1.Lambda架构;
2.大数据平台资源不足问题;
3.解决上述问题的预算方案。
三、参考答案:
1.本案例适用于Lambda架构。如下图,Lambda 架构是通过两种路径方式来使用数据∶
(1)当可用性和分区容错更重要时采用速度层路径:在本案例中实时采集核算监测过程和结果数据,并将这些数据同步到服务层与前一天的批量核算数据进行整合。然后以高时效性的处理能力为用户提供数据服务;
(2)当一致性和可用性更重要时采用批量层路径:在本例中批量数据每日处理一次,并更新服务层历史数据,以确保数据的一致性。并于速度层的实时数据整合后,为用户提供数据服务。

2.在本案例中的性能问题是作业任务在串行的情况下已经资源不足,不能通过并行作业任务来提供效率。未来满足中长期的数据分析和应用的需求建议采用如下步骤:
(1)采购具有大规模并行计算能力的大数据平台,建议采用自主可能的商业版成熟产品套件,包括大数据存储和计算平台、ETL工具套件、支持分布式的作业调度平台、以及数据应用和BI工具等产品,比如数据中台整体解决方案/产品;
(2)依据数据和作业任务的依赖关系,将原有平台中的数据和应用逐步迁移到新建设的大数据平台/数据中台中,同时讲原有的串行作业任务进行优化,尽量采用并行执行,以充分发挥大规模并行计算的能效。
3.在本案例中还需要着重说一下预算和采购方案。具有2000万的预算是比较充足的,但需要花钱的地方较多,我们要在整体上提前做好方案,避免前提花费较多,而后期资金不足或者再申请预算等问题和挑战。需要考虑的方面包括:
(1)大数据平台/数据中台的采购成本;
(2)平台实施成本;
(3)数据迁移的成本;
(4)定制开发成本;
(5)基础设施建设成本;
(6)项目前/中/后期的人员成本。
4.另外,这里其实基于2000万的预算,还有个自研方案,但是,本人并不建议,主要考虑如下几个方面问题:
(1)周期长。数字经济时代的发展速度快,自研周期较长,至少也得需要1-2年的时间,可能会让客户错过最佳的机会窗口;
(2)风险高。大数据平台/数据中台属于高科技含量产品,需要各方面的人员水平足够高,否则可能带来不可预期的科技风险;
(3)成熟难。一个平台或者产品需要在生产/市场环境中打磨,并不断的投入人力/物力/财力等,以确保期尽快成熟可用、满足要求,本案例中并不具备这样的环境。
综上,不建议采用自研方案。
回复

使用道具 举报

656

主题

70

回帖

2291

积分

管理员

积分
2291
 楼主| 发表于 3 天前 | 显示全部楼层
第六题 论述题:(考点:DQ)
一、问题简述:
怎么全面评估数据质量当前状态?提升数据质量的方案,解决数据问题方法?
二、问题解析:
1.数据治理现状评估;
2.数据质量活动;
3.戴明环/持续改进。
三、参考答案:
1.大多数依赖数据的组织都有很多改进的机会。从数据管理的角度来看,数据质量方案是否正式、能否取得支持,取决于组织的成熟程度。组织采用数据质量的实践准备情况,可以通过以下特征进行评估∶
(1)管理层承诺将数据作为战略资产进行管理。要获得管理层对数据管理的支持,就要明确高级管理人员能否理解数据在组织中扮演的角色。高级管理人员在多大程度上认识到数据对战略目标的价值?他们将哪些风险与低质量数据联系起来?他们对数据治理的好处有多了解?对改变文化以支持质量改进的能力有多乐观?
(2)组织对数据质量的当前理解。大多数组织在开始其质量改进之旅之前,他们通常表示了解质量数据差的障碍和痛点。了解这些很重要,低质量数据可以直接与组织的负面影响关联在一起,包括直接和间接成本;对痛点的理解也有助于确定和优先考虑改进项目。
(3)数据的实际情况。以客观的方式描述导致痛点的数据情况是改进数据的第一步。通过剖析和分析,以及对已知问题和痛点的量化来度量和描述数据。如果数据质量团队不知道数据的实际情况,那么将很难确定优先级并抓住改进机会采取行动。
(4)与数据创建、处理或使用相关的风险。识别数据可能出现的问题以及质量不佳的数据对组织造成的潜在损害,为降低风险提供了基础。如果组织认识不到这些风险,那么获取组织对数据质量规划的支持可能是一个挑战。
(5)可扩展数据质量监控的文化和技术就绪。数据质量可能受到业务和技术流程的负面影响。提高数据质量取决于业务和IT团队之间的合作,如果业务和IT团队之间的关系不是协作的状态,将很难取得进展。
现状评估的结果将有助于确定从何处开始以及如何快速进行,也可为实现路线图计划目标打下基础。如果数据质量改进获得强有力的高层支持,并且组织了解自己的数据,那么就可能启动一个完整的战略计划。如果组织不了解其数据的实际状态,那么在制定完整的战略之前,可能需要先集中精力构建这些知识。
2.数据质量生命周期活动包括:
(1)规划:定义高质量数据的特征
(2)设计&启用:定义系统和流程控制来规避数据问题产生,保持数据质量
(3)创建/获取:测量或检查数据,确保数据满足质量要求
(4)存储/维护:借助系统和流程检测数据,确保数据能够持续的满足期望
(5)使用:使用反馈循环机制来持续提升数据的质量
(6)增强:就数据质量提升机会采取行动
(7)处置:基于数据质量要求正确地识别和提升数据
3.数据质量和数据治理一样是一个组织的持续性工作,而非项目。戴明环/休哈特环被认为是解决质量问题的基本方法,即PDCA(计划、执行、检查、行动)循环。
(1)在“计划”阶段,数据质量团队评估已知问题的范围、影响、和优先级,并评估解决方案。该计划应基于对问题的根本原因进行分析的坚实基础。通过了解问题的原因和影响,可以了解成本/收益,确定优先级,并制定解决这些问题的基本计划。
(2)在“执行”阶段,DQ团队负责解决问题的根本原因并计划对数据进行持续监视。对于基于非技术流程的根本原因,DQ团队可以与流程所有者合作实施变更。对于需要技术变更的根本原因,DQ团队应与技术团队合作,以确保正确实施需求,并且技术变更不会引入错误。
(3)“检查”阶段包括主动监视根据需求测试得到的数据质量。只要数据满足定义的质量的阈值,就无需采取其他措施。这些流程将在控制之下并满足业务需求。但是,如果数据低于可接受的质量的阈值,则必须采取其他措施将其提高到可接受的水平。
(4)“行动”阶段的活动旨在处理和解决新出现的数据质量问题。评估问题原因并提出解决方案后,周期重新开始。通过开始新的周期可以实现持续的改进。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|全数联人才测评中心 ( 京ICP备2024094898号 )

GMT+8, 2025-11-18 05:16 , Processed in 0.101494 second(s), 20 queries .

版权所有: 全数联人才测评(北京)中心

友情链接: 中华全国数字人才培育联盟 全数联人才测评中心学习平台 全数联人才测评中心存证平台 全数联人工智能专员认证中心

快速回复 返回顶部 返回列表