|
一、数据管理(12) 1.数据管理的直接目标是提高数据质量,终极目标是获取数据价值。 2.数据 = 信息。流程输入为数据,流程输出为信息。 3.数据管理的业务驱动因素是从数据资产中获取价值。 4.数据管理的目标:需求、质量、安全、隐私、价值。 5.数据管理的原则:13个原则。 6.数据管理的挑战:13个挑战。 7.数据管理战略和交付成果。 8.数据管理的框架:SAM、AIM、DAMA。 9.DAMA框架:DAMA车轮图、六边形图、知识领域语境关系图(14个)。 10.DMBOK金字塔(彼得·艾肯)、功能领域依赖关系(苏·吉恩斯)。 11.DAMA数据管理功能框架、DAMA车轮图演进版。 12.按照DAMA的DMBOK理论:数据管理 > 数据治理,数据治理是数据管理1/11。在中国,通用语言中,治理 > 管理;数据行业中的一般性沟通中:数据管理 = 数据治理。 二、数据伦理(8)1.数据伦理的核心概念:对人的影响、潜在的数据滥用、数据的经济价值。 2.数据伦理的业务驱动因素:慎独。 3.数据伦理的原则:尊重个人、善行、正义、尊重法律和公共利益。 4.数据隐私法和原则:GDPR、PIPEDA、FTC。 5.中国数据相关法律:个人信息保护法、数据安全法、网络安全法。 6.不伦理的数据实践:时间选择、视觉误导、定义不清/无效比较、偏见等。 7.偏见:预定结果收集数据、偏见使用数据、直觉、偏见抽样、背景文化。 8.伦理风险模型:识别对象、捕获数据、分析活动、访问结果。 三、数据治理(16)1.数据治理的职能:8个方面。 2.数据治理的业务驱动因素:监管合规、高级分析和数据科学、业务需求、降低风险和改善流程(8个方面,4:4或者3:5)。中国在数据生产要素的背景下,增加“数据交易”这个业务驱动因素。 3.数据治理(DG)和数据管理(DM)/数据质量(DQ)一样都是职能(Function),不是项目(Project)或者计划/项目集(Program)。 4.数据治理和IT治理职能分开。 5.数据治理的目标:数据作为资产来管理。 6.数据治理的特征:可持续、嵌入式、可测量。 7.数据治理的原则:6个原则。 8.数据治理的职责分离:数据治理——监督,数据管理——执行。 9.数据治理的组织机构:DGSC、DGC、DGO、数据专员、本地DGC。 10.数据治理的运营模型:集中、复制(分布)、联邦。DMBOK2R第16章中数据管理的组织结构类型:分布、网络、集中、混合、联邦。 11.数据专员制度:职责(4个方面)、类型(7种类型)。 12.数据资产估值:成本法(5个方面)。DAMBOK中包括:成本法、盈利法、市场法、综合法等。 13.数据资产会计原则:10个原则。 14.数据治理的活动:制定战略、定义组织、实施治理、嵌入流程。 15.数据治理的工具:网站、术语表、工作流、文档管理、评分卡。 16.数据治理的指标:价值、有效性、可持续性、遵守法规和内部数据政策。 四、数据架构(15)1.企业架构学科包括:业务架构、数据架构、应用架构、技术架构。 2.数据架构考虑维度:成果、活动、行为。 3.数据架构设计文档包括:企业数据模型(CDM、LDM,第4章数据架构的交付成果)和物理数据模型(PDM,第5章数据建模与设计的交付成果)。 4.数据架构的目标:业务战略和技术执行的桥梁。 5.Zachman架构框架——本体论方法。 6.企业数据架构:企业数据模型(EDM)(数据静态设计)、数据流设计(数据动态设计)。 7.数据流映射和记录了数据与:应用程序、数据存储、网段、业务角色、本地差异之间的关系。 8.数据架构和企业架构处理复杂性:质量导向、创新导向。 9.企业数据架构项目的活动:定义范围、理解需求、设计、实施。 10.项目开发方法:瀑布、增量、敏捷、迭代。 11.数据架构工具:数据建模、资产管理、图形设计。 12.架构生命周期:8个阶段。 13.架构图解清晰:6个方面。 14.架构项目风险:7个方面。 15.数据架构的指标:合规性、实用性、业务价值。 五、数据建模(34)1.数据建模的6种模式:关系模式、维度模式、面向对象、基于事实、基于时间、NoSQL。 2.数据建模的3个层级:概念、逻辑、物理。 3.数据模型的组成部分:实体、关系、事实、键、属性。 4.数据建模的业务驱动因素:通用词汇、明确知识、沟通工具、工作起点。 5.可以建模的静态数据:分类、资源、业务事件、详细事务。 6.可以建模的动态数据:协议、消息、事件。 7.数据模型的基本组件:实体、关系、属性、值域。 8.实体的类型:谁、什么、何时、何地、为什么、如何、测量。 9.实体的别名。 10.关系的别名。 11.关系的基数:0、1、多。 12.关系的元数:1、2、3。 13.外键表示关系。 14.属性表示特征,具有值域。 15.标识符 = 键,包括:构造键、功能键。 16.独立实体和非独立实体。 17.值域的定义方式:数据类型、数据格式、列表、范围、基于规则。 18.关系模式的表示方法:IE、IDEF1X、巴克、陈。 19.维度模型:维度表、事实表。 20.SCD:覆盖、新行、新列。 21.星型模型、雪花模型、星座模型。 22.粒度。 23.基于时间的模式:数据金库/数据保管库(DV)、锚建模。 24.NoSQL的表示方法/类型:文档、列、图、键值。 25.数据模型SPARC三模式:概念(逻辑模型LDM)、外部(概念模型CDM)、内部(物理模型PDM)。 26.规范化 = 第三范式(3NF)。 27.超类和子类。 28.数据建模的活动:规划、构建、审查、维护。 29.数据建模的交付成果:图、定义、问题、谱系/血缘。 30.正向工程和逆向工程。需求-CDM-LDM-PDM-库表——正向工程从左到右,逆向工程从右到左。 31.数据建模的工具:数据建模、谱系/血缘、数据剖析、元数据存储库、数据模型模式、行业数据模型。 32.数据建模最佳实践:命名约束、数据库设计。 33.数据模型的指标:时间价值、支持成本、数据模型质量验证工具(评分卡)。 34.数据模型评分卡模版。 六、数据存储(21)1.数据存储与操作/运营的关键角色:DBA(数据库管理员) 2.数据存储与操作/运营的业务驱动因素:业务连续性。 3.数据存储与操作/运营的目标:可用性、完整性、性能。 4.数据存储与操作/运营的原则:5个原则。 5.数据库术语。 6.DBA包括:生产DBA、应用程序DBA、过程和开发DBA、NSA。 7.数据库架构类型:集中、分布、联邦。 8.耦合。 9.区块链。 10.虚拟化和云计算。 11.数据库处理类型:ACID、BASE、CAP。 12.数据库存储介质:SAN、内存、列式压缩、闪存。 13.数据库环境:生产环境、预生产环境(开发、测试、实验)。 14.测试环境的用途:质量保证测试(QA)、集成测试、用户验收测试(UAT)、性能测试。 15.数据库组织方式:层级(树形模式)、关系(写模式)、非关系(读模式)。 16.数据库流程:8个方面。 17.服务水平协议(SLA)。 18.备份(联机热备/脱机冷备)和还原/恢复。 19.数据存储与操作/运营的工具:数据建模工具、数据库监控工具、数据库管理工具、开发人员支持工具。 20.数据存储与操作/运营的指标:存储、性能、操作/运营、服务。 21.DBA支持数据审计和数据验证的方式:8个方面。 七、数据安全(20)1.数据安全需求来源:利益相关方、政府法规、业务关注、访问需求、合同义务。 2.数据安全的业务驱动因素:风险降低、业务增长、安全即资产。 3.数据分类分级:识别和分类分级敏感数据资产、定位敏感数据、确定保护方法、识别访问方法。 4.数据安全的目标:访问、合规、满足要求。 5.数据安全的原则:6个原则。 6.信息安全术语。 7.网络安全术语。 8.数据安全术语。 9.系统安全术语。 10.黑客。 11.网络钓鱼。 12.恶意软件(5种类型)及其来源。 13.数据安全的活动。 14.数据安全的工具:7种工具。 15.数据安全的方法:6种方法。 16.外包。 17.CRUD。 18.RACI。同DMBOK2R第16章。 19.数据安全的指标:安全实施、安全意识、数据保护、安全事件、保密数据扩散率。 20.数据安全的18种能力。 八、数据集成(12)1.数据集成的业务驱动因素:高效管理移动、管理复杂性和成本、管理支持成本、遵守标准和法规。 2.数据集成的目标:提供消费数据、集成数据中心、降低成本和复杂性、识别事件触发响应、支持其他数据应用领域。 3.数据集成的原则:企业视角设计、迭代增量交付;平衡本地需求和企业需求;业务负责设计和相关活动。 4.ETL和ELT。 5.转换 = 映射,转换的示例:格式变更、结构变更、语义转换、去除重复、重新排序。 6.时延/延时:6种类型。 7.交互模式:点对点、中心辐射、发布订阅。 8.数据集成的架构概念:9个概念。 9.数据集成的活动:规划和分析、设计解决方案、开发解决方案、实施和监控。 10.数据集成的工具:7类工具。 11.数据共享协议(DSA)或者谅解备忘录(MOU)。 12.数据集成的指标:数据可用性、数据体量和性能、解决方案成本和复杂性。 九、文档和内容(17)1.文档和内容管理的业务驱动因素:监管合规、应对(诉讼和电子取证)能力、业务连续性、提高效率(改进文档管理的驱动力)。 2.文档和内容管理的目标:对非结构化数据的检索和使用、结构化和非结构数据的集成、法律义务、客户期望。 3.文档和内容管理的原则:全员责任、依规使用、专家参与、差异管理。 4.ARMA国际GARP:8个原则。 5.内容相关概念:4个方面。 6.受控词汇相关概念:9个方面。 7.分类法的5种类型:平面、分层、多层、分面、网络。 8.文档和记录/档案相关概念:3个方面。 9.记录/档案应该具备的特征:内容、语境、及时性、永久性、结构5个方面。 10.电子取证参考模型(EDRM):8个阶段。 11.非结构化数据占比80%,包括各种格式:10+类型。 12.文档和内容管理的活动:规划生命周期管理、管理生命周期、发布和交付内容。 13.文档和内容管理的工具:5类工具。 14.ARMA国际GARP:5个成熟度等级。 15.信息治理框架的业务驱动因素:5个方面。 16.信息治理框架的原则:ARMA国际GARP的8个原则+12个原则。 17.文档和内容管理的指标:记录/档案管理、电子取证、企业内容管理(ECM)。 十、主数据管理(28)1.主数据管理的业务驱动因素:4个方面。 2.主数据管理的目标:确保质量、实现共享、降低成本和复杂性。 3.主数据管理的原则:6个原则。 4.主数据包括:参考数据、企业结构数据、事务结构数据。 5.组织主数据包括:客户/相关方、产品和服务、财务结构、地点。 6.记录系统,参考系统。 7.可信来源,黄金记录。 8.主数据管理需求:7个方面。 9.制定主数据管理计划的基本步骤:4个步骤。 10.主数据管理生命周期的关键活动:6个方面。 11.MDM的关键处理步骤:5个步骤。 12.实体解析的步骤:5个步骤。 13.匹配:假阳性/假阴性,确定性算法/概率性算法。 14.MDM 需要跨数据源管理两种类型的标识符:全局 ID 和交叉参考(x-Ref)信息。 15.客户主数据。 16.财务主数据。 17.法律主数据。 18.产品主数据。 19.位置主数据和位置参考数据。 20.行业主数据。 21.数据共享架构:注册中心、事务中心、混合方法。 22.MDM活动和RDM活动:7个活动。 23.主数据管理的工具:5类工具。 24.参考数据变更请求流程。 25.数据共享协议(DSA)。 26.主数据治理的流程:7个步骤。 27.主数据管理的指标:7个方面。 28.总拥有成本(TCO)。 十一、数据仓库(21)1.数据仓库的业务驱动因素:支持运营职能、监管合规要求、BI活动。 2.数据仓库的目标:支持BI、业务分析和决策制定、创新。 3.数据仓库的原则:8个原则。 4.DW/BI的概念。 5.数据仓库思想领袖:Inmon、Kimball。 6.数据仓库建设方法:5个核心方面。 7.企业信息工厂(CIF)的概念(6个特征)和组成部分(9个组件)。 8.DW/DM、APP的数据差异:5个方面。 9.维度数据仓库(DDW)的概念和组织部分(4个组件)。 10.数据仓库架构组件:源系统、数据集成、数据存储区域(6个区域)。 11.数据加载处理类型:历史加载、持续更新。 12.变更数据捕获(CDC):5种方法。 13.近实时/实时处理:3种类型。 14.数据仓库的活动:理解需求、定义架构、开发DW/DM、填充DW、实施BI产品组合、维护数据产品。 15.数据仓库的工具:元数据存储库、数据集成工具、BI工具。 16.BI工具包括:运营报告/报表、业务绩效管理(BPM)、描述性自助式分析。 17.OLAP的操作:5种类型。 18.OLAP的类型:3种类型。 19.数据仓库的方法:原型驱动、自助式BI、数据审计。 20.DW/BI关键成功因素:5个方面。 21.数据仓库的指标:使用指标、主题领域覆盖百分比、响应和性能指标。 十二、元数据管理(25)1.元数据管理的业务驱动因素:10个方面。 2.元数据管理不善会导致的问题:5个问题。 3.元数据管理的目标:5个目标。 4.元数据管理的原则:8个原则。 5.元数据的类型:业务、技术、操作。 6.图书馆和信息科学领域的元数据类型:描述、结构、管理。 7.业务元数据:13个类型。 8.技术元数据:15个类型。 9.操作元数据:14个类型。 10.元数据注册标准ISO 11179:6个部分。 11.非结构化数据的元数据类型:描述、结构、管理、书目、记录保留、保存。 12.元数据的来源:15个方面。 13.元数据架构类型:集中、分布、混合、双向。 14.元数据管理的活动:制定战略、理解需求、定义架构、创建/维护、查询/报告/分析。 15.定义元数据战略:5个步骤。 16.理解元数据需求:10点需求。 17.定义元数据架构:创建元模型、应用元数据标准、管理元数据存储。 18.元数据治理活动:控制活动(8个)、质量控制活动(4个)、元数据管理活动(8个)、培训活动(3个)。 19.元数据质量管理:问责制、标准、改进。 20.存储库扫描的方式:专有接口(单步)、半专有接口(两步)。 21.存储库扫描的文件:控制文件、重用文件、日志文件、临时和备份文件。 22.元数据的交付机制:7个方面。 23.拼接。 24.横向谱系和纵向谱系。 25.元数据管理的指标:8个方面。 十三、数据质量(37)1.数据质量(DQ)与数据治理(DG)和数据管理(DM)一样,数据质量管理也是一项职能(Function),而不是计划(Program)或项目(Project)。 2.数据质量的业务驱动因素:4个方面。 3.数据质量管理的系统化方法:3个方面。 4.数据质量管理的实际好处:6个方面。 5.数据质量管理的目标:4个目标。 6.数据质量管理的原则:8个原则。 7.关键数据通常用于:监管、财务或管理报告;业务操作需要;产品质量和客户满意度的测量;业务战略,尤其是在竞争差异化方面;主数据和参考数据通常从定义上具有关键性。 8.数据质量的维度:有效性、完整性、一致性、完善性、及时性、时效性、合理性、唯一性、准确性(9个)。 9.数据质量业务规则。 10.数据质量改进周期(PDCA)。 11.质量管理大师:Deming、Shewhart。 12.PDCA和PDSA。 13.PDCA的新循环开始:4个方面。 14.数据质量问题原因:5个方面。 15.缺乏监督问题(数据质量管理的障碍):6个方面。 16.数据输入引起的问题:6个方面。 17.数据处理引起的问题:5个方面。 18.系统设计引起的问题:6个方面。 19.修复问题引起的问题。 20.数据质量管理的活动:定义框架、定义高质量数据、识别维度和配套业务规则、初始评估、识别改进和优先级排序、定义改进目标、开发和部署。 21.数据质量监控方法:数据元素、数据记录、数据集。 22.数据质量管理的工具:6个工具。 23.数据丰富/增强的示例:8个方面。 24.数据质量管理的方法:5个方法。 25.数据质量指标开发的特征:6个方面。 26.数据剖析/数据概要分析:5个方面。 27.数据质量预防措施/方法:6个方面。 28.数据质量根本原因分析:5个方法。 29.数据质量纠正措施:完全自动纠正、人工指导纠正、人工手工纠正。 30.数据质量工作实施指南:6个方面。 31.数据质量管理指标:6个方面。 32.数据质量管理大师:Strong-Wang、Redman、English。 33.Strong-Wang的维度:4个分类。 34.Redman的维度:3个分类。 35.English的维度:2个分类。 36.DAMA UK的维度:6个方面。 37.DAMA UK的其他特征:5个方面 十四、大数据与数据科学(28)1.大数据与数据科学的业务驱动因素:发现商机并践行。 2.数据科学将数据挖掘(Data Mining)、统计分析(Statistical Analysis)、机器学习(Machine Learning)、数据集成技术、数据建模能力相结合,构建预测模型、探索数据内容。 3.机器学习的数据集比例问题。训练集、验证集、测试集——比例为:训练集70%,验证集20%,测试集10%。验证机和测试集合称评估集,因此训练集和评估集的比例为:70%和30%。 4.数据科学依赖:4个方面。 5.数据科学与DW/BI的对比。 6.数据科学的流程:7个步骤。 7.大数据与数据科学的流程:9个步骤。 8.大数据的V:6个V。 9.大数据的来源:7个方面。 10.数据湖的定义。 11.数据湖的用途:5个方面。 12.数据湖与元数据。 13.基于服务的架构(SBA)=Lambda架构,包括:批处理层、速度层、服务层。 14.机器学习的算法类型:监督学习、无监督学习、强化学习。 15.数据和文本挖掘的方法:5个方法。 16.结构化数据、非结构化数据、半结构化数据。 17.数据源的基本事实:5个方面。 18.对新数据源的规划:5个方面。 19.利用模型探索数据:4个步骤。 20.大数据与数据科学的工具:6类工具。 21.新工具、新技术、新趋势:9个方面。 22.数据库内算法:5个算法。 23.数据科学基本算法:9个算法。 24.数据科学编程语言:R和Python。 25.大数据与数据科学和DW/BI都需要的跨职能角色:5个角色。 26.大数据与数据科学治理解决的问题:5个方面。 27.大数据组织使用数据质量工具建立数据知识:4个方面。 28.大数据与数据科学的指标:3个方面。 十五、数据管理成熟度(14)1.常见的成熟度等级:6个等级(0-5或者1-6)。 2.成熟度评估的业务驱动因素:6个方面。 3.成熟度评估的目标:5个方面。 4.成熟度评估模型映射到DMBOK知识领域,标准参考语境关系图制定:活动、工具、标准、人员和资源。 5.成熟度评估框架:5个框架。 6.DCMM、DSMM、DSG、DCAM、CDMC。 7.DCMM的输出成果:4个成果。 8.成熟度评估的活动:5个活动。 9.规划沟通的沟通内容包括:4个方面。 10.重新评估成熟度的持续改进周期:5个步骤。 11.成熟度评估的工具:4类工具。 12.成熟度评估框架的选择标准:12个方面。 13.DMBOK可用于准备和建立成熟度评估标准。 14.成熟度评估的指标:6个方面。 十六、组织与角色(7)1.数据管理的组织结构:分布式、网络式、混合式、联邦式、集中式。DMBOK2R第3章中数据治理的运营模型:集中、复制(分布)、联邦。 2.RACI。同DMBOK2R第7章。 3.数据管理组织的关键成功因素:10个方面。 4.首席数据官(CDO)的职责:6个方面。 5.数据治理大师:John Ladley。 6.IT角色:13个角色。 7.混合角色:5个角色——BI、质量、元数据。 十七、组织变革管理(18)1.变革法则:5个方面。 2.变革管理大师:William Bridges、John P. Kotter。 3.变革阶段:3个阶段——旧的结束、中立区、新的开始。 4.变革模型:8个步骤/3个阶段。 5.制造紧迫感的因素:9个方面。 6.紧迫感的量化数字:75%。 7.良好愿景的作用/目的:3个方面。 8.有效愿景的特征:6个方面。 9.有效愿景的构建:7个步骤。 10.有效愿景的关键要素:7个方面。 11.创新传播(Everett Rogers)和思想病毒(Seth Godin)。 12.创新扩散的人群分类:5类人群。 13.创新扩散的关键要素:4个要素。 14.创新采用阶段:5个阶段。 15.沟通原则:4个原则。 16.沟通目标:8个目标。 17.数据管理中的沟通目标:4个方面。 18.沟通计划中的要素:12个要素。 十八、最佳实践(7)1.DIKW和DRAC。 2.数据确权。登记是形式上的确权、入表是实质上的确权。 3.三权分置:数据资源持有权、数据加工使用权、数据产品经营权。 4.数据价值实现:间接、直接。 5.数据交易合规与监管相关法律:《网络安全法》《数据安全法》《个人信息保护法》。 6.数据跨境流通区域:4个区域。 7.数据资产入表:3或4张表。 十九、CDGA考试(5)1.CDGA考试: (1) 100道单选题,每题1分。 (2) 100分满,60分合格。 (3) 图答题卡,机器批卷。 (4) 不支持查分。 2.CDGA考试难度:中等。 3.CDGA考试趋势:从书本原文向应用场景过渡,难度稳步增加。 4.CDGA备考资料:《一本书搞定CDGA》优于《DMBOK》最新版教材。 5.CDGA的通过率:全数联一般保持在90%以上。参加进阶培训的通过率可以达到100%。
|