|
数据转换就是将数据进行转换或归并,从而构成一个适合数据处理的描述形式。常见的数据转换策略包括: (1)平滑处理。帮助除去数据中的噪声,常用的方法包括分箱、回归和聚类等。 (2)聚集处理。对数据进行汇总操作。例如,每天的数据经过汇总操作可以获得每月或每年的总额。这一操作常用于构造数据立方体或对数据进行多粒度的分析。 (3)数据泛化处理。用更抽象(更高层次)的概念来取代低层次的数据对象。例如,街道属性可以泛化到更高层次的概念,如城市、国家,再比如年龄属性可以映射到更高层次的概念,如年轻、中年和老年。 (4)规范化处理。将属性值按比例缩放,使之落入一个特定的区间,比如0.0~1.0。常用的数据规范化方法包括Min-Max规范化、Z-Score规范化和小数定标规范化等。 (5)属性构造处理。根据已有属性集构造新的属性,后续数据处理直接使用新增的属性。例如,根据已知的质量和体积属性,计算出新的属性——密度。 【出处】林子雨.大数据导论.人民邮电出版社,2020年9月第1版
|