|
ETL是英文Extract-Transform-Load的缩写,常用于数据仓库中的数据采集和预处理环节。顾名思义,ETL从原系统中抽取数据,并根据实际商务需求对数据进行转换,并把转换结果加载到目标数据存储中。可以看出,ETL既包含了数据采集环节,也包含了数据预处理环节。ETL的源和目标通常都是数据库和文件,但是也可以是其他类型的数据存储,比如消息队列。ETL是实现大规模数据初步加载的理想解决方案,它提供了高级的转换能力。ETL任务通常都是在“维护时间窗口”进行,在ETL任务执行期间,数据源默认不会发生变化,这就使得用户不必担忧ETL任务开销对数据源的影响,但同时也意味着,对于商务用户而言,数据和应用并非任何时候都是可用的。目前,市场上主流的ETL工具包括DataPipeline、Kettle、Talend、Informatica、Datax、Oracle Goldengate等。 【出处】林子雨.大数据导论.人民邮电出版社,2020年9月第1版.
|