|
实际挖掘应用所涉及的数据,其数据量往往非常庞大。例如,上海证券交易所自1990年设所进行电子交易以来各种股票的日开盘价、最高价、最低价、收盘价的时间序列数据集,数据量就非常大;又如,用于直肠癌转移诊断的CT扫描图像训练数据,其数据量也非常庞大。对海量数据进行较为复杂的数据分析和数据挖掘工作,需要满足以下条件:一是数据挖掘算法能够支持海量的高维的数据处理;而是计算机硬件设备,例如内存配置,能够满足算法处理大量数据的要求;三是处理时间不受限制。 如果不能满足上述条件,则需要对数据的规模进行缩减,以满足处理要求,这称为数据归约。较为常见的数据归约方法有维归约、数据压缩、数值归约、离散化和概念分层等。 【出处】葛东旭.数据挖掘原理与应用.机械工业出版社,2020年3月第1版.
|