|
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘可以视为机器学习与数据库的交叉,它主要利用机器学习界提供的算法来分析海量数据,利用数据库界提供的存储技术来管理海量数据。从知识的来源角度而言,数据挖掘领域的很多知识也“间接”来自于统计学界,之所以说“间接”,是因为统计学界一般偏重于理论研究而不注重实用性,统计学界中的很多技术需要在机器学习界进行验证和实践并变成有效的机器学习算法以后,才可能进入数据挖掘领域,对数据挖掘产生影响。 虽然数据挖掘的很多技术都来自机器学习领域,但是,我们并不能因此就认为数据挖掘只是机器学习的简单应用。毕竟,机器学习通常只研究小规模的数据对象,往往无法应用到海量数据的情形,数据挖掘领域必须借助于海量数据管理技术对数据进行存储和处理,同时对一些传统的机器学习算法进行改进,使其能够支持海量数据的情形。 典型的数据挖掘算法包括分类、聚类、回归分析和关联规则等。 【出处】林子雨.大数据导论.人民邮电出版社,2020年9月第1版.
|