|
分类是一种重要的机器学习和数据挖掘技术。分类的目的是根据数据集的特点构造一个分类函数或分类模型(也常常称作分类器),该模型能把未知类别的样本映射到给定类别中。 构造分类模型的过程一般分为训练和测试两个阶段。在构造模型之前,将数据集随机地分为训练数据集和测试数据集。先使用训练数据集来构造分类模型,然后使用测试数据集来评估模型的分类准确率。如果认为模型的准确率可以接受,就可以用该模型对其它数据元组进行分类。一般来说,测试阶段的代价远低于训练阶段。 典型的分类方法包括决策树、朴素贝叶斯、支持向量机和人工神经网络等。 这里给出一个分类的应用实例。假设有一名植物学爱好者对她发现的鸢尾花的品种很感兴趣。她收集了每朵鸢尾花的一些测量数据:花瓣的长度和宽度以及花萼的长度和宽度。她还有一些鸢尾花分类的数据,也就是说,这些花之前已经被植物学专家鉴定为属于setosa、versicolor或virginica三个品种之一。基于这些分类数据,她可以确定每朵鸢尾花所属的品种。于是,她可以构建一个分类算法,让算法从这些已知品种的鸢尾花测量数据中进行学习,得到一个分类模型,再使用分类模型预测新鸢尾花的品种。 【出处】林子雨.大数据导论.人民邮电出版社,2020年9月第1版. |