找回密码
 立即注册
查看: 42|回复: 0

数据词典:分类(Classification)

[复制链接]

1231

主题

74

回帖

4110

积分

管理员

积分
4110
发表于 2025-12-6 19:03:15 | 显示全部楼层 |阅读模式
分类是一种重要的机器学习和数据挖掘技术。分类的目的是根据数据集的特点构造一个分类函数或分类模型(也常常称作分类器),该模型能把未知类别的样本映射到给定类别中。
构造分类模型的过程一般分为训练和测试两个阶段。在构造模型之前,将数据集随机地分为训练数据集和测试数据集。先使用训练数据集来构造分类模型,然后使用测试数据集来评估模型的分类准确率。如果认为模型的准确率可以接受,就可以用该模型对其它数据元组进行分类。一般来说,测试阶段的代价远低于训练阶段。
典型的分类方法包括决策树、朴素贝叶斯、支持向量机和人工神经网络等。
这里给出一个分类的应用实例。假设有一名植物学爱好者对她发现的鸢尾花的品种很感兴趣。她收集了每朵鸢尾花的一些测量数据:花瓣的长度和宽度以及花萼的长度和宽度。她还有一些鸢尾花分类的数据,也就是说,这些花之前已经被植物学专家鉴定为属于setosaversicolorvirginica三个品种之一。基于这些分类数据,她可以确定每朵鸢尾花所属的品种。于是,她可以构建一个分类算法,让算法从这些已知品种的鸢尾花测量数据中进行学习,得到一个分类模型,再使用分类模型预测新鸢尾花的品种。
【出处】林子雨.大数据导论.人民邮电出版社,20209月第1.
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|全数联人才测评中心 ( 京ICP备2024094898号 )

GMT+8, 2026-1-3 05:44 , Processed in 0.082639 second(s), 21 queries .

版权所有: 全数联人才测评(北京)中心 备案图标.png 京公网安备11011102002767号 京ICP备2024094898号

友情链接: 中华全国数字人才培育联盟 全数联人才测评中心学习平台 全数联人才测评中心存证平台 全数联人工智能职业认证中心

快速回复 返回顶部 返回列表