找回密码
 立即注册
查看: 33|回复: 0

数据词典:聚类(Clustering)

[复制链接]

1231

主题

74

回帖

4110

积分

管理员

积分
4110
发表于 2025-12-6 19:18:07 | 显示全部楼层 |阅读模式
聚类又称群分析,是一种重要的机器学习和数据挖掘技术。聚类分析的目的是将数据集中的数据对象划分到若干个簇中,并且保证每个簇之间样本尽量接近,不同簇的样本间距离尽量远。通过聚类生成的簇是一组数据对象的集合,簇满足以下两个条件:
1.每个簇至少包含一个数据对象;
2.每个数据对象仅属于一个簇。
聚类分析一般属于无监督分类的范畴,按照一定的要求和规律,在没有关于分类的先验知识情况下,对数据进行区分和分类。聚类既能作为一个单独过程,用于找寻数据内部的分布结构,也可以作为分类等其他学习任务的前驱过程。聚类算法可分为划分法(Partitioning Method)、层次法(Hierarchical Method)、基于密度的方法(Density-based Method)、基于网格的方法(Grid-based Method)、基于模型的方法(Model-Based Method)。这些方法没有统一的评价指标,因为不同聚类算法的目标函数相差很大。有些聚类是基于距离的(如K-Means),有些是假设先验分布的(如GMMLDA),有些是带有图聚类和谱分析性质的(如谱聚类),还有些是基于密度的(如DBSCAN)。聚类算法应该嵌入到问题中进行评价。
聚类分析的常见应用场景包括:
1.目标用户的群体分类。通过对特定运营目的和商业目的所挑选出的指标变量进行聚类分析,把目标群体划分成几个具有明显特征区别的细分群体,从而可以在运营活动中为这些细分群体采取精细化,个性化的运营和服务,最终提升运营的效率和商业效果。
2.不同产品的价值组合。企业可以按照不同的商业目的,并依照特定的指标标量来为众多的产品种类进行聚类分析,把企业的产品体系进一步细分成具有不同价值、不同目的的多维度的产品组合,并且在此基础分别制定和相应的开发计划、运营计划和服务规划。
3.探测发现离群点和异常值。这里的离群点是指相对于整体数据对象而言的少数数据对象,这些对象的行为特征与整体的数据行为特征很不一致,比如,某B2C电商平台上,比较昂贵、频繁的交易,就有可能隐含欺诈的风险,需要风控部门提前关注。
【出处】林子雨.大数据导论.人民邮电出版社,20209月第1.

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|全数联人才测评中心 ( 京ICP备2024094898号 )

GMT+8, 2026-1-3 00:30 , Processed in 0.075708 second(s), 20 queries .

版权所有: 全数联人才测评(北京)中心 备案图标.png 京公网安备11011102002767号 京ICP备2024094898号

友情链接: 中华全国数字人才培育联盟 全数联人才测评中心学习平台 全数联人才测评中心存证平台 全数联人工智能职业认证中心

快速回复 返回顶部 返回列表