数据词典：聚类（Clustering）

赵老师 · 发表于 2025-12-6 19:18:07

聚类又称群分析，是一种重要的机器学习和数据挖掘技术。聚类分析的目的是将数据集中的数据对象划分到若干个簇中，并且保证每个簇之间样本尽量接近，不同簇的样本间距离尽量远。通过聚类生成的簇是一组数据对象的集合，簇满足以下两个条件：

1．每个簇至少包含一个数据对象；

2．每个数据对象仅属于一个簇。

聚类分析一般属于无监督分类的范畴，按照一定的要求和规律，在没有关于分类的先验知识情况下，对数据进行区分和分类。聚类既能作为一个单独过程，用于找寻数据内部的分布结构，也可以作为分类等其他学习任务的前驱过程。聚类算法可分为划分法（Partitioning Method）、层次法（Hierarchical Method）、基于密度的方法（Density-based Method）、基于网格的方法（Grid-based Method）、基于模型的方法（Model-Based Method）。这些方法没有统一的评价指标，因为不同聚类算法的目标函数相差很大。有些聚类是基于距离的（如K-Means），有些是假设先验分布的（如GMM，LDA），有些是带有图聚类和谱分析性质的（如谱聚类），还有些是基于密度的（如DBSCAN）。聚类算法应该嵌入到问题中进行评价。

聚类分析的常见应用场景包括：

1．目标用户的群体分类。通过对特定运营目的和商业目的所挑选出的指标变量进行聚类分析，把目标群体划分成几个具有明显特征区别的细分群体，从而可以在运营活动中为这些细分群体采取精细化，个性化的运营和服务，最终提升运营的效率和商业效果。

2．不同产品的价值组合。企业可以按照不同的商业目的，并依照特定的指标标量来为众多的产品种类进行聚类分析，把企业的产品体系进一步细分成具有不同价值、不同目的的多维度的产品组合，并且在此基础分别制定和相应的开发计划、运营计划和服务规划。

3．探测发现离群点和异常值。这里的离群点是指相对于整体数据对象而言的少数数据对象，这些对象的行为特征与整体的数据行为特征很不一致，比如，某B2C电商平台上，比较昂贵、频繁的交易，就有可能隐含欺诈的风险，需要风控部门提前关注。

【出处】林子雨.大数据导论.人民邮电出版社,2020年9月第1版.

		自动登录	找回密码
密码			立即注册