|
聚类又称群分析,是一种重要的机器学习和数据挖掘技术。聚类分析的目的是将数据集中的数据对象划分到若干个簇中,并且保证每个簇之间样本尽量接近,不同簇的样本间距离尽量远。通过聚类生成的簇是一组数据对象的集合,簇满足以下两个条件: 1.每个簇至少包含一个数据对象; 2.每个数据对象仅属于一个簇。 聚类分析一般属于无监督分类的范畴,按照一定的要求和规律,在没有关于分类的先验知识情况下,对数据进行区分和分类。聚类既能作为一个单独过程,用于找寻数据内部的分布结构,也可以作为分类等其他学习任务的前驱过程。聚类算法可分为划分法(Partitioning Method)、层次法(Hierarchical Method)、基于密度的方法(Density-based Method)、基于网格的方法(Grid-based Method)、基于模型的方法(Model-Based Method)。这些方法没有统一的评价指标,因为不同聚类算法的目标函数相差很大。有些聚类是基于距离的(如K-Means),有些是假设先验分布的(如GMM,LDA),有些是带有图聚类和谱分析性质的(如谱聚类),还有些是基于密度的(如DBSCAN)。聚类算法应该嵌入到问题中进行评价。 聚类分析的常见应用场景包括: 1.目标用户的群体分类。通过对特定运营目的和商业目的所挑选出的指标变量进行聚类分析,把目标群体划分成几个具有明显特征区别的细分群体,从而可以在运营活动中为这些细分群体采取精细化,个性化的运营和服务,最终提升运营的效率和商业效果。 2.不同产品的价值组合。企业可以按照不同的商业目的,并依照特定的指标标量来为众多的产品种类进行聚类分析,把企业的产品体系进一步细分成具有不同价值、不同目的的多维度的产品组合,并且在此基础分别制定和相应的开发计划、运营计划和服务规划。 3.探测发现离群点和异常值。这里的离群点是指相对于整体数据对象而言的少数数据对象,这些对象的行为特征与整体的数据行为特征很不一致,比如,某B2C电商平台上,比较昂贵、频繁的交易,就有可能隐含欺诈的风险,需要风控部门提前关注。 【出处】林子雨.大数据导论.人民邮电出版社,2020年9月第1版.
|