层次聚类是一种无监督学习技术,根据距离或相似性度量将相似的观察结果分组。链接方法决定了聚类间距离的计算方式。
本文就来介绍下层次聚类中使用的链接方法,包括单链接、完全链接、平均链接和离差平方和法。
单链接(Single linkage)也被称为最近邻链接,它将两个簇之间的距离定义为这两个簇中任意两个点之间的最短距离。换句话说,两个簇之间的距离是由它们最接近的点之间的距离确定的。然而,这种方法常常会导致形成长链状的聚类,而且对数据中的异常值和噪声非常敏感。
完全链接(Ccomplete linkage)也称为最远邻居链接,它使用两个簇中任意两点之间的最长距离来确定两个簇之间的距离。这意味着两个簇之间的距离由它们最远点之间的距离定义。完全链接方法倾向于生成紧凑的球形集群,这些集群对数据中的异常值和噪声不太敏感。
平均链接(Average linkage)方法计算两个聚类之间的距离为两个聚类中所有点对之间的平均距离。这种方法倾向于生成介于单链接生成的长链状集群和完整链接生成的紧凑球形集群之间的集群形态。
离差平方和法(Ward linkage),也被称为最小方差链接,用于通过最小化两个聚类合并时方差的增加来确定两个聚类之间的距离。这种方法倾向于生成方差和大小相似的聚类。
层次聚类中使用的链接方法选择对聚类结果有着重要影响。不同的链接方法会导致不同的聚类输出。单链接方法倾向于形成长链状的聚类集群,完全链接方法则产生紧凑的球形聚类集群,而平均链接方法则产生介于两者之间的聚类集群。另外,离差平方和法则会生成具有相似方差和大小的聚类集群。在选择特定的链接方法之前,我们需要仔细考虑数据的特征以及当前的任务目标,因为这会对聚类结果产生重要影响。