层次聚类

✍ dations ◷ 2025-06-08 15:41:05 #层次聚类

在数据挖掘和统计学中,层次聚类(英语:Hierarchical clustering)是一种旨在建立聚类的层次结构的聚类分析方法。层次聚类的策略通常有两种:

凝聚和分离的操作通常用贪心算法实现,结果通常用树状图展示。

标准的凝聚层次聚类(Hierarchical agglomerative clustering,HAC)算法的时间复杂度为 O ( n 3 ) {displaystyle {mathcal {O}}(n^{3})} 和的合并后,形成的集群为:{}、{, }、{}、{} 、{},对其进行进一步的合并需要度量集群{a}和{b, c}之间的距离(即两个集群间的距离)。通常将集群 A {displaystyle {mathcal {A}}} B {displaystyle {mathcal {B}}} 之间的距离定义为:

当若干对组合具有同样的距离且为最小时,可以随机选取一对形成集群(生成不同的树状图);也可以同时形成不同的集群(生成唯一的树状图)。

聚类算法的停止准则可以取决于数量(当形成足够少的集群时停止);也可以取决于距离(当两个集群之间的距离足够远,以至于不能形成新集群时停止)。

DIANA(DIvisive ANAlysis Clustering)是分裂层次聚类的基础算法。 首先,所有元素归属同一个集群,然后分裂集群,直到所有元素都独立成群。由于存在 O ( 2 n ) {displaystyle O(2^{n})} 种方法进行分裂,因此需要启发式(Heuristics)算法实现。DIANA选择平均异同度(Average dissimilarity)最大的元素,然后将所有与新集群相似度高于其余集群的元素划分到该集群。

相关

  • Cyproterone acetate醋酸环丙孕酮(Cyproterone acetate,CPA),商品名有如色普龙、Androcur、安得卡等,是一种合成甾体抗雄激素、黄体制剂、抗促性腺激素。 因其阻止内源雄激素与其受体结合以及抑制雄
  • 阔面仓鼠属阔面仓鼠属(),哺乳纲、啮齿目、仓鼠科的一属,而与阔面仓鼠属(阔面仓鼠)同科的动物尚有隆鼠属(哀隆鼠)、南美原鼠属(奔原鼠)、东非鼹鼠属(大东非鼹鼠)等之数种哺乳动物。
  • 佟大为佟大为(1979年2月3日-),中国大陆电视剧男演员,生于辽宁抚顺,满族人,2001年毕业于上海戏剧学院。2007年主演电视剧《奋斗》一炮而红,与文章、朱雨辰成为兄弟。佟大为因拍大制作电影多
  • 苻姓苻姓是一个中国氐族的姓氏,最早的起源来自于氐族首领苻洪。晋朝氐族首领苻洪原名蒲洪,后以谶纬有“艸付应王”,遂改苻姓。其子苻健称帝,建立前秦。子苻生继位,暴虐无道,被宗室苻坚
  • 李明德 (演员)李明德(1996年12月29日-),中国大陆男演员。毕业于北京电影学院2015级表演系本科班。2018年11月,与侯明昊主演青春校园网络剧《人不彪悍枉少年》,这也是他的首部影视作品。2019年3
  • SATA ExpressSATA Express(英文:Serial Advanced Technology Attachment Express,亦可缩写为Serial ATA Express,也有坊间的非官方缩写SATAe)是一种基于SATA和PCI Express(PCIe)而来的高速电脑
  • 渴望遇见《渴望遇见》是周深为《谁都渴望遇见你》演唱的主题曲。此曲获得亚洲新歌榜周榜和日榜冠军,以及华语音乐排行榜内地榜月榜冠军。《谁都渴望遇见你》是一部2020年播出的中国大陆都市言情剧,周深演唱的歌曲《渴望遇见》是其主题曲。以下内容整理自豆瓣音乐:
  • 托马斯·比贝尔托马斯·比贝尔(挪威语:Thomas Byberg,1916年9月18日-1998年10月13日),挪威男子速度滑冰运动员。他曾代表挪威获得1948年冬季奥运会速度滑冰比赛男子500米银牌。他于1998年在特隆赫姆去世。
  • 智能程序智能程序 (),最早由麻省理工学院的Marvin Minsky提出,指能自动运行完成工作的程序,如搜索引擎的蠕虫程序、自动在因特网上搜索信息的数据库智能代理程序。利用智能程序将加强数据库系统的功能。一个进入网络的智能程序,可以自动访问不同数据库/网站/节点等来完成它的主人所需要的信息。然后把结果发回给它的主人。设计程序具有学习能力,它可以在不断的提高自己的能力。
  • 罗纳德·麦克莱恩罗纳德·戈登·麦克莱恩(英语:Ronald Gordon McLean,1881年3月26日-1941年7月2日),英国男子竞技体操运动员。他曾获得1912年夏季奥运会体操比赛男子团体全能铜牌。他也参加了1920年夏季奥运会。