层次聚类

✍ dations ◷ 2025-08-17 20:43:04 #层次聚类

在数据挖掘和统计学中,层次聚类(英语:Hierarchical clustering)是一种旨在建立聚类的层次结构的聚类分析方法。层次聚类的策略通常有两种:

凝聚和分离的操作通常用贪心算法实现,结果通常用树状图展示。

标准的凝聚层次聚类(Hierarchical agglomerative clustering,HAC)算法的时间复杂度为 O ( n 3 ) {displaystyle {mathcal {O}}(n^{3})} 和的合并后,形成的集群为:{}、{, }、{}、{} 、{},对其进行进一步的合并需要度量集群{a}和{b, c}之间的距离(即两个集群间的距离)。通常将集群 A {displaystyle {mathcal {A}}} B {displaystyle {mathcal {B}}} 之间的距离定义为:

当若干对组合具有同样的距离且为最小时,可以随机选取一对形成集群(生成不同的树状图);也可以同时形成不同的集群(生成唯一的树状图)。

聚类算法的停止准则可以取决于数量(当形成足够少的集群时停止);也可以取决于距离(当两个集群之间的距离足够远,以至于不能形成新集群时停止)。

DIANA(DIvisive ANAlysis Clustering)是分裂层次聚类的基础算法。 首先,所有元素归属同一个集群,然后分裂集群,直到所有元素都独立成群。由于存在 O ( 2 n ) {displaystyle O(2^{n})} 种方法进行分裂,因此需要启发式(Heuristics)算法实现。DIANA选择平均异同度(Average dissimilarity)最大的元素,然后将所有与新集群相似度高于其余集群的元素划分到该集群。

相关

  • 俄历儒略历,是格里历的前身,由罗马共和国独裁官儒略·凯撒采纳埃及亚历山大的希腊数学家兼天文学家索西琴尼(英语:Sosigenes of Alexandria)计算的历法,在公元前45年1月1日起执行,取代
  • 匀速圆周运动匀速圆周运动(英语:Uniform circular motion),是指物体以等速率沿着圆周作运动,变速圆周运动与其相对。在这种情况下速度的大小保持不变,但方向不断的改变。加速度是速度对于时间
  • F-Lock微软在2001年推出的F-Lock密钥切换了功能键的状态。它的功能与Fn建类似,主要是在紧凑布局中以组合键方式决定更多一键两义的按键。启用时,键F1至F12的行为与适用相同,其含义由
  • 饭冢康一饭冢康一(1965年3月10日-),日本男性音响监督、电台节目导播、电台主持人。饭冢早年从KSS(日语:ケイエスエス)的职员时期开始担任与相关公司合作的动画作品音响监督一职、和负责电台
  • 唯一素数唯一素数(Unique prime)是指一个不为2, 5,有以下性质的素数:不存在其他素数,其倒数1 / 的循环节长度和1 / 的循环节长度相等。唯一素数是在1980年代由Samuel Yates提出。可以证明
  • 阿拉善高原阿拉善高原位于中国内蒙古自治区西部阿拉善盟,是内蒙古高原的一部分。“阿拉善”这个词来源于古代突厥语,是“贺兰”的另一种音译,意思是古代传说中的一种怪兽“駮”。《山海经
  • 康宁公司康宁股份有限公司(英语:Corning Incorporated,简称康宁公司,NYSE:GLW)是一家美国特殊玻璃和陶瓷材料的制造商,1851年于美国纽约州的康宁市成立。基于150多年在材料科学和制程工艺领
  • 音分音分(英语:cent)是一个用于度量音程的对数标度单位。在十二平均律中,将一个八度音程分为12个半音。每一个半音的音程(相当于相邻钢琴键间的音程)等于100音分。音分通常用于度量极
  • 毕春芳毕春芳(1927年7月14日-2016年8月14日),中国浙江省鄞县人,越剧演员,擅长小生。1927年7月14日,毕春芳生于上海,祖籍浙江鄞县。1948年参加雪声剧团。2016年8月14日,毕春芳因骨折导致的并
  • 梁在平梁在平(1910年02月23日-2000年06月28日),生于河北省高阳县,是一位古筝、古琴演奏家,国家文艺奖、行政院文化奖得主,一生致力于传统音乐文化推广。1924年在北京就读四存中学时便学琴和筝于史荫美,后又向杨时百、郑颖孙、张友鹤等人习琴。曾独奏《梅花三弄》,得到于右任的赏识。1934年客居重庆时,曾与徐元白、徐文镜、徐芝孙、黄鞠生、高罗佩合组天风琴社,后来程独清和胡光瑨(莹堂)等人加入,并推徐元白为社长。交通大学毕业之后,前往美国耶鲁大学深造,并常在电视上演出,获得不少关注。促成中国文化大学及国立