聚类分析

✍ dations ◷ 2025-06-06 14:39:35 #聚类分析
聚类分析(英语:Cluster analysis)亦称为群集分析,是对于统计数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。一般把数据聚类归纳为一种非监督式学习。数据聚类算法可以分为结构性或者分散性。结构性算法利用以前成功使用过的聚类器进行分类,而分散型算法则是一次确定所有分类。结构性算法可以从上至下或者从下至上双向进行计算。从下至上算法从每个对象作为单独分类开始,不断融合其中相近的对象。而从上至下算法则是把所有对象作为一个整体分类,然后逐渐分小。分布式聚类算法,是一次性确定要产生的类别,这种算法也已应用于从下至上聚类算法。基于密度的聚类算法,是为了挖掘有任意形状特性的类别而发明的。此算法把一个类别视为数据集中大于某阈值的一个区域。DBSCAN和OPTICS是两个典型的算法。许多聚类算法在执行之前,需要指定从输入数据集中产生的分类个数。除非事先准备好一个合适的值,否则必须决定一个大概值,关于这个问题已经有一些现成的技术。在结构性聚类中,关键性的一步就是要选择测量的距离。一个简单的测量就是使用曼哈顿距离,它相当于每个变量的绝对差值之和。该名字的由来起源于在纽约市区测量街道之间的距离就是由人步行的步数来确定的。一个更为常见的测量是欧式空间距离,他的算法是找到一个空间,来计算每个空间中点到原点的距离,然后对所有距离进行换算。常用的几个距离计算方法:在已经得到距离值之后,元素间可以被联系起来。通过分离和融合可以构建一个结构。传统上,表示的方法是树形数据结构, 然后对该结构进行修剪。树的根节点表示一个包含所有项目的类别,树叶表示与个别的项目相关的类别。层次聚类算法,要么是自底向上聚集型的,即从叶子节点开始,最终汇聚到根节点;要么是自顶向下分裂型的,即从根节点开始,递归的向下分裂。任意非负值的函数都可以用于衡量一对观测值之间的相似度。决定一个类别是否分裂或者合并的是一个连动的标准,它是两两观测值之间距离的函数。在一个指定高度上切割此树,可以得到一个相应精度的分类。它的层次聚类树如下图K-均值算法表示以空间中k个点为中心进行聚类,对最靠近他们的对象归类。算法归纳为(J. MacQueen, 1967):该算法的最大优势在于简洁和快速。劣势在于对于一些结果并不能够满足需要,因为结果往往需要随机点的选择非常巧合。For spectral clustering :For estimating number of clusters:For discussion of the elbow criterion:

相关

  • 前房积血前房积血(hyphema)指眼睛的角膜前房因积血而导致眼角膜泛红,眼角膜也可能肿胀。通常因受到撞击而导致眼角膜前房积血。前房积血可能导致暂时性失明。需要医药治疗否则可能导致
  • 诺曼底王朝本条目是分类中的文章诺曼底王朝(1066年-1135年;英语:House of Normandy)是英格兰的一个王朝,共有四位诺曼底家族的国王先后统治英格兰,统治时间由征服王威廉之后的1066年开始,直至
  • 切哈努夫切哈努夫(波兰语:Ciechanów)位于波兰中部马佐夫舍省内。位于华沙北部约100公里处。坐标:52°53′N 20°37′E / 52.883°N 20.617°E / 52.883; 20.617
  • 通用语言通用语(拉丁文:lingua franca),亦称“公用语、通行语、公语”,是指一定区域内不同的语言的人之间进行交际的共同媒介,是不同语言背景的人进行交际的一种共同语。有时通用语也指一
  • 古菌素古菌素(英语:archaeocin)系一类从古菌中分离出的,有潜力成为新型强效抗生素的物质。已部分或完全确认了8种古菌素的存在,但古菌素的数量应多达数百种,而且这里面有很大一部分应该
  • 软骨鱼类软骨鱼类是一类古老的鱼类,演化自棘鱼。软骨鱼类是现存有颌鱼类中最基干的类群,除了牙齿为硬骨外,骨骼全部由软骨组成,体被盾鳞或无鳞;鳃裂每侧5-7个分别开口于体外,或4个外被一膜
  • 本·琼森本·琼森(Ben Jonson,约1572年6月11日-1637年8月6日),英格兰文艺复兴剧作家、诗人和演员。他的作品以讽刺剧见长,《福尔蓬奈》(Volpone)和《炼金士》(The Alchemist)为其代表作,他的抒
  • 起阳籽韭菜(学名:Allium tuberosum),又称起阳子,是石蒜科葱属的多年生草本植物,丛生,叶细长而扁,开小白花。叶和花嫩时可以食用。有佛教五荤、道教五荤等宗教信仰需素食者不可食用韭菜,韭菜
  • 四因说四因说(four causes),由古希腊哲学家亚里士多德提出,将世界上事物的变化与运动的背后原因(古希腊语:αἴτιον)归纳为四大类。四因包括:亚里士多德认为,凡感性实体,包括自然物和人
  • 二七第八第十埃及第二十七王朝,又称第一次阿契美尼德时期、第一次埃及总督时期,是古埃及晚期的一个历史时期,自前525年至前402年为止。这一时期古埃及,为波斯阿契美尼德王朝的埃及行