首页 >
聚类分析
✍ dations ◷ 2025-07-19 03:24:36 #聚类分析
聚类分析(英语:Cluster analysis)亦称为群集分析,是对于统计数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。一般把数据聚类归纳为一种非监督式学习。数据聚类算法可以分为结构性或者分散性。结构性算法利用以前成功使用过的聚类器进行分类,而分散型算法则是一次确定所有分类。结构性算法可以从上至下或者从下至上双向进行计算。从下至上算法从每个对象作为单独分类开始,不断融合其中相近的对象。而从上至下算法则是把所有对象作为一个整体分类,然后逐渐分小。分布式聚类算法,是一次性确定要产生的类别,这种算法也已应用于从下至上聚类算法。基于密度的聚类算法,是为了挖掘有任意形状特性的类别而发明的。此算法把一个类别视为数据集中大于某阈值的一个区域。DBSCAN和OPTICS是两个典型的算法。许多聚类算法在执行之前,需要指定从输入数据集中产生的分类个数。除非事先准备好一个合适的值,否则必须决定一个大概值,关于这个问题已经有一些现成的技术。在结构性聚类中,关键性的一步就是要选择测量的距离。一个简单的测量就是使用曼哈顿距离,它相当于每个变量的绝对差值之和。该名字的由来起源于在纽约市区测量街道之间的距离就是由人步行的步数来确定的。一个更为常见的测量是欧式空间距离,他的算法是找到一个空间,来计算每个空间中点到原点的距离,然后对所有距离进行换算。常用的几个距离计算方法:在已经得到距离值之后,元素间可以被联系起来。通过分离和融合可以构建一个结构。传统上,表示的方法是树形数据结构,
然后对该结构进行修剪。树的根节点表示一个包含所有项目的类别,树叶表示与个别的项目相关的类别。层次聚类算法,要么是自底向上聚集型的,即从叶子节点开始,最终汇聚到根节点;要么是自顶向下分裂型的,即从根节点开始,递归的向下分裂。任意非负值的函数都可以用于衡量一对观测值之间的相似度。决定一个类别是否分裂或者合并的是一个连动的标准,它是两两观测值之间距离的函数。在一个指定高度上切割此树,可以得到一个相应精度的分类。它的层次聚类树如下图K-均值算法表示以空间中k个点为中心进行聚类,对最靠近他们的对象归类。算法归纳为(J. MacQueen, 1967):该算法的最大优势在于简洁和快速。劣势在于对于一些结果并不能够满足需要,因为结果往往需要随机点的选择非常巧合。For spectral clustering :For estimating number of clusters:For discussion of the elbow criterion:
相关
- 真核真核生物(学名:Eukaryota)是其细胞具有细胞核的单细胞生物和多细胞生物的总称,它包括所有动物、植物、真菌和其他具有由膜包裹着的复杂亚细胞结构的生物,而不包括细菌和古菌,因它
- 水华水华(Water bloom)或藻华(Algal bloom),通常为学术所称“水体富营养化”而造成,是发生在淡水中,由水体中氮磷含量过高导致藻类,细菌或浮游生物突然性过度增殖的一种自然现象,同时也
- 自雇人士自雇者,或称自雇人士,其工作的雇主就是自己。此类劳务提供者承担商业风险,不受劳动法律所保障,不能享受员工福利、有薪公众假期、工伤赔偿、退休金等,有些则加入行会。自雇者要申
- 墙墙(或称壁、墙壁)在建筑学上是指一种重直向的空间隔断结构,用来围合、分割或保护某一区域,是建筑设计中最重要的元素之一。根据墙在建筑物中是否承重,分为承重墙和非承重墙。承重
- 法属南部和南极领地法属南部和南极领地(法语:Terres australes et antarctiques françaises,缩写为TAAF)简称法属南部领地,是法国的一个海外领地。它包含以下地区:法属南部和南极领地无常住居民,人口
- 康斯坦丁二世康斯坦丁·麦克艾德(中世纪盖尔语:Constantín mac Áeda;现代盖尔语:Còiseam mac Aoidh;英语:Constantine, son of Áed;其名直译为艾德之子康斯坦丁,近代的国王列表中称其为康斯
- 包为民包为民(1960年3月-)原籍浙江省镇海,生于黑龙江省哈尔滨。制导与控制专家,中国科学院院士。1982年8月,毕业于西北电讯工程学院电子工程系信息处理专业。他是中国航天运载器总体及控
- 线圈电感器(inductor)是一种电路元件,会因为通过的电流的改变而产生电动势,从而抵抗电流的改变。这属性称为电感。电感元件有许多种形式,依据外观与功用的不同,而会有不同的称呼。以漆
- 警察数各国(包括地区)警察数量列表,依照其英文名字排列。此处的“警务人员”不特指一国内政部(公安部)管辖下的人员,还包括供职于国家安全机构、策反机构、谍报排查机构、特殊侦讯机构、
- 渔业与水产以下2005年渔业与水产养殖产品产量数据(单位:公吨),是由联合国粮农组织提供。