首页 >
聚类分析
✍ dations ◷ 2025-11-30 06:08:38 #聚类分析
聚类分析(英语:Cluster analysis)亦称为群集分析,是对于统计数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。一般把数据聚类归纳为一种非监督式学习。数据聚类算法可以分为结构性或者分散性。结构性算法利用以前成功使用过的聚类器进行分类,而分散型算法则是一次确定所有分类。结构性算法可以从上至下或者从下至上双向进行计算。从下至上算法从每个对象作为单独分类开始,不断融合其中相近的对象。而从上至下算法则是把所有对象作为一个整体分类,然后逐渐分小。分布式聚类算法,是一次性确定要产生的类别,这种算法也已应用于从下至上聚类算法。基于密度的聚类算法,是为了挖掘有任意形状特性的类别而发明的。此算法把一个类别视为数据集中大于某阈值的一个区域。DBSCAN和OPTICS是两个典型的算法。许多聚类算法在执行之前,需要指定从输入数据集中产生的分类个数。除非事先准备好一个合适的值,否则必须决定一个大概值,关于这个问题已经有一些现成的技术。在结构性聚类中,关键性的一步就是要选择测量的距离。一个简单的测量就是使用曼哈顿距离,它相当于每个变量的绝对差值之和。该名字的由来起源于在纽约市区测量街道之间的距离就是由人步行的步数来确定的。一个更为常见的测量是欧式空间距离,他的算法是找到一个空间,来计算每个空间中点到原点的距离,然后对所有距离进行换算。常用的几个距离计算方法:在已经得到距离值之后,元素间可以被联系起来。通过分离和融合可以构建一个结构。传统上,表示的方法是树形数据结构,
然后对该结构进行修剪。树的根节点表示一个包含所有项目的类别,树叶表示与个别的项目相关的类别。层次聚类算法,要么是自底向上聚集型的,即从叶子节点开始,最终汇聚到根节点;要么是自顶向下分裂型的,即从根节点开始,递归的向下分裂。任意非负值的函数都可以用于衡量一对观测值之间的相似度。决定一个类别是否分裂或者合并的是一个连动的标准,它是两两观测值之间距离的函数。在一个指定高度上切割此树,可以得到一个相应精度的分类。它的层次聚类树如下图K-均值算法表示以空间中k个点为中心进行聚类,对最靠近他们的对象归类。算法归纳为(J. MacQueen, 1967):该算法的最大优势在于简洁和快速。劣势在于对于一些结果并不能够满足需要,因为结果往往需要随机点的选择非常巧合。For spectral clustering :For estimating number of clusters:For discussion of the elbow criterion:
相关
- 分体病毒科分体病毒属 Partitivirus α隐藏病毒属Alphacryptovirus β隐藏病毒属 Betacryptovirus分体病毒科(Partitiviridae)
- 办公室政治办公室政治(Workplace politics)是一种政治行为,出现于办公室、学校及职场内的人事及利益的竞争。办公室政治形成的原因通常是由于人的野心无限但是资源有限,此外文化差异、组织
- 过氧化物酶体过氧化物酶体(英语:peroxisome)是一种被称为酶体(英语:Microbody)的细胞器,几乎存在于所有真核细胞中。它们参与非常长链脂肪酸(英语:Very long chain fatty acid),支链脂肪酸(英语:Branc
- 健康教育健康教育,是健康教育学的一个核心概念,是旨在帮助对象人群或个体改善健康相关行为的系统的社会活动;是在调查研究的基础上采用健康信息传播等干预措施促使人群或个体自觉采纳有
- 能动移动性(英语:motility,又称运动性、活动性)是生物学术语,意指能自发且独立地移动。此一名词可以应用在单细胞和多细胞的生命体上头。在细胞生物学和生医工程中,移动性通常是指细胞
- NotchNotch信号通路是大多数多细胞生物体中存在的高度保守的细胞信号转导系统。哺乳动物具有四种不同的notch受体,分别称为NOTCH1, NOTCH2, NOTCH3, NOTCH4。Notch受体是单跨膜的
- 线粒体膜间隙蛋白质线粒体膜间隙蛋白质是对存在于线粒体膜间隙中的蛋白质的统称。这些蛋白质包括腺苷酸激酶、单磷酸激酶和二磷酸激酶等。虽然线粒体拥有自身的核糖体(即线粒体核糖体),可以在线粒
- 3氦过程3氦过程是3个氦原子核(α粒子)转换成碳原子核的过程。这种核聚变反应可以在超过一亿K的高温和氦含量丰富的恒星内部迅速的发生。同样的,它发生在较老年,经由质子-质子链反应和碳
- 核同质异能素核同质异能素(亦称同核异构体)指的是由于某个原子的原子核内核子(质子或中子)处于激发态,而产生原子核的亚稳态(英语:Metastability),这种状态下原子核内的核子会占用能量更高的核子
- 东北英格兰东北英格兰(英语:North East England),英国英格兰下辖的9个次级行政区之一,东面临海,主要以小型城市为主,包括桑德兰和纽卡斯尔。注:“”为1974年的区划。
