首页 >
聚类分析
✍ dations ◷ 2025-02-23 18:48:31 #聚类分析
聚类分析(英语:Cluster analysis)亦称为群集分析,是对于统计数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。一般把数据聚类归纳为一种非监督式学习。数据聚类算法可以分为结构性或者分散性。结构性算法利用以前成功使用过的聚类器进行分类,而分散型算法则是一次确定所有分类。结构性算法可以从上至下或者从下至上双向进行计算。从下至上算法从每个对象作为单独分类开始,不断融合其中相近的对象。而从上至下算法则是把所有对象作为一个整体分类,然后逐渐分小。分布式聚类算法,是一次性确定要产生的类别,这种算法也已应用于从下至上聚类算法。基于密度的聚类算法,是为了挖掘有任意形状特性的类别而发明的。此算法把一个类别视为数据集中大于某阈值的一个区域。DBSCAN和OPTICS是两个典型的算法。许多聚类算法在执行之前,需要指定从输入数据集中产生的分类个数。除非事先准备好一个合适的值,否则必须决定一个大概值,关于这个问题已经有一些现成的技术。在结构性聚类中,关键性的一步就是要选择测量的距离。一个简单的测量就是使用曼哈顿距离,它相当于每个变量的绝对差值之和。该名字的由来起源于在纽约市区测量街道之间的距离就是由人步行的步数来确定的。一个更为常见的测量是欧式空间距离,他的算法是找到一个空间,来计算每个空间中点到原点的距离,然后对所有距离进行换算。常用的几个距离计算方法:在已经得到距离值之后,元素间可以被联系起来。通过分离和融合可以构建一个结构。传统上,表示的方法是树形数据结构,
然后对该结构进行修剪。树的根节点表示一个包含所有项目的类别,树叶表示与个别的项目相关的类别。层次聚类算法,要么是自底向上聚集型的,即从叶子节点开始,最终汇聚到根节点;要么是自顶向下分裂型的,即从根节点开始,递归的向下分裂。任意非负值的函数都可以用于衡量一对观测值之间的相似度。决定一个类别是否分裂或者合并的是一个连动的标准,它是两两观测值之间距离的函数。在一个指定高度上切割此树,可以得到一个相应精度的分类。它的层次聚类树如下图K-均值算法表示以空间中k个点为中心进行聚类,对最靠近他们的对象归类。算法归纳为(J. MacQueen, 1967):该算法的最大优势在于简洁和快速。劣势在于对于一些结果并不能够满足需要,因为结果往往需要随机点的选择非常巧合。For spectral clustering :For estimating number of clusters:For discussion of the elbow criterion:
相关
- 每搏输出量每搏输出量(stroke volume)是指一次在心搏中由一侧心室射出的血量,简称搏出量。人体左、右心室的搏出量基本相等,一个正常成年人在安静时的搏出量一般在60~80毫升之间。搏出量等
- 囊泡病毒科囊泡病毒科(Ascoviridae)是双链DNA病毒中的一个科,该类病毒主要感染无脊椎动物,下有一属:
- 灌肠医学的灌肠(enema)是指通过肛门引液体灌洗直肠的操作。有治疗疾病(例如便秘)、另类保健疗法、减重、或者非法虐待(例如性虐待)的用途。使用的器具及液体必须为医用,否则很容易引发
- 诚信诚信是人的核心价值,承诺思想行动一致;“诚”是诚实,“信”是有责任心、信用。相反的,无诚信者是伪君子或真小人。有关诚信,在古今各地都有谈及,包括伦理学、宗教、专业操守、人事
- 下胚层下胚层(Hypoblast)是指在胚胎发育过程中,位于二胚层胚盘(英语:Bilaminar_blastocyst)的上胚层(Epiblast)相对下方的一群立方形细胞。在小鼠胚胎发育过程中,下胚层于大约于第4.5天出现
- 甘油磷酸穿梭甘油磷酸穿梭(英语:Glycerol phosphate shuttle,又称为甘油3-磷酸穿梭)是一种让糖酵解副产物还原型烟酰胺腺嘌呤二核苷酸重新生成为其氧化型的一种机制。它在传递还原性等效物的
- 西班牙承认独立明斯特和约(Vrede van Münster),签定于1648年,和约中西班牙国王费利佩四世正式承认荷兰为主权国家。明斯特和约被视为威斯特伐利亚和约的一部分,三十年战争和八十年战争结束的里
- 马匹马(学名:Equus ferus caballus),广泛分布于世界各地,原产于中亚草原,6000多年前就被人类驯养,最早的马匹驯养遗址于乌克兰草原发现,15世纪后,才被欧洲殖民者带到美洲和澳洲地区。马耳
- 亚里士多德物理学古希腊哲学家亚里士多德(公元前384年-前322年)开创许多 有关物理学本质的理论。这些理论涉及到他所描述的四大元素。他阐明这些元素间的密切联系,它们的动力,它们对地球的影响,以
- 叔醇叔醇,或称第三醇(tertiary alcohol),是指羟基直接连接在一个叔碳原子上的醇。它也可以说是含有基团“≡COH”的醇。 例如 : 2-甲基-2-丙醇,又称第三丁醇,叔丁醇(tert-Butanol)或