聚类分析

✍ dations ◷ 2025-05-07 23:58:27 #聚类分析
聚类分析(英语:Cluster analysis)亦称为群集分析,是对于统计数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。一般把数据聚类归纳为一种非监督式学习。数据聚类算法可以分为结构性或者分散性。结构性算法利用以前成功使用过的聚类器进行分类,而分散型算法则是一次确定所有分类。结构性算法可以从上至下或者从下至上双向进行计算。从下至上算法从每个对象作为单独分类开始,不断融合其中相近的对象。而从上至下算法则是把所有对象作为一个整体分类,然后逐渐分小。分布式聚类算法,是一次性确定要产生的类别,这种算法也已应用于从下至上聚类算法。基于密度的聚类算法,是为了挖掘有任意形状特性的类别而发明的。此算法把一个类别视为数据集中大于某阈值的一个区域。DBSCAN和OPTICS是两个典型的算法。许多聚类算法在执行之前,需要指定从输入数据集中产生的分类个数。除非事先准备好一个合适的值,否则必须决定一个大概值,关于这个问题已经有一些现成的技术。在结构性聚类中,关键性的一步就是要选择测量的距离。一个简单的测量就是使用曼哈顿距离,它相当于每个变量的绝对差值之和。该名字的由来起源于在纽约市区测量街道之间的距离就是由人步行的步数来确定的。一个更为常见的测量是欧式空间距离,他的算法是找到一个空间,来计算每个空间中点到原点的距离,然后对所有距离进行换算。常用的几个距离计算方法:在已经得到距离值之后,元素间可以被联系起来。通过分离和融合可以构建一个结构。传统上,表示的方法是树形数据结构, 然后对该结构进行修剪。树的根节点表示一个包含所有项目的类别,树叶表示与个别的项目相关的类别。层次聚类算法,要么是自底向上聚集型的,即从叶子节点开始,最终汇聚到根节点;要么是自顶向下分裂型的,即从根节点开始,递归的向下分裂。任意非负值的函数都可以用于衡量一对观测值之间的相似度。决定一个类别是否分裂或者合并的是一个连动的标准,它是两两观测值之间距离的函数。在一个指定高度上切割此树,可以得到一个相应精度的分类。它的层次聚类树如下图K-均值算法表示以空间中k个点为中心进行聚类,对最靠近他们的对象归类。算法归纳为(J. MacQueen, 1967):该算法的最大优势在于简洁和快速。劣势在于对于一些结果并不能够满足需要,因为结果往往需要随机点的选择非常巧合。For spectral clustering :For estimating number of clusters:For discussion of the elbow criterion:

相关

  • 乳铁蛋白1B0L, 1BKA, 1CB6, 1DSN, 1EH3, 1FCK, 1H43, 1H44, 1H45, 1HSE, 1L5T, 1LCF, 1LCT, 1LFG, 1LFH, 1LFI, 1LGB, 1N76, 1SQY, 1U62, 1VFD, 1VFE, 1XV4, 1XV7, 1Z6V, 1Z6W, 2BJJ
  • C-Mycn/an/an/an/an/an/an/an/an/an/aC-Myc或Myc是编码转录因子的调节基因。这一基因编码的蛋白在细胞核内被磷酸化,有多种功能:在细胞周期进程、细胞凋亡和细胞转化中发挥作用。My
  • 超音段成分超音段音位(suprasegmental、超音段成分)是言语分析中除音素之外的的语音现象。言语中有大量特征倾向构成超越单一音段的模式,并且不受音段目标限制独立变化,其中主要有音高、响
  • 心血管病心血管疾病(英语:cardiovascular disease,簡稱CVD)指的是关于心脏或血管的疾病,又称为循环系统疾病、循环系统疾病。常见的心血管疾病包括冠状动脉症候群、中风、高血压性心脏病(
  • 毛利人毛利人(Māori)是新西兰境内的原住民,属于南岛语族波利尼西亚人。其民族语言原本没有文字,1840年开始以拉丁字母作为民族语言之文字。民族信仰数泛灵的多神信仰。“Māori”这个
  • 阿迪杰河阿迪杰河(意大利语:Adige;德语:Etsch)位于意大利东北部,发源于意大利、奥地利和瑞士边境处阿尔卑斯山脉的里西亚隘口(Resia),先向东,后折向南流,经过特伦托、维罗纳等城市,最终注入亚
  • 伊利诺伊伊利诺伊州(英语:State of Illinois,i/ˌɪləˈnɔɪ/),简称伊州,是一个位于美国中西部的州,州名源自曾在此居住的伊利尼维克(Illiniwek)印第安人部落。“Illinois”这个名字就是法
  • 漫长的历史法国历史开始于人类第一次踏足这片后来被称为法兰西的土地。从旧石器时代和新石器时代起,就陆续有人定居于此。到了青铜器时代和铁器时代,凯尔特人又源源不断地涌入。后来,公元
  • 晶须晶须是出现在电子元件中的一种现象,是指金属中长出类似毛发或是须状的金属。锡须在二十世纪初真空管时期就有相关纪录,当时在制造时用纯锡或是几近纯锡的合金作为焊料,而在有焊
  • 回归回归分析(英语:Regression Analysis)是一种统计学上分析数据的方法,目的在于了解两个或多个变量间是否相关、相关方向与强度,并建立数学模型以便观察特定变量来预测研究者感兴趣