聚类分析

✍ dations ◷ 2024-09-29 05:48:36 #聚类分析
聚类分析(英语:Cluster analysis)亦称为群集分析,是对于统计数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。一般把数据聚类归纳为一种非监督式学习。数据聚类算法可以分为结构性或者分散性。结构性算法利用以前成功使用过的聚类器进行分类,而分散型算法则是一次确定所有分类。结构性算法可以从上至下或者从下至上双向进行计算。从下至上算法从每个对象作为单独分类开始,不断融合其中相近的对象。而从上至下算法则是把所有对象作为一个整体分类,然后逐渐分小。分布式聚类算法,是一次性确定要产生的类别,这种算法也已应用于从下至上聚类算法。基于密度的聚类算法,是为了挖掘有任意形状特性的类别而发明的。此算法把一个类别视为数据集中大于某阈值的一个区域。DBSCAN和OPTICS是两个典型的算法。许多聚类算法在执行之前,需要指定从输入数据集中产生的分类个数。除非事先准备好一个合适的值,否则必须决定一个大概值,关于这个问题已经有一些现成的技术。在结构性聚类中,关键性的一步就是要选择测量的距离。一个简单的测量就是使用曼哈顿距离,它相当于每个变量的绝对差值之和。该名字的由来起源于在纽约市区测量街道之间的距离就是由人步行的步数来确定的。一个更为常见的测量是欧式空间距离,他的算法是找到一个空间,来计算每个空间中点到原点的距离,然后对所有距离进行换算。常用的几个距离计算方法:在已经得到距离值之后,元素间可以被联系起来。通过分离和融合可以构建一个结构。传统上,表示的方法是树形数据结构, 然后对该结构进行修剪。树的根节点表示一个包含所有项目的类别,树叶表示与个别的项目相关的类别。层次聚类算法,要么是自底向上聚集型的,即从叶子节点开始,最终汇聚到根节点;要么是自顶向下分裂型的,即从根节点开始,递归的向下分裂。任意非负值的函数都可以用于衡量一对观测值之间的相似度。决定一个类别是否分裂或者合并的是一个连动的标准,它是两两观测值之间距离的函数。在一个指定高度上切割此树,可以得到一个相应精度的分类。它的层次聚类树如下图K-均值算法表示以空间中k个点为中心进行聚类,对最靠近他们的对象归类。算法归纳为(J. MacQueen, 1967):该算法的最大优势在于简洁和快速。劣势在于对于一些结果并不能够满足需要,因为结果往往需要随机点的选择非常巧合。For spectral clustering :For estimating number of clusters:For discussion of the elbow criterion:

相关

  • 核形虫目核形虫是一类原生生物,具有丝状伪足,生活在土壤和淡水里。它们与同样具有丝状伪足的vampyrellid形态上非常相似,但可以通过线粒体的盘状嵴来鉴别。核形虫与动物、真菌以及其它
  • 形意文字语言学上的形意符号(英:ideogram,亦称表意符号、形意图或表意图),是一种图形符号,只代表一定意义。它不是一种代表语言的语素或语音的文字系统。换句话说,这种文字系统并不能用于记
  • 卡洛·哥尔多尼卡罗·奥斯瓦尔多·哥尔多尼(意大利语:Carlo Osvaldo Goldoni,1707年2月25日-1793年2月6日)是出生于威尼斯共和国的意大利剧作家。他一生创作了大量的剧本,以《一仆二主》、《女店
  • ETtoday 东森新闻云ETtoday新闻云为台湾社群新闻网站,由东森新媒体控股股份有限公司经营。该网站前身为2000年至2008年3月的《东森新闻报》。2008年4月,《东森新闻报》被转售予中华联合电讯集团(
  • 边疆区边疆区(俄语:кра́й)是俄罗斯联邦主体的一种称呼。在俄罗斯全部85个联邦主体中,共有9个边疆区。“边疆区”与“州”并无实质差异,两者均为俄罗斯一级行政区划,具有相同的法律
  • RNA聚合酶VRNA聚合酶V(英语:RNA polymerase V)是一种植物细胞核中特有的RNA聚合酶,和RNA聚合酶IV一样参与小干扰RNA(siRNA)的转录。RNA聚合酶V转录siRNA诱导DNA甲基化而导致异染色质沉默。
  • 赖明诏赖明诏(英语:Michael M. C. Lai,1942年9月8日-),中央研究院院士,曾任国立成功大学校长。专长为病毒学与分子生物学,被台湾学界誉为“冠状病毒之父”。当选为中央研究院院士,2003年到2
  • 陈晔光陈晔光(1964年8月-),江西乐安人,中国细胞生物学家,清华大学教授。2017年当选为中国科学院院士。1983年本科毕业于江西大学生物系,1986年获江西大学硕士学位。1990年获美国福坦莫大
  • 保罗·兰格尔翰斯保罗·兰格尔翰斯(Paul Langerhans,1847年7月25日-1888年7月20日)是德国著名的病理学家和生物学家。
  • 这是一个2012年的各国煤产量列表,数据基于英国石油出版的《BP世界能源统计》2013,其中对煤产量大于100万吨的国家进行了排名。