首页 >
聚类分析
✍ dations ◷ 2025-04-04 06:02:31 #聚类分析
聚类分析(英语:Cluster analysis)亦称为群集分析,是对于统计数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。一般把数据聚类归纳为一种非监督式学习。数据聚类算法可以分为结构性或者分散性。结构性算法利用以前成功使用过的聚类器进行分类,而分散型算法则是一次确定所有分类。结构性算法可以从上至下或者从下至上双向进行计算。从下至上算法从每个对象作为单独分类开始,不断融合其中相近的对象。而从上至下算法则是把所有对象作为一个整体分类,然后逐渐分小。分布式聚类算法,是一次性确定要产生的类别,这种算法也已应用于从下至上聚类算法。基于密度的聚类算法,是为了挖掘有任意形状特性的类别而发明的。此算法把一个类别视为数据集中大于某阈值的一个区域。DBSCAN和OPTICS是两个典型的算法。许多聚类算法在执行之前,需要指定从输入数据集中产生的分类个数。除非事先准备好一个合适的值,否则必须决定一个大概值,关于这个问题已经有一些现成的技术。在结构性聚类中,关键性的一步就是要选择测量的距离。一个简单的测量就是使用曼哈顿距离,它相当于每个变量的绝对差值之和。该名字的由来起源于在纽约市区测量街道之间的距离就是由人步行的步数来确定的。一个更为常见的测量是欧式空间距离,他的算法是找到一个空间,来计算每个空间中点到原点的距离,然后对所有距离进行换算。常用的几个距离计算方法:在已经得到距离值之后,元素间可以被联系起来。通过分离和融合可以构建一个结构。传统上,表示的方法是树形数据结构,
然后对该结构进行修剪。树的根节点表示一个包含所有项目的类别,树叶表示与个别的项目相关的类别。层次聚类算法,要么是自底向上聚集型的,即从叶子节点开始,最终汇聚到根节点;要么是自顶向下分裂型的,即从根节点开始,递归的向下分裂。任意非负值的函数都可以用于衡量一对观测值之间的相似度。决定一个类别是否分裂或者合并的是一个连动的标准,它是两两观测值之间距离的函数。在一个指定高度上切割此树,可以得到一个相应精度的分类。它的层次聚类树如下图K-均值算法表示以空间中k个点为中心进行聚类,对最靠近他们的对象归类。算法归纳为(J. MacQueen, 1967):该算法的最大优势在于简洁和快速。劣势在于对于一些结果并不能够满足需要,因为结果往往需要随机点的选择非常巧合。For spectral clustering :For estimating number of clusters:For discussion of the elbow criterion:
相关
- 马里亚纳海沟马里亚纳海沟,或称马里亚纳群岛海沟,为地球目前已知最深的海沟。该海沟地处西北太平洋的海床,坐标11°21′N 142°12′E / 11.350°N 142.200°E / 11.350; 142.200,位于关岛和
- 喉炎喉炎(Laryngitis)是描述喉部发炎的现象。喉为人体主要的发声构造,喉炎常见症状包含声音沙哑(英语:hoarse voice)、发烧、咳嗽、前颈疼痛,以及吞咽困难。症状通常会持续两周。喉炎可
- 副词副词(英语:Adverb)是一类用以修饰动词或加强描绘词组或整个句子的词,修饰名词的词一般为形容词,又称限制词。一般而言,中文在一个词(通常是定语)的后面加“的”接主语或宾语,使定语成
- 犯罪学犯罪学(英语:Criminology)是一门社会科学,主题是寻找犯罪行为的现象与规律,寻找犯罪发生的原因,借此寻找方法以减轻犯罪对社会的影响(最后这项于今日已被更精致地分科为刑事政策,而
- 西亚格里乌斯王国苏瓦松王国是西罗马帝国在高卢北部塞纳河和索姆河之间的残存国家,该政权存在25年的时间。政权的统治者,尤其是末任国王被周围的日耳曼部落称为“罗马人的国王”,而该政权则被历
- 肌纤维肌细胞也称为肌纤维,可以在肌肉组织中见到,这些细胞型态上属于长型且管状,肌肉细胞是从肌肉母细胞发育而来。经过肌肉生成(英语:Myogenesis)后肌细胞会特化成数种型态,包括骨骼肌、
- 昭君出塞王昭君(前51年-前15年),名嫱,字昭君,西汉南郡秭归(今湖北省兴山县)人,汉元帝时期的宫女、和亲女性,古代四大美人的落雁,成语中“沉鱼落雁”、“画工弃市”记载她的生平典故。晋朝时为避
- 至人传统宗教仪式:神明秘密社会:中医专著《黄帝内经·上古天真论篇第一》记载:“中古之时,有至人者,淳德全道,和于阴阳,调于四时,去世离俗,积精全神,游行天地之间,视听八远之外,此盖益其寿
- 双相障碍躁郁症(英语:bipolar disorder,亦称双相情感障碍、情绪两极症,早期称为躁狂抑郁疾病、manic depression),是一种精神病经历情绪的亢奋期和抑郁期。情绪亢奋期(躁期)可分为“狂躁”或
- 马累马累(迪维希语:މާލެ;/ˈmɑːleɪ/, 当地发音.mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","Lucida Sans Unicode","