首页 >
聚类分析
✍ dations ◷ 2025-08-29 10:43:59 #聚类分析
聚类分析(英语:Cluster analysis)亦称为群集分析,是对于统计数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。一般把数据聚类归纳为一种非监督式学习。数据聚类算法可以分为结构性或者分散性。结构性算法利用以前成功使用过的聚类器进行分类,而分散型算法则是一次确定所有分类。结构性算法可以从上至下或者从下至上双向进行计算。从下至上算法从每个对象作为单独分类开始,不断融合其中相近的对象。而从上至下算法则是把所有对象作为一个整体分类,然后逐渐分小。分布式聚类算法,是一次性确定要产生的类别,这种算法也已应用于从下至上聚类算法。基于密度的聚类算法,是为了挖掘有任意形状特性的类别而发明的。此算法把一个类别视为数据集中大于某阈值的一个区域。DBSCAN和OPTICS是两个典型的算法。许多聚类算法在执行之前,需要指定从输入数据集中产生的分类个数。除非事先准备好一个合适的值,否则必须决定一个大概值,关于这个问题已经有一些现成的技术。在结构性聚类中,关键性的一步就是要选择测量的距离。一个简单的测量就是使用曼哈顿距离,它相当于每个变量的绝对差值之和。该名字的由来起源于在纽约市区测量街道之间的距离就是由人步行的步数来确定的。一个更为常见的测量是欧式空间距离,他的算法是找到一个空间,来计算每个空间中点到原点的距离,然后对所有距离进行换算。常用的几个距离计算方法:在已经得到距离值之后,元素间可以被联系起来。通过分离和融合可以构建一个结构。传统上,表示的方法是树形数据结构,
然后对该结构进行修剪。树的根节点表示一个包含所有项目的类别,树叶表示与个别的项目相关的类别。层次聚类算法,要么是自底向上聚集型的,即从叶子节点开始,最终汇聚到根节点;要么是自顶向下分裂型的,即从根节点开始,递归的向下分裂。任意非负值的函数都可以用于衡量一对观测值之间的相似度。决定一个类别是否分裂或者合并的是一个连动的标准,它是两两观测值之间距离的函数。在一个指定高度上切割此树,可以得到一个相应精度的分类。它的层次聚类树如下图K-均值算法表示以空间中k个点为中心进行聚类,对最靠近他们的对象归类。算法归纳为(J. MacQueen, 1967):该算法的最大优势在于简洁和快速。劣势在于对于一些结果并不能够满足需要,因为结果往往需要随机点的选择非常巧合。For spectral clustering :For estimating number of clusters:For discussion of the elbow criterion:
相关
- 未来未来可以视为描述一个事件经过一段时间后所变化的结果,和过去相对。从时间是线性的角度来说,是时间线上将要发生的那部分,也就是说,在时空上表示尚未发生的事的那部分。未来一直
- 针筒注射器由前端带有小孔的针筒以及与之匹配的活塞芯杆组成。注射器用来将少量的液体或其注入到其它方法无法接近的区域或者从那些地方抽出。在芯杆拔出的时候液体或者气体从针
- 场在物理里,场(英语:Field)是一个以时空为变数的物理量。场可以分为标量场、矢量场和张量场等,依据场在时空中每一点的值是标量、矢量还是张量而定。例如,经典重力场是一个矢量场:标
- 意大利国会意大利议会(意大利语:Parlamento Italiano)是意大利的最高立法机构。意大利议会为两院制,由参议院、众议院组成。两院职能相同、权力均等。参议院议员315人;众议院议员630人,合共9
- 玛丽·安宁玛丽·安宁(英语:Mary Anning,1799年5月21日-1847年3月9日)是一位英国早期的化石收集者与古生物学家。玛丽·安宁出生在英国南部多塞特郡的莱姆里杰斯。她15个月大时,曾与其他3个
- 私法私法,相对于公法,一般而言指的是规范私权关系的法律。目前区分公、私法并未有一个统一的标准理论,但比较多数人采的是所谓的“新主体说”,这一个说法的区分标准是:如果一个法律关
- 詹姆斯二世詹姆斯二世(1430年10月16日-1460年8月3日)苏格兰斯图亚特王朝国王。苏格兰国王詹姆斯一世之子。周岁生日前,詹姆斯二世的孖生兄长罗斯西公爵亚历山大(英语:Alexander Stewart, Duk
- G·格伦维尔乔治·格伦维尔(George Grenville,1712年10月14日-1770年11月13日),英国辉格党政治家,1763年至1765年曾任英国首相,1765年,为应对英法北美战争的开销,针对英属美洲通过《印花税法》,引
- 亚胺结构亚胺是一种含碳-氮双键的官能团或有机化合物,通式为:R1R2C=NR3,其中氮原子连接一个氢原子(H)或一个有机基团(R3),碳原子则与另两个基团以单键连接。亚胺可视为醛或酮中氧原子被NR基团
- NPR全国公共广播电台(英语:National Public Radio,缩写为NPR)是美国一家获公众赞助及部分政府资助、但独立运作的非商业性媒体机构,成立于1970年2月24日,开播于1971年4月。其以广播联