首页 >
聚类分析
✍ dations ◷ 2025-09-19 04:30:46 #聚类分析
聚类分析(英语:Cluster analysis)亦称为群集分析,是对于统计数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。一般把数据聚类归纳为一种非监督式学习。数据聚类算法可以分为结构性或者分散性。结构性算法利用以前成功使用过的聚类器进行分类,而分散型算法则是一次确定所有分类。结构性算法可以从上至下或者从下至上双向进行计算。从下至上算法从每个对象作为单独分类开始,不断融合其中相近的对象。而从上至下算法则是把所有对象作为一个整体分类,然后逐渐分小。分布式聚类算法,是一次性确定要产生的类别,这种算法也已应用于从下至上聚类算法。基于密度的聚类算法,是为了挖掘有任意形状特性的类别而发明的。此算法把一个类别视为数据集中大于某阈值的一个区域。DBSCAN和OPTICS是两个典型的算法。许多聚类算法在执行之前,需要指定从输入数据集中产生的分类个数。除非事先准备好一个合适的值,否则必须决定一个大概值,关于这个问题已经有一些现成的技术。在结构性聚类中,关键性的一步就是要选择测量的距离。一个简单的测量就是使用曼哈顿距离,它相当于每个变量的绝对差值之和。该名字的由来起源于在纽约市区测量街道之间的距离就是由人步行的步数来确定的。一个更为常见的测量是欧式空间距离,他的算法是找到一个空间,来计算每个空间中点到原点的距离,然后对所有距离进行换算。常用的几个距离计算方法:在已经得到距离值之后,元素间可以被联系起来。通过分离和融合可以构建一个结构。传统上,表示的方法是树形数据结构,
然后对该结构进行修剪。树的根节点表示一个包含所有项目的类别,树叶表示与个别的项目相关的类别。层次聚类算法,要么是自底向上聚集型的,即从叶子节点开始,最终汇聚到根节点;要么是自顶向下分裂型的,即从根节点开始,递归的向下分裂。任意非负值的函数都可以用于衡量一对观测值之间的相似度。决定一个类别是否分裂或者合并的是一个连动的标准,它是两两观测值之间距离的函数。在一个指定高度上切割此树,可以得到一个相应精度的分类。它的层次聚类树如下图K-均值算法表示以空间中k个点为中心进行聚类,对最靠近他们的对象归类。算法归纳为(J. MacQueen, 1967):该算法的最大优势在于简洁和快速。劣势在于对于一些结果并不能够满足需要,因为结果往往需要随机点的选择非常巧合。For spectral clustering :For estimating number of clusters:For discussion of the elbow criterion:
相关
- 失能调整生命年失能调整生命年(英语:disability-adjusted life year,缩写:DALY)是衡量整体疾病负担(英语:Disease burden)的一种方法。最初是由世界卫生组织所开发,现在则渐渐地在公共卫生和健康影
- 胰腺胰脏也称胰腺(英语:Pancreas),旧称膵、脺,脊椎动物具有外、内分泌功能的腺体;外分泌由腺泡、连通肠腔的导管组成,腺泡分泌多种消化酶,导管上皮细胞分泌碳酸氢盐、钠、钾、氯等离子和
- 黄铜黄铜(英语:Brass)是铜及锌的合金,因色黄而得其名。铜含量62%-75%的黄铜,其熔点为934-967度。黄铜的机械性能和耐磨性能都很好,可用于制造精密仪器、船舶的零件、枪炮的弹壳、硬币(如
- .it.it为意大利国家和地区顶级域(ccTLD)的域名。A .ac .ad .ae .af .ag .ai .al .am .ao .aq .ar .as .at .au .aw .ax .az B .ba .bb .bd .be .bf .bg .bh .bi .bj .bm .b
- 阴道分泌物阴道分泌物(英语:vaginal discharge),是一类从阴道流出或分泌出的生物体液。它可能是多种颜色,通常为白色、淡黄色或绿色。大多数的分泌物都是正常并反映出不同时期的月经周期,但
- 临时政府部长主席该列表列出了从俄罗斯帝国晚期设立的大臣会议主席(即首相)开始的俄罗斯政府首脑,包括俄罗斯苏维埃联邦社会主义共和国人民委员会主席、俄罗斯苏维埃联邦社会主义共和国部长会议
- 圩田围垦又称围海造田,是指在沿江河、沿湖或沿海的区域通过修筑堤坝(或海塘),再将河水、湖水或海水排出,以取得可利用土地的一项工程方式;与之相对的,将土砂或废弃物倒入海中则是“填海
- 亚磺酸亚磺酸是一类亚磺酸基(-SO2H)与烃基(-R)相连而成的化合物的统称。通式 RSO2H。可用作有机合成及电镀添加剂,也可作氧化还原聚合反应的催化剂。一般为油状液体或结晶。低级亚磺酸
- 魏宝文魏宝文(1935年11月22日-),生于河南禹州,中国核物理学家。1957年毕业于北京大学物理系。1995年当选为中国科学院院士。 中国科学院近代物理研究所研究员,兰州重离子加速器国家实验
- 山奈酚山柰酚(Kaempferol)是一种天然黄酮类化合物,是存在于茶叶、西兰花、翠雀草、金缕梅、葡萄柚、抱子甘蓝、苹果等植物中植源性物质。山柰酚为黄色结晶体,熔点为276-278℃,微溶于