BIRCH

✍ dations ◷ 2025-04-28 20:55:03 #数据挖掘,聚类分析,机器学习

BIRCH(英文全称:balanced iterative reducing and clustering using hierarchies,中文:利用层次方法的平衡迭代规约和聚类)是一个非监督式分层聚类算法,于1996年由 Tian Zhang 提出。算法的优势在于能够利用有限的内存资源完成对大数据集的高质量的聚类。该算法通过构建聚类特征树(Clustering Feature Tree,简称CF Tree),在接下来的聚类过程中,直接对聚类特征进行聚类,而无需对原始数据集进行聚类。因此在多数情况下只需要扫描一次数据库即可进行聚类,IO成本与数据集尺寸呈线性关系。

算法利用构建聚类特征树进行计算,树上的节点称作聚类特征(CF)。聚类特征为一个三维向量(n,LS,SS),n表示子类中节点的数目,LS表示n个点的线性和,SS表示n个点的平方和。

相关

  • 业务流程外包商业流程委外(英语:Business Process Outsourcing,缩写:BPO),又称业务流程外包或经营外包,是指把特定的商业工序外派给第三方服务供应商。有些日常的琐碎工序是必需的,却无关乎维持
  • 迭戈·马拉多纳迭戈·阿尔芒多·马拉多纳·弗朗哥(西班牙语:Diego Armando Maradona Franco,1960年10月30日-),生于阿根廷首都布宜诺斯艾利斯,昵称“世纪球王”、“球场上帝”,已退役的阿根廷足球
  • 国家皇宫国家皇宫(马来语:Istana Negara) 是马来西亚最高元首的宫邸,它坐落于吉隆坡西北部的端古·阿卜杜勒哈利姆路(Jalan Tuanku Abdul Halim)上,耗资8亿林吉特兴建。占地面积96.52公顷,建
  • 批发批发(英文对应词:Wholesale)是商品供应链中在生产者(包含初级生产与工业生产)与零售者之间从事销售的行为或行业,为贸易专业分工之下的产物。与零售最大的不同在于商品。为从事批
  • 又部又部,就汉字索引来说,是为部首之一,康熙字典214个部首中的第二十九个(两划的则为第二十三个)。就繁体和简体中文中,又部归于两划部首。又部通常是从右或下方为部字,且无其他部首可
  • 月球日在太空探索,月球日是地球的卫星相对于太阳绕着自身的转轴完成一个完整的旋转所经历的时间。等同于月球在轨道上完整的绕着地球回到相同相位的时间。它通常被标示为从朔到下一
  • 偶联反应偶联反应,也写作耦合反应、偶合反应或耦联反应,是两个化学实体(或单位)结合生成一个分子的有机化学反应。狭义的偶联反应是涉及有机金属催化剂的碳-碳键形成反应,根据类型的不同,
  • 默氏蝴蝶鱼默氏蝴蝶鱼,为辐鳍鱼纲鲈形目蝴蝶鱼科的其中一种。本鱼分布于太平洋区,包括日本、台湾、越南、印尼、澳洲、关岛、马绍尔群岛、密克罗尼西亚、马里亚纳群岛、新喀里多尼亚、帕
  • 罗伯特·戈拉伯卡罗伯特·戈拉伯卡(捷克语:Robert Hrubý;1994年4月27日-)是一位捷克足球运动员。在场上的位置是防守型中场。他现在效力于捷克足球甲级联赛球队布拉格斯拉维亚足球俱乐部。他也代
  • 气旋雅思强烈热带气旋雅思(英语:Severe Tropical Cyclone Yasi,/ˈjɑːsiː/ )是2011年1月在南太平洋生成的一个热带气旋,于1月26日在斐济附近升成,向西移动,1月31日加强到了3级,次日又增强