BIRCH

✍ dations ◷ 2025-07-27 01:32:34 #数据挖掘,聚类分析,机器学习

BIRCH(英文全称:balanced iterative reducing and clustering using hierarchies,中文:利用层次方法的平衡迭代规约和聚类)是一个非监督式分层聚类算法,于1996年由 Tian Zhang 提出。算法的优势在于能够利用有限的内存资源完成对大数据集的高质量的聚类。该算法通过构建聚类特征树(Clustering Feature Tree,简称CF Tree),在接下来的聚类过程中,直接对聚类特征进行聚类,而无需对原始数据集进行聚类。因此在多数情况下只需要扫描一次数据库即可进行聚类,IO成本与数据集尺寸呈线性关系。

算法利用构建聚类特征树进行计算,树上的节点称作聚类特征(CF)。聚类特征为一个三维向量(n,LS,SS),n表示子类中节点的数目,LS表示n个点的线性和,SS表示n个点的平方和。

相关

  • 苯乙酸苯乙酸(英语:PAA, Phenylacetic acid),又名苯醋酸、苄基甲酸,是一种由苄基与羧基相连得到的羧酸,分子式为C8H8O2。室温下为白色有特殊气味的光泽片状或块状结晶,可溶于乙醇、乙醚。
  • 液晶化点液晶化点,通常称为熔点,是某些具液晶态之晶体熔化时的温度,但其溶化并非呈液态,而是液晶态,即将其物态由固态转变为液晶态时的温度。该过程中固态与液晶态共存,直到全部固态已经转
  • 焦糖化反应美拉德反应(Maillard reaction),又称美拉德反应、梅拉德反应、梅纳反应、羰胺反应,是广泛分布于食品工业的非酶褐变反应,指的是食物中的还原糖(碳水化合物)与氨基酸/蛋白质在常温或
  • 西奥多·罗斯福西奥多·罗斯福国家公园(英语:Theodore Roosevelt National Park),是一座美国国家公园,位于美国的北达科他州。这个国家公园的命名是为了纪念对美国水土保持有极大贡献的西奥多
  • 淡米尔语泰米尔语(தமிழ் Tamiḻ)是一种有超过二千年历史的语言,属于达罗毗荼语系,通行于印度南部、斯里兰卡东北部。它是泰米尔纳德邦和本地治里的官方语言。在印度洋及南太平洋不
  • 基韦斯特 (佛罗里达州)305和786(英语:Area codes 305 and 786)基韦斯特(英语:Key West, Florida),是美国佛罗里达群岛最南的一个岛屿和城市,属佛罗里达州门罗县管辖同时也是县治。位于迈阿密西南207公里,古
  • 梁思达梁思达(1912年-2001年),梁启超之四子。1935年毕业于南开大学经济系,并考南开大学经济研究所首届硕士,硕士毕业论文为《河北省信用合作》,曾著有《中国经济史》。他长期从事经济学研
  • 灵薄狱灵薄狱(拉丁语:limbus;英语:limbo),解作“地狱的边缘”。根据一些罗马天主教神学家解释,灵薄狱是用来安置耶稣基督出生前逝去的好人和耶稣基督出生后从未接触过福音之逝者。另外,灵
  • 杨廷麟杨廷麟(?-1646年),字伯祥,江西清江人。崇祯四年(1631年)进士。其性勤学好古,闻名翰林,充讲官兼直经筵,与黄道周、倪元璐并以文章节义名天下,称为“三翰林”。当时清兵之患正炽,廷麟力争主
  • 理论物理通讯理论物理通讯(Communications in Theoretical Physics)是一份科学学术期刊,发表理论物理各领域的论文,由中国物理学会、中国科学院理论物理研究所出版。每年出版2卷,各6期。