关联规则学习

✍ dations ◷ 2025-11-16 18:15:21 #数据挖掘

关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。

根据韩家炜等,关联规则定义为:

假设 I = { I 1 , I 2 , , I m } {\displaystyle I=\{I_{1},I_{2},\ldots ,I_{m}\}} 是项的集合。给定一个交易数据库 D = { t 1 , t 2 , , t n } {\displaystyle D=\{t_{1},t_{2},\ldots ,t_{n}\}} ,其中每个事务(Transaction)t是I的非空子集,即 t I {\displaystyle t\subseteq I} ,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如 X Y {\displaystyle X\Rightarrow Y} 的蕴涵式,其中 X , Y I {\displaystyle X,Y\subseteq I} X Y = {\displaystyle X\cap Y=\emptyset } X {\displaystyle X} Y {\displaystyle Y} 分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则 X Y {\displaystyle X\Rightarrow Y} 在D中的支持度(support)是D中事务包含 X Y {\displaystyle X\cup Y} 的百分比,即概率 P ( X Y ) {\displaystyle P(X\cup Y)} ;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率 P ( Y | X ) {\displaystyle P\left(Y|X\right)} 。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。

用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍 {\displaystyle \Rightarrow } 网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度 s u p p o r t = 3 6 = 0.5 {\displaystyle support={\frac {3}{6}}=0.5} ,置信度 c o n f i d e n t = 3 5 = 0.6 {\displaystyle confident={\frac {3}{5}}=0.6} 。若给定最小支持度 α = 0.5 {\displaystyle \alpha =0.5} ,最小置信度 β = 0.6 {\displaystyle \beta =0.6} ,关联规则网球拍 {\displaystyle \Rightarrow } 网球是有趣的,认为购买网球拍和购买网球之间存在强关联。

关联规则有以下常见分类:

根据关联规则所处理的值的类型

根据关联规则所涉及的数据维数

根据关联规则所涉及的抽象层次

Apriori算法所使用的前置统计量包括:

相关

  • 冠状动脉搭桥手术冠状动脉旁路移植(英语:Coronary artery bypass graft,常缩写为CABG)或心脏绕道手术,俗称冠脉搭桥或搭桥,即冠状动脉旁路移植术,是一项缓解心绞痛和减少冠心病死亡风险的手术。搭桥
  • 视网膜视网膜又称视衣,是脊椎动物和一些头足纲动物眼球后部的一层非常薄的细胞层。它是眼睛里面将光转化为神经信号的部分。视网膜含有可以感受光的视杆细胞和视锥细胞。这些细胞将
  • 威斯敏斯特宫威斯敏斯特宫(英语:Palace of Westminster),又称国会大厦(Houses of Parliament),位于英国伦敦威斯敏斯特市,是英国国会(包括上议院和下议院)的所在地。威斯敏斯特宫坐落在泰晤士河西
  • 十二第八第十埃及第十二王朝是古埃及历史上的一个王朝,其与第十一王朝、第十三王朝和第十四王朝统称中王国时期。
  • Hebrew University of Jerusalem坐标:31°46′33″N 35°12′00″E / 31.77583°N 35.20000°E / 31.77583; 35.20000耶路撒冷希伯来大学(希伯来语:.mw-parser-output .script-hebrew,.mw-parser-output .scri
  • 绳文人绳文人(日语:縄文人/じょうもんじん Jōmon-jin)是日本列岛在绳文时代的原住民团体,他们与之后的弥生人在人类学上有着显著区别。绳文是指利用绳缠绕棒子在黏土容器及塑像上所加
  • 组成核糖体(ribosome),旧称“核糖核蛋白体”或“核蛋白体”,是细胞中的一种细胞器,由一大一小两个亚基结合形成,主要成分是相互缠绕的RNA(称为“核糖体RNA”,ribosomal RNA,简称“rRNA”)
  • 普利策奖普利策奖(Pulitzer Prize),是美国奖励报纸、杂志、数位新闻报导和文学、音乐创作有杰出表现所设的奖项。于1917年,根据报业巨头、匈牙利裔美国人约瑟夫·普利策的遗愿设立,由纽约
  • 狗蚤狗蚤(学名:Ctenocephalides canis)是分布最广泛、数量最多的一种跳蚤,其身长在1.5-3毫米之间。它以主要宿主为狗而出名,但实际在包括家猫在内的许多哺乳动物身上也可以寄生。它与
  • 裸甲派见内文蛙蟹科(学名:Raninidae)是螃蟹的其中一个科,模式属是蛙形蟹。根据现存的化石纪录,蛙蟹科生物最早期的化石于早白垩纪的阿尔布阶出现。常见的蛙蟹科生物有:蛙蟹科的外形独特,