关联规则学习

✍ dations ◷ 2025-08-08 02:37:05 #数据挖掘

关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。

根据韩家炜等,关联规则定义为:

假设 I = { I 1 , I 2 , , I m } {\displaystyle I=\{I_{1},I_{2},\ldots ,I_{m}\}} 是项的集合。给定一个交易数据库 D = { t 1 , t 2 , , t n } {\displaystyle D=\{t_{1},t_{2},\ldots ,t_{n}\}} ,其中每个事务(Transaction)t是I的非空子集,即 t I {\displaystyle t\subseteq I} ,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如 X Y {\displaystyle X\Rightarrow Y} 的蕴涵式,其中 X , Y I {\displaystyle X,Y\subseteq I} X Y = {\displaystyle X\cap Y=\emptyset } X {\displaystyle X} Y {\displaystyle Y} 分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则 X Y {\displaystyle X\Rightarrow Y} 在D中的支持度(support)是D中事务包含 X Y {\displaystyle X\cup Y} 的百分比,即概率 P ( X Y ) {\displaystyle P(X\cup Y)} ;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率 P ( Y | X ) {\displaystyle P\left(Y|X\right)} 。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。

用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍 {\displaystyle \Rightarrow } 网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度 s u p p o r t = 3 6 = 0.5 {\displaystyle support={\frac {3}{6}}=0.5} ,置信度 c o n f i d e n t = 3 5 = 0.6 {\displaystyle confident={\frac {3}{5}}=0.6} 。若给定最小支持度 α = 0.5 {\displaystyle \alpha =0.5} ,最小置信度 β = 0.6 {\displaystyle \beta =0.6} ,关联规则网球拍 {\displaystyle \Rightarrow } 网球是有趣的,认为购买网球拍和购买网球之间存在强关联。

关联规则有以下常见分类:

根据关联规则所处理的值的类型

根据关联规则所涉及的数据维数

根据关联规则所涉及的抽象层次

Apriori算法所使用的前置统计量包括:

相关

  • 电中微子电中微子(Electron neutrino),为三种中微子的一种。因为它总伴随着电子,所以称为电中微子。沃尔夫冈·泡利在1930年预言到它的存在,1956年克莱德·科温、弗雷德里克·莱因斯等人
  • CMg有机镁化学是研究含有镁-碳键的化学分支。有机镁化合物中,镁都已正二价的形式出现。格氏试剂(Grignard reagent)是最重要的一类有机镁化合物,它由卤代烃和镁在适宜的条件下(如溶
  • 冰酒冰酒(英语:Icewine,德语:Eiswein)是一种甜点酒,源自德国,主要产地是加拿大、德国、奥地利等地。它以经冬在藤上被霜冰冻的葡萄作为酿酒原料,因此得名。其制造原理与麦秆酒相同,但冰酒
  • 刘裕宋武帝刘裕(363年4月16日-422年6月26日),字德舆,小字寄奴,彭城绥舆里(今江苏省徐州市铜山区)人,东晋末年至南北朝初期的军事家、政治家,南北朝时期刘宋的开国皇帝。早年出身十分贫寒,刘
  • 楠塔基特县楠塔基特(英语:Nantucket)是美国马萨诸塞州南部的一个岛屿,与塔克纳克岛(Tuckernuck Island)和木斯基格岛(Muskeget Island)组成楠塔基特镇(其范围与楠塔基特县同,且为县治所在)。面积2
  • 诺曼底战役同盟国:  美国 大英帝国轴心国:德怀特·艾森豪威尔(盟国远征军最高指挥官) 亚瑟·泰德(盟国远征军副指挥官) 伯纳德·蒙哥马利(英国第21集团军,盟国远征军陆军总指挥官) 特拉福
  • 刹车优先系统刹车优先系统(Brake override system, BOS)是一种预防汽车发生暴冲的电子刹车装置。当汽车发生不正常加速,且刹车踏板被踩下时,或是油门和刹车踏板同时被踩下,甚至是动力系统发
  • 司谏院司谏院是朝鲜王朝的一个国家机构,原称郎舍,于太宗元年(1401年)七月正式改名,为正三品衙门,职掌谏诤、论驳等事。与司宪府合称台谏,亦称言官、谏官。渊源为宋朝的谏院。与司宪府,职司
  • 冠海豹属冠海豹(学名:Cystophora cristata)是北极的一种海豹。它们分布在中及西北冰洋,东临斯瓦尔巴群岛,西至圣罗伦斯湾。成年公冠海豹的鼻子上有一可以膨涨及凸出的附属器官。当公冠海
  • 背散射分析背散射分析是指通过探测大角度散射离子能谱来确定靶物质特性的分析方法,一般角度介于165°~170°之间,主要应用于分析靶物质成分。背散射分析有许多的优点,例如快速、定量、无损