关联规则学习

✍ dations ◷ 2025-04-26 12:22:32 #数据挖掘

关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。

根据韩家炜等,关联规则定义为:

假设 I = { I 1 , I 2 , , I m } {\displaystyle I=\{I_{1},I_{2},\ldots ,I_{m}\}} 是项的集合。给定一个交易数据库 D = { t 1 , t 2 , , t n } {\displaystyle D=\{t_{1},t_{2},\ldots ,t_{n}\}} ,其中每个事务(Transaction)t是I的非空子集,即 t I {\displaystyle t\subseteq I} ,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如 X Y {\displaystyle X\Rightarrow Y} 的蕴涵式,其中 X , Y I {\displaystyle X,Y\subseteq I} X Y = {\displaystyle X\cap Y=\emptyset } X {\displaystyle X} Y {\displaystyle Y} 分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则 X Y {\displaystyle X\Rightarrow Y} 在D中的支持度(support)是D中事务包含 X Y {\displaystyle X\cup Y} 的百分比,即概率 P ( X Y ) {\displaystyle P(X\cup Y)} ;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率 P ( Y | X ) {\displaystyle P\left(Y|X\right)} 。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。

用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍 {\displaystyle \Rightarrow } 网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度 s u p p o r t = 3 6 = 0.5 {\displaystyle support={\frac {3}{6}}=0.5} ,置信度 c o n f i d e n t = 3 5 = 0.6 {\displaystyle confident={\frac {3}{5}}=0.6} 。若给定最小支持度 α = 0.5 {\displaystyle \alpha =0.5} ,最小置信度 β = 0.6 {\displaystyle \beta =0.6} ,关联规则网球拍 {\displaystyle \Rightarrow } 网球是有趣的,认为购买网球拍和购买网球之间存在强关联。

关联规则有以下常见分类:

根据关联规则所处理的值的类型

根据关联规则所涉及的数据维数

根据关联规则所涉及的抽象层次

Apriori算法所使用的前置统计量包括:

相关

  • 美国国家公园美国共有62座国家公园保护区,由内政部下属的国家公园管理局运作。国家公园需经国会立法建立。1872年,总统尤利西斯·辛普森·格兰特签署法案,设立第一个国家公园:黄石国家公园,之
  • 产率收率(yield 或percent yield)或称作反应收率,一般用于化学及工业生产,是指在化学反应或相关的化学工业生产中,投入单位数量原料获得的实际生产的产品产量与理论计算的产品产量的
  • 下淡水溪铁桥坐标:22°39′41.27″N 120°26′9.72″E / 22.6614639°N 120.4360333°E / 22.6614639; 120.4360333下淡水溪铁桥位于台湾铁路管理局屏东线九曲堂车站至六块厝车站间,桥面横
  • 东征日本元日战争是元朝皇帝忽必烈与属国高丽在1274年和1281年两次派军侵略日本而引发的战争;这两次侵略在日本合称“元寇”或“蒙古襲来”,或依当时的日本年号称抵御元军第一次进攻的
  • 西村口音西村口音,又称西村话,是汉藏语系汉语族粤语广州话的一种子方言(或称口音),指以往居住在广州市西村地区一带的居民(老街坊)所操粤语之地方口音。西村口音使用人群主要是以往居住在广
  • 东州东州,辽朝时设置州。辽国初年以渤海人降户设置东州,《辽史·圣宗纪》:太平六年(1026年),以参知政事吴叔达责授将作少监,出为东州刺史。《契丹国志》也有东州,为辽国刺史州之一,东州不
  • 广 林广林(1790年-1858年),苏穆察氏,清朝官员,字艺圃,号乔庵、锄经,内务府蒙古正黄旗人。嘉庆庚午科举人,十九年(1814年)甲戌科进士。
  • 尿液滞留尿潴留(英语:renal retention或 urinary retention),又称尿滞留、尿液滞留,是膀胱内的尿液无法排出的状况,最常见的原因是良性前列腺增生症。正常成年男性的膀胱涨满时,容积约为500
  • 神经发展综合征神经发育障碍或神经发展障碍(Neurodevelopmental disorder)是精神疾患中的一种。此用词有几种不同的定义,其中一种范围较窄的定义是指有关脑部,会影响情绪、一般学习能力、自我
  • 水城县水城县是中华人民共和国贵州省六盘水市下辖的一个县,位于贵州西部,地处川滇黔桂四省区结合部,素有“四省立交桥”之称。明属安氏土司辖地。清雍正十一年(1733年),划大定府之永顺、