关联规则学习

✍ dations ◷ 2025-11-29 01:53:57 #数据挖掘

关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。

根据韩家炜等,关联规则定义为:

假设 I = { I 1 , I 2 , , I m } {\displaystyle I=\{I_{1},I_{2},\ldots ,I_{m}\}} 是项的集合。给定一个交易数据库 D = { t 1 , t 2 , , t n } {\displaystyle D=\{t_{1},t_{2},\ldots ,t_{n}\}} ,其中每个事务(Transaction)t是I的非空子集,即 t I {\displaystyle t\subseteq I} ,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如 X Y {\displaystyle X\Rightarrow Y} 的蕴涵式,其中 X , Y I {\displaystyle X,Y\subseteq I} X Y = {\displaystyle X\cap Y=\emptyset } X {\displaystyle X} Y {\displaystyle Y} 分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则 X Y {\displaystyle X\Rightarrow Y} 在D中的支持度(support)是D中事务包含 X Y {\displaystyle X\cup Y} 的百分比,即概率 P ( X Y ) {\displaystyle P(X\cup Y)} ;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率 P ( Y | X ) {\displaystyle P\left(Y|X\right)} 。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。

用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍 {\displaystyle \Rightarrow } 网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度 s u p p o r t = 3 6 = 0.5 {\displaystyle support={\frac {3}{6}}=0.5} ,置信度 c o n f i d e n t = 3 5 = 0.6 {\displaystyle confident={\frac {3}{5}}=0.6} 。若给定最小支持度 α = 0.5 {\displaystyle \alpha =0.5} ,最小置信度 β = 0.6 {\displaystyle \beta =0.6} ,关联规则网球拍 {\displaystyle \Rightarrow } 网球是有趣的,认为购买网球拍和购买网球之间存在强关联。

关联规则有以下常见分类:

根据关联规则所处理的值的类型

根据关联规则所涉及的数据维数

根据关联规则所涉及的抽象层次

Apriori算法所使用的前置统计量包括:

相关

  • 刚果红刚果红是一种酸碱指示剂,当pH低于3.0时呈蓝色,高于5.2时呈红色。化学式为C32H22N6Na2O6S2;分子量696.66 g/mol。在生物学上可用刚果红筛选纤维素分解菌。原理如下:刚果红可与纤
  • 儒勒·凡尔纳儒勒·加布里埃尔·凡尔纳(法语:Jules Gabriel Verne,1828年2月8日-1905年3月24日),或译儒勒·凡尔纳,法国小说家、剧作家、诗人,现代科幻小说的重要开创者之一。他以其大量著作和突
  • span class=nowrapNaHSOsub4/sub/span硫酸氢钠(化学式:NaHSO4),也称酸式硫酸钠,硝石饼(niter cake) 。它的无水物有吸湿性。硫酸氢钠在达到其熔点前即分解为焦硫酸钠,故其熔点很难测定。硫酸氢钠的水溶液显酸性,1mol/L溶
  • 吉森尤斯图斯-李比希大学吉森大学,全称吉森尤斯图斯-李比希大学(德语:Justus-Liebig-Universität Gießen,缩写为JLU),是一所位于德国黑森州吉森的公立大学,1607年由黑森-达姆施塔特伯爵路德维希五世(德语:L
  • 四氟化碳四氟化碳,又称为四氟甲烷、Freon-14及R 14,是一种卤代烃(化学式:CF4)。它既可以被视为一种卤代烃、卤代甲烷、全氟化碳,也可以被视为一种无机化合物。零下198 °C时,四氟化碳具有
  • 禁锢禁锢可以指:
  • 软水软水是指水的硬度低于8度的水。水的硬度特别是指碳酸钙和碳酸镁的含量,以"毫克碳酸钙/升 水"或"ppm"来表示,称为水的硬度。软水中含有的可溶性钙、镁等化合物较少。在天然水中
  • 目标软件目标软件(北京)有限公司简称目标软件,成立于1995年,是中国大陆最早从事高端娱乐游戏和多媒体软件的开发公司之一。
  • 前筛神经前筛神经(anterior ethmoidal nerve)为支配鼻腔感觉的神经。该神经源自于鼻睫神经(英语:nasociliary nerve),为三叉神经眼分支的其中一条分支。鼻睫神经在分支出四个分支(由起点到
  • 酒海纪酒海纪期是月球地质年代中位于前酒海纪和早雨海世之间的一段时期。它起始于酒海盆地形成之初(42-38亿年前),结束于雨海盆地即将到来之前(38.7-37.5亿年前,最新数据为39.38±0.004