关联规则学习

✍ dations ◷ 2025-03-07 10:56:23 #数据挖掘

关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。

根据韩家炜等,关联规则定义为:

假设 I = { I 1 , I 2 , , I m } {\displaystyle I=\{I_{1},I_{2},\ldots ,I_{m}\}} 是项的集合。给定一个交易数据库 D = { t 1 , t 2 , , t n } {\displaystyle D=\{t_{1},t_{2},\ldots ,t_{n}\}} ,其中每个事务(Transaction)t是I的非空子集,即 t I {\displaystyle t\subseteq I} ,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如 X Y {\displaystyle X\Rightarrow Y} 的蕴涵式,其中 X , Y I {\displaystyle X,Y\subseteq I} X Y = {\displaystyle X\cap Y=\emptyset } X {\displaystyle X} Y {\displaystyle Y} 分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则 X Y {\displaystyle X\Rightarrow Y} 在D中的支持度(support)是D中事务包含 X Y {\displaystyle X\cup Y} 的百分比,即概率 P ( X Y ) {\displaystyle P(X\cup Y)} ;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率 P ( Y | X ) {\displaystyle P\left(Y|X\right)} 。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。

用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍 {\displaystyle \Rightarrow } 网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度 s u p p o r t = 3 6 = 0.5 {\displaystyle support={\frac {3}{6}}=0.5} ,置信度 c o n f i d e n t = 3 5 = 0.6 {\displaystyle confident={\frac {3}{5}}=0.6} 。若给定最小支持度 α = 0.5 {\displaystyle \alpha =0.5} ,最小置信度 β = 0.6 {\displaystyle \beta =0.6} ,关联规则网球拍 {\displaystyle \Rightarrow } 网球是有趣的,认为购买网球拍和购买网球之间存在强关联。

关联规则有以下常见分类:

根据关联规则所处理的值的类型

根据关联规则所涉及的数据维数

根据关联规则所涉及的抽象层次

Apriori算法所使用的前置统计量包括:

相关

  • 苯海拉明苯海拉明(英语:Diphenhydramine)是一种抗组胺药,主要用于治疗过敏症,也可以用于治疗失眠、感冒症状、帕金森氏症震颤和恶心。给药方式是口服、静脉注射及肌肉注射。最大效果通常
  • 肌动蛋白结构 / ECOD肌动蛋白(英语:actin)是一类分子量大约在42,000的球状蛋白质。除了已经知道的线虫类精子细胞之外,在所有的真核细胞当中均发现有该蛋白质,浓度约在100μM以上,其质量约
  • 清异录《清异录》书名,宋陶谷撰,凡二卷。《清异录》分三十七门,内容包括〈天文〉、〈地理〉、〈君道〉、〈官志〉、〈人事〉、〈女行〉、〈君子〉、〈么么〉、〈释族〉、〈仙宗〉、〈
  • 持续性抑郁症持续性抑郁症(精神官能性忧郁症,Persistent Depressive Disorder (PDD))是一种慢性情绪失调,属于抑郁症范畴。持续时间比重度抑郁症长,但症状相对较轻。慢性抑郁症是一种轻度的抑
  • 冈山坐标:22°47′16″N 120°19′14″E / 22.787854°N 120.320651°E / 22.787854; 120.320651冈山交流道为台湾国道一号中山高速公路的交流道,位于台湾高雄市燕巢区(靠近与冈山
  • 四大自由四大自由(英语:The Four Freedoms)是美国总统富兰克林·德拉诺·罗斯福于1941年1月6日星期一阐明的目标。在“四大自由演讲”(准确而言是1941年国情咨文演讲)中,他提出了“世界各
  • Journal of Sex Research《性研究期刊》(Journal of Sex Research)是是一本经过同行评审的美国性学学术期刊,涵盖人类性行为和性学领域的研究。它由罗德里奇负责出版,由美国性学研究学会(Society for the
  • 太平洋十二校联盟太平洋十二校联盟(Pacific-12 Conference)是一个美国西部的大学体育联盟。这个联盟的成立可追溯至1915年12月15日在波特兰所举行的一次会议,会中建立了太平洋十大学联会的前身
  • 截半二十面体在几何学中,截半二十面体是一种由正五边形和正三角形组成的三十二面体,是一种阿基米德立体。其每个顶点都是2个三角形和2个五边形的公共顶点、每条棱都是三角形和五边形交棱,因
  • 朝鲜改革放送北韩改革放送(韩语:북한개혁방송;英语:North Korea Reform Radio)是韩国对朝鲜的广播,播出时使用“朝鲜改革放送”(韩语:조선개혁방송)的名称。广播语言为朝鲜语,用短波广播。2007年12