关联规则学习

✍ dations ◷ 2025-06-28 23:46:47 #数据挖掘

关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。

根据韩家炜等,关联规则定义为:

假设 I = { I 1 , I 2 , , I m } {\displaystyle I=\{I_{1},I_{2},\ldots ,I_{m}\}} 是项的集合。给定一个交易数据库 D = { t 1 , t 2 , , t n } {\displaystyle D=\{t_{1},t_{2},\ldots ,t_{n}\}} ,其中每个事务(Transaction)t是I的非空子集,即 t I {\displaystyle t\subseteq I} ,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如 X Y {\displaystyle X\Rightarrow Y} 的蕴涵式,其中 X , Y I {\displaystyle X,Y\subseteq I} X Y = {\displaystyle X\cap Y=\emptyset } X {\displaystyle X} Y {\displaystyle Y} 分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则 X Y {\displaystyle X\Rightarrow Y} 在D中的支持度(support)是D中事务包含 X Y {\displaystyle X\cup Y} 的百分比,即概率 P ( X Y ) {\displaystyle P(X\cup Y)} ;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率 P ( Y | X ) {\displaystyle P\left(Y|X\right)} 。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。

用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍 {\displaystyle \Rightarrow } 网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度 s u p p o r t = 3 6 = 0.5 {\displaystyle support={\frac {3}{6}}=0.5} ,置信度 c o n f i d e n t = 3 5 = 0.6 {\displaystyle confident={\frac {3}{5}}=0.6} 。若给定最小支持度 α = 0.5 {\displaystyle \alpha =0.5} ,最小置信度 β = 0.6 {\displaystyle \beta =0.6} ,关联规则网球拍 {\displaystyle \Rightarrow } 网球是有趣的,认为购买网球拍和购买网球之间存在强关联。

关联规则有以下常见分类:

根据关联规则所处理的值的类型

根据关联规则所涉及的数据维数

根据关联规则所涉及的抽象层次

Apriori算法所使用的前置统计量包括:

相关

  • 腺病毒感染腺病毒感染是指人体受腺病毒感染后的病征,主要是影响呼吸系统,但也可以引致肠胃炎、结膜炎、膀胱炎及出疹。呼吸系统受腺病毒影响下,会出现类似流行性感冒的病征,例如咳嗽、流鼻
  • 礁溪温泉坐标:24°49′47″N 121°46′24″E / 24.829666°N 121.773201°E / 24.829666; 121.773201礁溪温泉位于台湾兰阳平原上的宜兰县礁溪乡德阳村,主要分布温泉沟溪谷中。分类上
  • Oxon坐标:51°45′40″N 1°15′12″W / 51.7611°N 1.2534°W / 51.7611; -1.2534牛津大学(英语:University of Oxford;非正式:Oxford University,或:Oxford;勋衔简称:Oxon)位于英格兰东
  • 微气象学微气象学是关于水平尺度小于中尺度(英语:mesoscale meteorology)的短期气象现象的研究,尺度约为一公里甚至更小。微气象学及中尺度气象学有时会合称为“微尺度及中尺度气象学”(M
  • 攻击攻击,即对物体、生命、目标甚至无形物体作出物理或非物理性伤害,或入侵别人的领地。攻击大致分为2种:物理和非物理攻击。物理攻击即对某实体作出伤害,而非物理攻击即对某目标造
  • 年号日本年号(日语:元号)是一种日本的纪年法,从大化革新时开始学习中国使用年号制度,起初和中国明朝之前一样不只在更替君主时换年号,后来更换年号的权力甚至掌握在幕府或武家政权的手
  • 槟城福建话槟城福建话是闽南语的一个域外变体。他的音调有别于闽南本土的若干次方言,也不同于东南亚其他地区的闽南语。槟城福建话也就是人们所谓的北马福建话,使用范围在槟城、吉打、玻
  • 犬型亚目犬型亚目(学名:Caniformia)是食肉目的一个亚目。其中包括犬科、熊科、浣熊科、熊猫科等类别,鳍足类(海狮与海豹)也被归为此亚目。本亚目中多数动物的爪都不能伸缩(但鱼貂(英语:fisher
  • 教务专约《1801年教务专约》(法语:Régime concordataire français)的签订者为法兰西第一共和国第一执政拿破仑与教宗庇护七世,签定时间为1801年7月15日。于巴黎和罗马两地分别签订的该
  • 磷酸肌醇3-激酶磷酸肌醇3-激酶(英语:Phosphoinositide 3-kinase, PI3Ks)又叫磷脂酰环己六醇3-激酶(英语:phosphatidylinositol 3-kinases),是一个参与诸如细胞生长、增殖、分化、移动、存活和胞内