关联规则学习

✍ dations ◷ 2025-03-04 05:21:19 #数据挖掘

关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。

根据韩家炜等,关联规则定义为:

假设 I = { I 1 , I 2 , , I m } {\displaystyle I=\{I_{1},I_{2},\ldots ,I_{m}\}} 是项的集合。给定一个交易数据库 D = { t 1 , t 2 , , t n } {\displaystyle D=\{t_{1},t_{2},\ldots ,t_{n}\}} ,其中每个事务(Transaction)t是I的非空子集,即 t I {\displaystyle t\subseteq I} ,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如 X Y {\displaystyle X\Rightarrow Y} 的蕴涵式,其中 X , Y I {\displaystyle X,Y\subseteq I} X Y = {\displaystyle X\cap Y=\emptyset } X {\displaystyle X} Y {\displaystyle Y} 分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则 X Y {\displaystyle X\Rightarrow Y} 在D中的支持度(support)是D中事务包含 X Y {\displaystyle X\cup Y} 的百分比,即概率 P ( X Y ) {\displaystyle P(X\cup Y)} ;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率 P ( Y | X ) {\displaystyle P\left(Y|X\right)} 。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。

用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍 {\displaystyle \Rightarrow } 网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度 s u p p o r t = 3 6 = 0.5 {\displaystyle support={\frac {3}{6}}=0.5} ,置信度 c o n f i d e n t = 3 5 = 0.6 {\displaystyle confident={\frac {3}{5}}=0.6} 。若给定最小支持度 α = 0.5 {\displaystyle \alpha =0.5} ,最小置信度 β = 0.6 {\displaystyle \beta =0.6} ,关联规则网球拍 {\displaystyle \Rightarrow } 网球是有趣的,认为购买网球拍和购买网球之间存在强关联。

关联规则有以下常见分类:

根据关联规则所处理的值的类型

根据关联规则所涉及的数据维数

根据关联规则所涉及的抽象层次

Apriori算法所使用的前置统计量包括:

相关

  • 急救急救(First-aid)即紧急救治的意思,是指在急病或意外发生时,在医生与护理人员到达前为生病或受伤的人,进行初步的救援及护理。急救的主要目标可以概括为三个关键点:急救员抵达现场
  • INN国际非专利药品名称,简称INN(International Nonproprietary Name for Pharmaceutical Substances),是世界卫生组织给每种药品的一个官方的非专利性名称。INN是新药开发者在新药
  • 新布尼亚病毒新布尼亚病毒(SFTS Virus),又称发热伴血小板减少综合征病毒,是布尼亚病毒科白蛉病毒属(英语:Phlebovirus)的一种病毒,其引发的病症称为发热伴血小板减少综合征,为一种经由蜱虫传染给
  • 施瓦本汝拉山坐标:48°18′N 9°21′E / 48.3°N 9.35°E / 48.3; 9.35施瓦本汝拉山(德语:Schwäbische Alb、Schwäbischer Jura 或 Schwabenalb;英语:Swabian Jura;法语:Jura souabe)是德国的
  • 患者负担得起的医疗保健行动项目患者保护与平价医疗法案(英语:Patient Protection and Affordable Care Act,简称PPACA、ACA),又称为“奥巴马医改”(Obamacare),是2010年3月23日美国总统贝拉克·奥巴马签署的联邦法
  • 身份身份认同是心理学和社会学的一个概念,指一个人对于自我特性的表现,以及与某一群体之间所共有观念(国籍或者文化)的表现。身份认同的类型大致可分为:拒绝、漂流、搜寻、保卫和坚定
  • 马尔贝克马尔贝克(malbec)是欧亚种酿酒葡萄、黑色,原产于法国,近年来在南美广泛种植。在法国马尔贝克更多的被称之为cot,因为其源于cotoides一族。其起源于法国西南部产区,他和tannant和ne
  • 瑞典的卡尔·约翰亲王让-巴蒂斯特·贝尔纳多特(Jean-Baptiste Bernadotte,1763年1月26日-1844年3月8日),生于法国波城,1804年晋封法国元帅,1810年成为瑞典国王卡尔十三世的养子,并选为瑞典王储,1818年分别
  • 萨拉托夫州萨拉托夫州(俄语:Саратовская область,罗马化:Saratovskaya oblast),位于东欧平原东南部,东南与哈萨克斯坦共和国接壤。是俄罗斯联邦主体之一,属伏尔加联邦管区。
  • 自由电子激光器自由电子激光器(FEL),所产生激光束的光学性质与传统激光器一样,具有高度相干、高能量的特点,其不同点在于其特殊的光源产生机制。传统利用气体、液体或固体(如半导体激光器)作为激