关联规则学习

✍ dations ◷ 2025-06-07 01:09:08 #数据挖掘

关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。

根据韩家炜等,关联规则定义为:

假设 I = { I 1 , I 2 , , I m } {\displaystyle I=\{I_{1},I_{2},\ldots ,I_{m}\}} 是项的集合。给定一个交易数据库 D = { t 1 , t 2 , , t n } {\displaystyle D=\{t_{1},t_{2},\ldots ,t_{n}\}} ,其中每个事务(Transaction)t是I的非空子集,即 t I {\displaystyle t\subseteq I} ,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如 X Y {\displaystyle X\Rightarrow Y} 的蕴涵式,其中 X , Y I {\displaystyle X,Y\subseteq I} X Y = {\displaystyle X\cap Y=\emptyset } X {\displaystyle X} Y {\displaystyle Y} 分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则 X Y {\displaystyle X\Rightarrow Y} 在D中的支持度(support)是D中事务包含 X Y {\displaystyle X\cup Y} 的百分比,即概率 P ( X Y ) {\displaystyle P(X\cup Y)} ;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率 P ( Y | X ) {\displaystyle P\left(Y|X\right)} 。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。

用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍 {\displaystyle \Rightarrow } 网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度 s u p p o r t = 3 6 = 0.5 {\displaystyle support={\frac {3}{6}}=0.5} ,置信度 c o n f i d e n t = 3 5 = 0.6 {\displaystyle confident={\frac {3}{5}}=0.6} 。若给定最小支持度 α = 0.5 {\displaystyle \alpha =0.5} ,最小置信度 β = 0.6 {\displaystyle \beta =0.6} ,关联规则网球拍 {\displaystyle \Rightarrow } 网球是有趣的,认为购买网球拍和购买网球之间存在强关联。

关联规则有以下常见分类:

根据关联规则所处理的值的类型

根据关联规则所涉及的数据维数

根据关联规则所涉及的抽象层次

Apriori算法所使用的前置统计量包括:

相关

  • 和平宫和平宫(荷兰语:Vredespaleis),创建于1913年8月28日,位于荷兰海牙,被认为是国际法之都,国际法院(联合国的主要司法机构)和常设仲裁法院以及海牙国际法学院均坐落此处。和平宫还有藏书
  • UOsub4/sub过氧化铀(UO4·nH2O) 是一种浅黄色, 可溶解的氧化铀。它被发现在浓缩铀一个阶段的核燃料循环,那时是粗制铀准备通过在地浸和树脂离子交换系统的时候。 这种化合物,也可以表达
  • 亨利·大卫·梭罗亨利·大卫·梭罗(Henry David Thoreau,1817年7月12日-1862年5月6日),美国作家、诗人、哲学家、废奴主义者、超验主义者,也曾任职土地勘测员。他最著名的作品有散文集《瓦尔登湖》
  • 阿勒曼尼人阿勒曼尼人,或译为阿拉曼人(Alamanni、Allemanni或Alemanni),这个名称源自位在美因河上游区域的日耳曼部落同盟。最早出现在文献中的,是在三世纪时,罗马皇帝卡拉卡拉宣称击败了阿
  • 兵器武器是在暴力冲突中用来增加攻击效果的工具,武器被大量使用的暴力冲突也通常被称为武装冲突。武器一般会用来伤害或攻击其他人或设施,当被有效利用时一般会遵循“期望效果最大
  • 蔚蓝蔚蓝色,是一个蓝色系的颜色,近似于天空的颜色。其英文“cerulean”一词系来自拉丁语词汇“caeruleum”(意思为天空、天堂)。
  • 项城市项城市,是中华人民共和国河南省周口市下辖的一个县级市。全市面积1083平方公里,总人口121(2011年)万人,共辖有466个行政村。项城市位于河南省东南部,居黄河冲积平原南部,淮河主要支
  • 梯队系统2001年–2007年–与英国政府通信总部合作项目非持续进行项目梯队系统(Echelon)是一个以美国为中心的情报收集分析网络的俗称。参与国家是英美防卫协定的五个签署国,英国、美国
  • 古吉拉特邦古吉拉特邦(古吉拉特语:ગુજરાત,拉丁字母转写:Gujarat,旧译瞿折罗、胡茶辣)是位于印度最西部的邦。该邦西部和西南部紧邻阿拉伯海,北部与巴基斯坦信德省和拉贾斯坦邦相接壤,南
  • 飞行速度记录飞行速度记录是特定种类飞行器所能达到的最高速度。所有官方航空记录都由国际航空联合会(FAI)定义并正式通过。飞行记录被分为若干个级别和副分类。飞行器被分为三个种类:陆基