关联规则学习

✍ dations ◷ 2024-12-22 22:17:00 #数据挖掘

关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。

根据韩家炜等,关联规则定义为:

假设 I = { I 1 , I 2 , , I m } {\displaystyle I=\{I_{1},I_{2},\ldots ,I_{m}\}} 是项的集合。给定一个交易数据库 D = { t 1 , t 2 , , t n } {\displaystyle D=\{t_{1},t_{2},\ldots ,t_{n}\}} ,其中每个事务(Transaction)t是I的非空子集,即 t I {\displaystyle t\subseteq I} ,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如 X Y {\displaystyle X\Rightarrow Y} 的蕴涵式,其中 X , Y I {\displaystyle X,Y\subseteq I} X Y = {\displaystyle X\cap Y=\emptyset } X {\displaystyle X} Y {\displaystyle Y} 分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则 X Y {\displaystyle X\Rightarrow Y} 在D中的支持度(support)是D中事务包含 X Y {\displaystyle X\cup Y} 的百分比,即概率 P ( X Y ) {\displaystyle P(X\cup Y)} ;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率 P ( Y | X ) {\displaystyle P\left(Y|X\right)} 。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。

用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍 {\displaystyle \Rightarrow } 网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度 s u p p o r t = 3 6 = 0.5 {\displaystyle support={\frac {3}{6}}=0.5} ,置信度 c o n f i d e n t = 3 5 = 0.6 {\displaystyle confident={\frac {3}{5}}=0.6} 。若给定最小支持度 α = 0.5 {\displaystyle \alpha =0.5} ,最小置信度 β = 0.6 {\displaystyle \beta =0.6} ,关联规则网球拍 {\displaystyle \Rightarrow } 网球是有趣的,认为购买网球拍和购买网球之间存在强关联。

关联规则有以下常见分类:

根据关联规则所处理的值的类型

根据关联规则所涉及的数据维数

根据关联规则所涉及的抽象层次

Apriori算法所使用的前置统计量包括:

相关

  • 真光层透光带(英语:Photic zone、Euphotic Zone、Sunlight zone),又名真光层、表层洋带或者透光层,是指湖泊或海洋中, 光度足以供浮游植物行光合作用的深度范围,大约从海表面至水深100〜2
  • 受威胁受威胁物种(Threatened species)是任何有可能在不久的将来灭绝的物种(包括动物、植物、真菌),也是IUCN保护现状中对易危物种(VU)、濒危物种(EN)、极危物种(CR)的统称。所有此范围内的物
  • 乌拉诺斯乌拉诺斯乌拉诺斯(希腊语:Οὐρανός,拉丁语:Uranus),从大地母亲(盖亚)的指端诞生。象征希望与未来,并代表了天空。乌拉诺斯和盖亚首先生下了十二位提坦,即六个儿子和六个女儿,以及
  • 张穆张穆(1805年-1849年),名瀛暹,字诵风,一字硕州,号石舟,山西平定人。祖父张佩芳,官寿州、泗州知州,曾纂修《歙县志》、《黄山志》。父张敦颐官殿试收掌官。生于嘉庆十年(1805年),十一岁丧母
  • 乙未事变乙未事变, 又称乙未之变或乙未八月之变,是指1895年日本人杀害朝鲜王朝国王高宗之明成皇后闵兹暎的事件。日本通过乙未事变铲除试图通过沙俄对抗日本的明成皇后后,恢复金弘集亲
  • 最高裁判所长官最高裁判所裁判官,是日本最高裁判所的法官(日语称“裁判官”或さいばんかん)。其中有最高裁判所长官1名和最高裁判所判事14名(日本《裁判所法》第5条第1项)。十五名最高裁判所裁
  • 橡树行动橡树行动(德语:Unternehmen Eiche)是一次发生在1943年9月12日第二次世界大战期间,纳粹德国为营救被软禁在意大利大萨索山帝王台的前意大利首相贝尼托·墨索里尼所发动以特种部队
  • 全美航空全美航空(英语:US Airways)是美国一家已倒闭的航空公司,曾以亚利桑那州坦佩为总部。至2006年5月为止,全美航空是美国的第五大航空公司,拥有358架主航线用大型喷射客机与295架小型
  • 宁津县宁津县在中国山东省西北部,是德州市所辖的一个县,邻接河北省。原属河北省,1950年,改属德州专区。1952年,宁津县划归河北省属沧州专区。1958年,沧州专区并入天津市,宁津县属天津市。
  • 传染性单核白血球增多症传染性单核白血球增多症(英语:Infectious mononucleosis,缩写“IM”,别名mono、glandular fever、Pfeiffer's disease、Filatov's disease)是一种由EB病毒造成的传染病。大部分人