关联规则学习

✍ dations ◷ 2025-12-03 01:57:21 #数据挖掘

关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。

根据韩家炜等,关联规则定义为:

假设 I = { I 1 , I 2 , , I m } {\displaystyle I=\{I_{1},I_{2},\ldots ,I_{m}\}} 是项的集合。给定一个交易数据库 D = { t 1 , t 2 , , t n } {\displaystyle D=\{t_{1},t_{2},\ldots ,t_{n}\}} ,其中每个事务(Transaction)t是I的非空子集,即 t I {\displaystyle t\subseteq I} ,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如 X Y {\displaystyle X\Rightarrow Y} 的蕴涵式,其中 X , Y I {\displaystyle X,Y\subseteq I} X Y = {\displaystyle X\cap Y=\emptyset } X {\displaystyle X} Y {\displaystyle Y} 分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则 X Y {\displaystyle X\Rightarrow Y} 在D中的支持度(support)是D中事务包含 X Y {\displaystyle X\cup Y} 的百分比,即概率 P ( X Y ) {\displaystyle P(X\cup Y)} ;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率 P ( Y | X ) {\displaystyle P\left(Y|X\right)} 。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。

用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍 {\displaystyle \Rightarrow } 网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度 s u p p o r t = 3 6 = 0.5 {\displaystyle support={\frac {3}{6}}=0.5} ,置信度 c o n f i d e n t = 3 5 = 0.6 {\displaystyle confident={\frac {3}{5}}=0.6} 。若给定最小支持度 α = 0.5 {\displaystyle \alpha =0.5} ,最小置信度 β = 0.6 {\displaystyle \beta =0.6} ,关联规则网球拍 {\displaystyle \Rightarrow } 网球是有趣的,认为购买网球拍和购买网球之间存在强关联。

关联规则有以下常见分类:

根据关联规则所处理的值的类型

根据关联规则所涉及的数据维数

根据关联规则所涉及的抽象层次

Apriori算法所使用的前置统计量包括:

相关

  • 气管气管(trachea)是连接喉部与肺部的通道,腹侧由软骨环组成,背侧由平滑肌所组成,向上以声带为出口,向下分支称之为支气管(bronchus)。组成气管的软骨为透明软骨。Template:Lower respir
  • 酯酶酯酶(英语:esterase)是一种水解酶催化剂,可在水分子的参与下,经由水解作用,将酯类切割成酸类与醇类。此类酶参与多种生物化学反应,依其专属受质、蛋白质结构,以及功能而有不同。脂酶
  • 迷迭香迷迭香(学名:Rosmarinus officinalis)是一种原产于地中海盆地,木本多年生香料植物,野生或种植于白垩土壤中。茎、叶和花都可提取芳香油。多年生常绿小灌木。迷迭香的品种依植株的
  • 肾丛肾丛由腹腔神经节和腹腔神经丛、主动脉肾节、下胸内脏神经和第一腰部内脏神经以及主动脉神经丛发出的神经组成。从这些来源发出的神经有15~20支左右,少数有神经节构成。它与
  • 保罗·博尔塞利诺保罗·博尔塞利诺(于1940年1月19日出生在巴勒莫,1992年7月19日在同一个城市罹难)是一名意大利反黑法官,1992年7月19日他被黑手党的汽车炸弹谋害于巴勒莫。此前不足两个月,他的朋
  • 伊利诺伊州伊利诺伊州(英语:State of Illinois,i/ˌɪləˈnɔɪ/),简称伊州,是一个位于美国中西部的州,州名源自曾在此居住的伊利尼维克(Illiniwek)印第安人部落。“Illinois”这个名字就是法
  • 阿德里安埃德加·阿德里安,第一代阿德里安男爵,OM,PRS(英语:Edgar Adrian, 1st Baron Adrian,1889年11月30日-1977年8月4日),英国电生理学家,曾任剑桥大学教授、英国皇家学会会长。他和查尔斯
  • 苏里南2019冠状病毒病苏里南疫情,介绍在2019新型冠状病毒疫情中,在苏里南发生的情况,苏里南为最后一个确诊的南美国家,也使南美洲成为继欧洲后第二个全区沦陷的大洲。2020年3月13日,苏
  • 台湾竞争力论坛社团法人台湾竞争力论坛学会,简称台湾竞争力论坛,2007年成立。理事长为庞建国,总召集人为彭锦鹏,执行长为谢明辉。该论坛的立场偏向泛蓝。
  • 奥克兰大学奥克兰大学(简称:奥大,毛利语:Te Whare Wānanga o Tāmaki Makaurau,英文:The University of Auckland)始建于1883年,位于新西兰最大城市奥克兰市,有7个校区。它不仅是该国最重要的