关联规则学习

✍ dations ◷ 2025-11-21 20:01:54 #数据挖掘

关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。

根据韩家炜等,关联规则定义为:

假设 I = { I 1 , I 2 , , I m } {\displaystyle I=\{I_{1},I_{2},\ldots ,I_{m}\}} 是项的集合。给定一个交易数据库 D = { t 1 , t 2 , , t n } {\displaystyle D=\{t_{1},t_{2},\ldots ,t_{n}\}} ,其中每个事务(Transaction)t是I的非空子集,即 t I {\displaystyle t\subseteq I} ,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如 X Y {\displaystyle X\Rightarrow Y} 的蕴涵式,其中 X , Y I {\displaystyle X,Y\subseteq I} X Y = {\displaystyle X\cap Y=\emptyset } X {\displaystyle X} Y {\displaystyle Y} 分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则 X Y {\displaystyle X\Rightarrow Y} 在D中的支持度(support)是D中事务包含 X Y {\displaystyle X\cup Y} 的百分比,即概率 P ( X Y ) {\displaystyle P(X\cup Y)} ;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率 P ( Y | X ) {\displaystyle P\left(Y|X\right)} 。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。

用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍 {\displaystyle \Rightarrow } 网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度 s u p p o r t = 3 6 = 0.5 {\displaystyle support={\frac {3}{6}}=0.5} ,置信度 c o n f i d e n t = 3 5 = 0.6 {\displaystyle confident={\frac {3}{5}}=0.6} 。若给定最小支持度 α = 0.5 {\displaystyle \alpha =0.5} ,最小置信度 β = 0.6 {\displaystyle \beta =0.6} ,关联规则网球拍 {\displaystyle \Rightarrow } 网球是有趣的,认为购买网球拍和购买网球之间存在强关联。

关联规则有以下常见分类:

根据关联规则所处理的值的类型

根据关联规则所涉及的数据维数

根据关联规则所涉及的抽象层次

Apriori算法所使用的前置统计量包括:

相关

  • 人口索引 国防预算 石油储量 军事(武装部队) 死刑 国债 生育率 最高点 官方语言 地理 政体 面积 代码 陆地面积 人口 人口密度 国内生产总值 国徽 国旗 国歌 国家格言 首都 城市
  • 台北市立联合医院松德院区台北市立联合医院松德院区,前身为台北市立疗养院,又名台北市精神医学中心(英文:Taipei City Psychiatric Center),是位于信义区的台北市立联合医院的院区,为精神科专科医院。松德院
  • 功效效能(英语:efficacy)是指事物产生功效的能力,常用于通识教育、医学和药理学。在医学中,效能是指一种医疗干预措施(如药物、医疗设备、外科手术和公共卫生干预)产生疗效的能力。在临
  • 有色体有色体(英语:Chromoplast,又称杂色体),是植物、藻类等能行光合作用的真核生物细胞中的一种质粒体,通称含有色素的质粒体,常和没有色素的白色体比较。有色体因含有胡萝卜素、类胡萝
  • 精神科医生精神科医生(英语:Psychiatrist)是以精神病学为专业的医生,负责治疗精神病。精神科医生授权配药、进行体格检查及心理治疗、以及进行神经成像如电脑断层扫描、核磁共振成像和正电
  • 蚰蜒.mw-parser-output ruby>rt,.mw-parser-output ruby>rtc{font-feature-settings:"ruby"1}.mw-parser-output ruby.large{font-size:250%}.mw-parser-output ruby.larger{fon
  • 三碘化磷三碘化磷是一种无机化合物,化学式PI3。可以和水剧烈反应。三碘化磷可以和水剧烈反应,产生亚磷酸和碘化氢,产物中也有少量杂质如磷化氢和含有P-P键的化合物。三碘化磷也是个强还
  • 化石纪录化石是存留在岩石中的古生物遗体、遗物或生活痕迹,最常见的是骸骨和贝壳等。研究化石可以了解生物的演化并能帮助确定地层的年代。保存在地壳的岩石中的古动物或古植物的遗体
  • 递减聚合酶链式反应递减PCR,亦称降落PCR(英语:touchdown PCR)是一种PCR(聚合酶链式反应)方法,用来避免非特异性序列的扩增。PCR中引物的黏合温度(annealing temperature)决定了黏合的特异性,温度越高特异
  • 上海正午《上海正午》(英文:Shanghai Noon),2000年好莱坞喜剧西部片。此片是成龙进军好莱坞作品之一,主角有成龙、刘玉玲及欧文·威尔森,上映票房成绩中上。晚清适值美国开拓西部时代,成龙