关联规则学习

✍ dations ◷ 2024-09-20 10:58:35 #数据挖掘

关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。

根据韩家炜等,关联规则定义为:

假设 I = { I 1 , I 2 , , I m } {\displaystyle I=\{I_{1},I_{2},\ldots ,I_{m}\}} 是项的集合。给定一个交易数据库 D = { t 1 , t 2 , , t n } {\displaystyle D=\{t_{1},t_{2},\ldots ,t_{n}\}} ,其中每个事务(Transaction)t是I的非空子集,即 t I {\displaystyle t\subseteq I} ,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如 X Y {\displaystyle X\Rightarrow Y} 的蕴涵式,其中 X , Y I {\displaystyle X,Y\subseteq I} X Y = {\displaystyle X\cap Y=\emptyset } X {\displaystyle X} Y {\displaystyle Y} 分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则 X Y {\displaystyle X\Rightarrow Y} 在D中的支持度(support)是D中事务包含 X Y {\displaystyle X\cup Y} 的百分比,即概率 P ( X Y ) {\displaystyle P(X\cup Y)} ;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率 P ( Y | X ) {\displaystyle P\left(Y|X\right)} 。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。

用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍 {\displaystyle \Rightarrow } 网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度 s u p p o r t = 3 6 = 0.5 {\displaystyle support={\frac {3}{6}}=0.5} ,置信度 c o n f i d e n t = 3 5 = 0.6 {\displaystyle confident={\frac {3}{5}}=0.6} 。若给定最小支持度 α = 0.5 {\displaystyle \alpha =0.5} ,最小置信度 β = 0.6 {\displaystyle \beta =0.6} ,关联规则网球拍 {\displaystyle \Rightarrow } 网球是有趣的,认为购买网球拍和购买网球之间存在强关联。

关联规则有以下常见分类:

根据关联规则所处理的值的类型

根据关联规则所涉及的数据维数

根据关联规则所涉及的抽象层次

Apriori算法所使用的前置统计量包括:

相关

  • 最不发达国家最不发达国家(也称作最低度开发国家、未开发国家,英语:Least developed country,缩写:LDC、LDCs)是指那些经联合国认定的社会、经济发展水平以及人类发展指数最低的一系列国家。“
  • 陶文 ‧ 甲骨文 ‧ 金文 ‧ 古文 ‧ 石鼓文籀文 ‧ 鸟虫书 ‧ 篆书(大篆 ‧  小篆)隶书 ‧ 楷书 ‧ 行书 ‧ 草书漆书 ‧  书法 ‧ 飞白书笔画 ‧ 
  • 伤寒 (中医)伤寒或说伤寒病,出自中医学的范畴,有广义与狭义的区别。广义伤寒是一切外感热病的总称。狭义伤寒是外感风寒之邪,感而即发的疾病。太阳伤寒证脉证提纲:太阳伤寒证证治:
  • 维氏硬度维氏硬度试验(英语:Vickers hardness test),是压入硬度试验之一种,其测量值用HV表示。维氏硬度试验最初于20世纪20年代初被提出,比起其他硬度试验其优点有:硬度值与压头大小、负荷
  • 英国皇家空军英国皇家空军(英语:Royal Air Force,RAF)为英国军队的航空作战军种,创设于1918年4月1日,为世界上第一支编成独立军种的空军。在一战胜过同盟国后,英国皇家空军成为了该时期最庞大的
  • 泛代数泛代数(Universal algebra),研究通用于所有代数结构的理论,而不是代数结构的模型。举个例子,并不是将特殊的个别的群作为个体分别来学习,而是将整个群论的理论作为学习的主题。从
  • Sj音国际音标的 /ɧ/ 表示的是瑞典语中的sje音(sje-ljudet),它存在于瑞典语多数方言中,是个清擦音,但具体的发音部位仍然不能确定。该音有众多变体,音值随发音者年龄、方言而有一些不
  • 嘉靖大地震嘉靖大地震,也称华县大地震,是中国明朝嘉靖三十四年腊月十二(1556年1月23日)发生的一次大型地震,震中位于陕西省华县,测算地震震级8.25级,陕西、山西、河南、甘肃等地的101个县受灾
  • 甲戌甲戌为干支之一,顺序为第11个。前一位是癸酉,后一位是乙亥。论阴阳五行,天干之甲属阳之木,地支之戌属阳之土,是木克土相克。自1872年起,在广东省中山小榄镇,每一甲戌年均举行一次菊
  • 王丽萍王丽萍可以指: