关联规则学习

✍ dations ◷ 2025-08-29 03:52:15 #数据挖掘

关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。

根据韩家炜等,关联规则定义为:

假设 I = { I 1 , I 2 , , I m } {\displaystyle I=\{I_{1},I_{2},\ldots ,I_{m}\}} 是项的集合。给定一个交易数据库 D = { t 1 , t 2 , , t n } {\displaystyle D=\{t_{1},t_{2},\ldots ,t_{n}\}} ,其中每个事务(Transaction)t是I的非空子集,即 t I {\displaystyle t\subseteq I} ,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如 X Y {\displaystyle X\Rightarrow Y} 的蕴涵式,其中 X , Y I {\displaystyle X,Y\subseteq I} X Y = {\displaystyle X\cap Y=\emptyset } X {\displaystyle X} Y {\displaystyle Y} 分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则 X Y {\displaystyle X\Rightarrow Y} 在D中的支持度(support)是D中事务包含 X Y {\displaystyle X\cup Y} 的百分比,即概率 P ( X Y ) {\displaystyle P(X\cup Y)} ;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率 P ( Y | X ) {\displaystyle P\left(Y|X\right)} 。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。

用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍 {\displaystyle \Rightarrow } 网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度 s u p p o r t = 3 6 = 0.5 {\displaystyle support={\frac {3}{6}}=0.5} ,置信度 c o n f i d e n t = 3 5 = 0.6 {\displaystyle confident={\frac {3}{5}}=0.6} 。若给定最小支持度 α = 0.5 {\displaystyle \alpha =0.5} ,最小置信度 β = 0.6 {\displaystyle \beta =0.6} ,关联规则网球拍 {\displaystyle \Rightarrow } 网球是有趣的,认为购买网球拍和购买网球之间存在强关联。

关联规则有以下常见分类:

根据关联规则所处理的值的类型

根据关联规则所涉及的数据维数

根据关联规则所涉及的抽象层次

Apriori算法所使用的前置统计量包括:

相关

  • 冷颤冷颤(英语:Shivering)是恒温动物因早期失温症、感到寒冷的原因而做出的身体反应。当核心体温下降时,身体就会开始打冷颤以维持身体机能的稳态。人在发烧时,因身体感到寒冷,有时也
  • 法莫替丁法莫替丁(INN:famotidine),商品名称为Pepcid,是一种组胺H2受体阻抗剂,主要用于抑制胃酸的分泌,并用于治疗消化性溃疡和胃食道逆流。与西咪替丁不同,法莫替丁等第二代H2受体阻抗剂对
  • 颅面头在解剖学上是指动物的吻端部分,通常包括脑、眼、耳、鼻、口等器官(所有这些器官都支撑着各种感官功能,如视觉、听觉、嗅觉、味觉)。有些非常低等的动物可能没有头部,但多数两侧
  • 甲氧麻黄酮甲氧麻黄酮(英语:Mephedrone),又名4-甲基甲基卡西酮(4-MMC),英文俚称Meph、Drone和MCAT,常被称为喵喵,是一种人工合成的苯丙胺类及卡西酮类兴奋剂药物。人类施用该药物后,身体会产生之
  • 约翰·梅杰约翰·梅杰爵士,KG,CH (英语:Sir John Major,1943年3月29日-)是一名英国政治家,于1990年至1997年出任英国首相和英国保守党党魁。他曾于1987年至1990年间在玛格利特·撒切尔内阁相继
  • 城镇战城镇战又称为巷战(urban warfare),是指以人口聚居的城市或城镇,甚至是更大的都会区来作为主要战斗场所的现代化战争方式。在18世纪以前,由于军队多以包围城镇外的作战方式进行,通
  • 希尔佩里克一世希尔佩里克一世(539年-584年9月28日),法兰克王国墨洛温王朝的国王(567年3月5日-584年9月28日在位)。希尔佩里克一世是克洛泰尔一世与妻子阿恩贡德(英语:Aregund)的唯一儿子,查理贝尔
  • 桌面环境在计算机科学中,一个桌面环境(Desktop environment,有时称为桌面管理器)是对桌面比拟的实现。它由多个软件组成。一个桌面环境中的软件共享同一个图形用户界面。在一个典型的桌
  • 南开价格指数南开价格指数,是南开大学经济研究所自1927年开始编制的各种价格指数的统称。作为中国的第一个物价指数,南开价格指数是研究当时中国经济的重要参考指标,具有较高影响力和学术价
  • 让-马里·莱恩让-马里·莱恩(法语:Jean-Marie Lehn,1939年9月30日-),法国化学家,1987年诺贝尔化学奖获得者之一。他主要的研究领域是超分子化学 ,尤其是穴醚的合成。1901年:范托夫 |1902年:费歇尔 |