关联规则学习

✍ dations ◷ 2025-07-09 15:52:03 #数据挖掘

关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。

根据韩家炜等,关联规则定义为:

假设 I = { I 1 , I 2 , , I m } {\displaystyle I=\{I_{1},I_{2},\ldots ,I_{m}\}} 是项的集合。给定一个交易数据库 D = { t 1 , t 2 , , t n } {\displaystyle D=\{t_{1},t_{2},\ldots ,t_{n}\}} ,其中每个事务(Transaction)t是I的非空子集,即 t I {\displaystyle t\subseteq I} ,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如 X Y {\displaystyle X\Rightarrow Y} 的蕴涵式,其中 X , Y I {\displaystyle X,Y\subseteq I} X Y = {\displaystyle X\cap Y=\emptyset } X {\displaystyle X} Y {\displaystyle Y} 分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则 X Y {\displaystyle X\Rightarrow Y} 在D中的支持度(support)是D中事务包含 X Y {\displaystyle X\cup Y} 的百分比,即概率 P ( X Y ) {\displaystyle P(X\cup Y)} ;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率 P ( Y | X ) {\displaystyle P\left(Y|X\right)} 。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。

用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍 {\displaystyle \Rightarrow } 网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度 s u p p o r t = 3 6 = 0.5 {\displaystyle support={\frac {3}{6}}=0.5} ,置信度 c o n f i d e n t = 3 5 = 0.6 {\displaystyle confident={\frac {3}{5}}=0.6} 。若给定最小支持度 α = 0.5 {\displaystyle \alpha =0.5} ,最小置信度 β = 0.6 {\displaystyle \beta =0.6} ,关联规则网球拍 {\displaystyle \Rightarrow } 网球是有趣的,认为购买网球拍和购买网球之间存在强关联。

关联规则有以下常见分类:

根据关联规则所处理的值的类型

根据关联规则所涉及的数据维数

根据关联规则所涉及的抽象层次

Apriori算法所使用的前置统计量包括:

相关

  • 整合分析统计学上来说,元分析(meta-analysis,或译作后设分析、整合分析、综合分析、统合分析、荟萃分析)是指将多个研究结果整合在一起的统计方法。就用途而言,它是文献回顾的新方法。文
  • 收复失地运动基督徒:穆斯林:Kingdom of Portugal:收复失地运动(西班牙语、葡萄牙语:Reconquista,意为“重新征服”),亦称为复国运动、复地运动,是718至1492年间(安达卢斯或阿拉伯殖民西班牙的时期
  • 芭芭拉·麦克林托克芭芭拉·麦克林托克(英语:Barbara McClintock,1902年6月16日-1992年9月2日),美国著名女性细胞遗传学家。1983年获得诺贝尔生理学或医学奖,是首位没有共同得奖者、单独获得该奖项的
  • 鼩形目鼩形亚目(学名:Soricomorpha),又名鼩鼱亚目,是生物学上真盲缺目的一个分化支。在过去,鼩形亚目的动物都属于食虫目。后来发现食虫目属下的物种其实原来是多系群,所以有不少原来属于
  • 帆布帆布,一种粗厚的棉织物或麻织物,因最早用于制作船帆而得名。帆布质地厚实,坚硬耐磨,具备良好的防水性能。世界上第一条牛仔裤即以帆布缝制。主要用途为制作劳动保护服装、鞋、背
  • 成铁纪成铁(Siderian,符号PP1)是地质时代中的一个纪,开始于同位素年龄2500±0百万年(Ma),结束于2300±0Ma。成铁纪的名称来自于希语sideros“铁”,因这个时期是世界上形成特大型铁矿田,出现
  • 毫微克奈克,亦作毫微克,质量单位,符号ng(法语:nanogramme)。奈克是一个极微少的质量单位。1奈克等于十亿分之一克(10-9克)
  • 图们江细鳞鲑图们江细鳞鲑(学名:Brachymystax tumensis),为辐鳍鱼纲鲑形目鲑科细鳞鲑属的一种,为温带淡水鱼,分布于亚洲俄罗斯萨哈林岛、阿穆尔河、中国及北朝鲜图们江流域,栖息在底中层水域,生
  • AXNAXN是索尼影业拥有的电视网,于1997年9月21日在日本Sky PerfecTV!平台启播,AXN至今已于全世界不同的地区播放。AXN 24小时播放电视剧、电影、动画、真实历险和体育节目。AXN亚
  • 巽他人.mw-parser-output ruby.zy{text-align:justify;text-justify:none}.mw-parser-output ruby.zy>rp{user-select:none}.mw-parser-output ruby.zy>rt{font-feature-settings: