关联规则学习

✍ dations ◷ 2025-07-13 20:08:08 #数据挖掘

关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。

根据韩家炜等,关联规则定义为:

假设 I = { I 1 , I 2 , , I m } {\displaystyle I=\{I_{1},I_{2},\ldots ,I_{m}\}} 是项的集合。给定一个交易数据库 D = { t 1 , t 2 , , t n } {\displaystyle D=\{t_{1},t_{2},\ldots ,t_{n}\}} ,其中每个事务(Transaction)t是I的非空子集,即 t I {\displaystyle t\subseteq I} ,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如 X Y {\displaystyle X\Rightarrow Y} 的蕴涵式,其中 X , Y I {\displaystyle X,Y\subseteq I} X Y = {\displaystyle X\cap Y=\emptyset } X {\displaystyle X} Y {\displaystyle Y} 分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则 X Y {\displaystyle X\Rightarrow Y} 在D中的支持度(support)是D中事务包含 X Y {\displaystyle X\cup Y} 的百分比,即概率 P ( X Y ) {\displaystyle P(X\cup Y)} ;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率 P ( Y | X ) {\displaystyle P\left(Y|X\right)} 。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。

用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍 {\displaystyle \Rightarrow } 网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度 s u p p o r t = 3 6 = 0.5 {\displaystyle support={\frac {3}{6}}=0.5} ,置信度 c o n f i d e n t = 3 5 = 0.6 {\displaystyle confident={\frac {3}{5}}=0.6} 。若给定最小支持度 α = 0.5 {\displaystyle \alpha =0.5} ,最小置信度 β = 0.6 {\displaystyle \beta =0.6} ,关联规则网球拍 {\displaystyle \Rightarrow } 网球是有趣的,认为购买网球拍和购买网球之间存在强关联。

关联规则有以下常见分类:

根据关联规则所处理的值的类型

根据关联规则所涉及的数据维数

根据关联规则所涉及的抽象层次

Apriori算法所使用的前置统计量包括:

相关

  • 叙任权斗争叙任权斗争(英语:Investiture Controversy)或叙任权争夺(英语:Investiture Contest)是中世纪欧洲最著名的重大冲突事件,矛盾的双方是教会和世俗君主。在11和12世纪之际,数位教宗挑战
  • 布若卡氏区布洛卡区(英文:Broca's area)也译为布罗卡区是大脑的一区,它主管语言讯息的处理、话语的产生。与韦尼克区共同形成语言系统。布若卡氏区与韦尼克区通常位于脑部的优势半脑(通常位
  • HNOsub5/subS亚硝基硫酸是一种硫的含氧酸,化学式为NOHSO4。它在化学反应用于提供NO+离子。它也可以被看做硫酸和亚硝酸的混合酸酐:NOHSO4在有机化学用于从胺制备重氮盐。一种典型的方法是
  • 约翰斯顿环礁约翰斯顿环礁(英语:Johnston Atoll),位于北太平洋中部,是波利尼西亚群岛的组成部分之一,属于美国无建制领土。东北距夏威夷檀香山1328公里,有重要战略地位。约翰斯顿环礁主要由约翰
  • 农艺学农学,狭义上专指农艺学(英语:Agronomy)是研究与农作物生产相关领域的科学,包括作物生长发育规律及其与外界环境条件的关系、病虫害防治、土壤与营养、种植制度、遗传育种等领域。
  • 王道四配颜回 · 孟子 · 曾参 · 孔伋日本藤原惺窝 · 林罗山 · 室鸠巢新井白石 · 雨森芳洲朝鲜薛聪 · 权近 · 吉再 · 安珦 · 李穑李滉 · 王仁 · 李齐贤 
  • 菲舍尔恩斯特·奥托·菲舍尔(德语:Ernst Otto Fischer,1918年11月10日-2007年7月23日),德国化学家。因对金属有机化合物的研究与杰弗里·威尔金森一起获得1973年诺贝尔化学奖。1901年:范
  • 纳机电系统奈机电系统(英语:Nanoelectromechanical systems,简称NEMS)与 微机电系统(MEMS)概念相似,不过尺度更小。他们承诺具有革命性的能力去测量小到分子尺度的位移和力,并且与纳米科技密切
  • 狂战士狂战士(Berserker),是北欧神话与传说中的一种战士。狂战士,berserk 此字的由来意指“披熊皮者”,由 ber“熊”与 serk“衣衫”组成。后来意思转变,成为具有异常力量,在发怒时,可以进
  • 细胞信号传送细胞信息传递(英语:cell signaling)是一个主管细胞基本活动并协调细胞行为的复杂沟通系统。细胞对周遭微环境进行感知与正确回应的能力是其发展、修复组织、免疫以及体内正常动