关联规则学习

✍ dations ◷ 2025-11-06 16:36:10 #数据挖掘

关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。

根据韩家炜等,关联规则定义为:

假设 I = { I 1 , I 2 , , I m } {\displaystyle I=\{I_{1},I_{2},\ldots ,I_{m}\}} 是项的集合。给定一个交易数据库 D = { t 1 , t 2 , , t n } {\displaystyle D=\{t_{1},t_{2},\ldots ,t_{n}\}} ,其中每个事务(Transaction)t是I的非空子集,即 t I {\displaystyle t\subseteq I} ,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如 X Y {\displaystyle X\Rightarrow Y} 的蕴涵式,其中 X , Y I {\displaystyle X,Y\subseteq I} X Y = {\displaystyle X\cap Y=\emptyset } X {\displaystyle X} Y {\displaystyle Y} 分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则 X Y {\displaystyle X\Rightarrow Y} 在D中的支持度(support)是D中事务包含 X Y {\displaystyle X\cup Y} 的百分比,即概率 P ( X Y ) {\displaystyle P(X\cup Y)} ;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率 P ( Y | X ) {\displaystyle P\left(Y|X\right)} 。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。

用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍 {\displaystyle \Rightarrow } 网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度 s u p p o r t = 3 6 = 0.5 {\displaystyle support={\frac {3}{6}}=0.5} ,置信度 c o n f i d e n t = 3 5 = 0.6 {\displaystyle confident={\frac {3}{5}}=0.6} 。若给定最小支持度 α = 0.5 {\displaystyle \alpha =0.5} ,最小置信度 β = 0.6 {\displaystyle \beta =0.6} ,关联规则网球拍 {\displaystyle \Rightarrow } 网球是有趣的,认为购买网球拍和购买网球之间存在强关联。

关联规则有以下常见分类:

根据关联规则所处理的值的类型

根据关联规则所涉及的数据维数

根据关联规则所涉及的抽象层次

Apriori算法所使用的前置统计量包括:

相关

  • 1918年流感大流行1918年流感大流行(英语:1918 flu pandemic)是于1918年1月至1920年12月间爆发的全球性甲型H1N1流感疫情,此次疫情造成全世界5亿人感染,5千万到1亿人死亡,传播范围达到太平洋群岛及
  • 所见即所得所见即所得(英语:What You See Is What You Get,缩写:WYSIWYG)是由菲利普·威尔逊(Flip Wilson)所提出的一种电脑文本编辑器方面的技术,使得编辑文字时在屏幕上直接呈现最终显示效果
  • 度假村度假村(英语:resort)是指一个用作休闲及娱乐用途的建筑群,作为吸引游客游览及停留之旅游景点。度假村通常由一间独公司营运,亦有集团合营例子。为了让游客充份享受假期,度假村内通
  • 新大陆新世界(英语:New World;拉丁语:Mundus Novus。中文也称新大陆),是欧洲人于15世纪末发现美洲大陆及邻近群岛后对这片新土地的称呼。“新世界”(Mundus Novus)一词最初是在亚美利哥·
  • 马尔萨斯增长模式马尔萨斯的增长模式(英文:Malthusian growth model),有时也称“简单的指数增长模型”,本质上是指数增长基础上以恒定的速率。
  • 潮间带潮间带(intertidal zone; foreshore; seashore)是在潮汐大潮期的绝对高潮和绝对低潮间露出的海岸。海水涨潮到最高位(高潮线)和退潮时退至最低位(低潮线)之间,会曝露在空气中的海岸
  • 枪枝管制加拿大的政策分为截然不同的两个派别。一派为反对对个人枪械进行登记,支持拥枪权,另一派则提出需要严格的控枪政策。自从1930年代枪械需要强制性登记起,枪械政策就成为加拿大的
  • 山慈菇山慈姑(学名:Asarum sagittarioides)是马兜铃科细辛属的植物,为中国的特有植物。分布在中国大陆的广西等地,生长于海拔960米至1,200米的地区,多生于山坡林下及溪边阴湿地,目前尚未
  • 台北第三高女台北市立中山女子高级中学,简称中山女高或中山女中,旧称台北第三高女、北二女中,创立于1897年,是一所位于台北市中山区的女子高中北市六省中之一,亦为台北市三所公立女子高中之一
  • 海军炮击二战期间同盟国海军对日炮击是指在第二次世界大战结束前的最后几周里,以美国海军、英国皇家海军和新西兰皇家海军军舰组成的盟军海军舰队对日本本土面向太平洋的沿海地区城市