关联规则学习

✍ dations ◷ 2025-09-18 09:54:35 #数据挖掘

关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。

根据韩家炜等,关联规则定义为:

假设 I = { I 1 , I 2 , , I m } {\displaystyle I=\{I_{1},I_{2},\ldots ,I_{m}\}} 是项的集合。给定一个交易数据库 D = { t 1 , t 2 , , t n } {\displaystyle D=\{t_{1},t_{2},\ldots ,t_{n}\}} ,其中每个事务(Transaction)t是I的非空子集,即 t I {\displaystyle t\subseteq I} ,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如 X Y {\displaystyle X\Rightarrow Y} 的蕴涵式,其中 X , Y I {\displaystyle X,Y\subseteq I} X Y = {\displaystyle X\cap Y=\emptyset } X {\displaystyle X} Y {\displaystyle Y} 分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则 X Y {\displaystyle X\Rightarrow Y} 在D中的支持度(support)是D中事务包含 X Y {\displaystyle X\cup Y} 的百分比,即概率 P ( X Y ) {\displaystyle P(X\cup Y)} ;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率 P ( Y | X ) {\displaystyle P\left(Y|X\right)} 。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。

用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍 {\displaystyle \Rightarrow } 网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度 s u p p o r t = 3 6 = 0.5 {\displaystyle support={\frac {3}{6}}=0.5} ,置信度 c o n f i d e n t = 3 5 = 0.6 {\displaystyle confident={\frac {3}{5}}=0.6} 。若给定最小支持度 α = 0.5 {\displaystyle \alpha =0.5} ,最小置信度 β = 0.6 {\displaystyle \beta =0.6} ,关联规则网球拍 {\displaystyle \Rightarrow } 网球是有趣的,认为购买网球拍和购买网球之间存在强关联。

关联规则有以下常见分类:

根据关联规则所处理的值的类型

根据关联规则所涉及的数据维数

根据关联规则所涉及的抽象层次

Apriori算法所使用的前置统计量包括:

相关

  • 酸碱平衡酸度系数(英语:Acid dissociation constant,又名酸解离常数,代号Ka、pKa、pKa值),在化学及生物化学中,是指一个特定的平衡常数,以代表一种酸解离氢离子的能力。该平衡状况是指由一种
  • 盐桥盐桥 (Salt bridge) 在化学上是指一种实验装置,用以连接贾凡尼电池(伏打电池,一种电化电池)的氧化半电池和还原半电池。盐桥通常分为两类:玻璃管型和滤纸型。此型盐桥由U型管和填
  • 阿维农阿维尼翁(法语:Avignon,法语发音:.mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","Lucida Sans Unicode","Code2000","Gentium",
  • 下级勋位爵士下级勋位爵士(英语:Knight Bachelor),中文通称“爵士勋衔”。为是英国荣誉制度中的一种勋位。此勋位虽然由君主授勋为骑士,但它并不属于骑士勋章之一种。下级勋位爵士是英国最古
  • 埃托雷·索特萨斯埃托雷·索特萨斯(英语:Ettore Sottsass,1917年9月14日-2007年12月31日)是二十世纪一位重要的意大利建筑师和设计师。他的设计包含家具、珠宝、玻璃、灯光、家居用品、办公设备、
  • Kremer, Michael迈克尔·罗伯特·克雷默(英语:Michael Robert Kremer,1964年11月12日- ),美国发展经济学家。1985年获哈佛大学社交研究文学士学位,1992年获经济学哲学博士学位,1992年到1993年担任麻
  • 法国教育法国教育制度是高度中央集权的、组织化的,可以分为三个阶段:初等教育和中等教育以公立学校占优势(私立学校也存在,特别是天主教中小学校在全国自成体系),而高等教育则兼有公立和私
  • 讣告讣告(“讣”,拼音:fù,注音:ㄈㄨˋ,音同“付”),是丧家用来向亲族、亲戚、亲友及公众人士报丧的实用文书,以报刊、电视台、电台广播、电话、电报、传真、柬帖或电邮等媒介发布关于某
  • 电子组态电子排布,或称电子排序、电子构型,指电子在原子、分子或其他物理结构中的每一层电子层上的排序及排列形态。正如其他基本粒子,电子遵从量子物理学,而不是一般的经典物理学;电子也
  • 杨弘远杨弘远(1933年3月25日-2010年11月18日),生于湖北武汉,祖籍湖南长沙,武汉大学教授,中国被子植物胚胎学的开拓者之一,中国科学院院士。1933年生于湖北省武汉市,祖籍湖南省长沙市。1954