关联规则学习

✍ dations ◷ 2025-11-20 20:09:56 #数据挖掘

关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。

根据韩家炜等,关联规则定义为:

假设 I = { I 1 , I 2 , , I m } {\displaystyle I=\{I_{1},I_{2},\ldots ,I_{m}\}} 是项的集合。给定一个交易数据库 D = { t 1 , t 2 , , t n } {\displaystyle D=\{t_{1},t_{2},\ldots ,t_{n}\}} ,其中每个事务(Transaction)t是I的非空子集,即 t I {\displaystyle t\subseteq I} ,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如 X Y {\displaystyle X\Rightarrow Y} 的蕴涵式,其中 X , Y I {\displaystyle X,Y\subseteq I} X Y = {\displaystyle X\cap Y=\emptyset } X {\displaystyle X} Y {\displaystyle Y} 分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则 X Y {\displaystyle X\Rightarrow Y} 在D中的支持度(support)是D中事务包含 X Y {\displaystyle X\cup Y} 的百分比,即概率 P ( X Y ) {\displaystyle P(X\cup Y)} ;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率 P ( Y | X ) {\displaystyle P\left(Y|X\right)} 。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。

用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍 {\displaystyle \Rightarrow } 网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度 s u p p o r t = 3 6 = 0.5 {\displaystyle support={\frac {3}{6}}=0.5} ,置信度 c o n f i d e n t = 3 5 = 0.6 {\displaystyle confident={\frac {3}{5}}=0.6} 。若给定最小支持度 α = 0.5 {\displaystyle \alpha =0.5} ,最小置信度 β = 0.6 {\displaystyle \beta =0.6} ,关联规则网球拍 {\displaystyle \Rightarrow } 网球是有趣的,认为购买网球拍和购买网球之间存在强关联。

关联规则有以下常见分类:

根据关联规则所处理的值的类型

根据关联规则所涉及的数据维数

根据关联规则所涉及的抽象层次

Apriori算法所使用的前置统计量包括:

相关

  • 灵修灵修即“灵性的修炼”,宗教术语。世界宗教博物馆解释:“灵修是一种宗教的修行,涉及严肃的思维或沈思;此词源自于拉丁文,意谓著深奥且专注的思考。灵修可分为积极与消极两种:前者肯
  • CZn有机锌化合物是指含有碳-锌化学键的一类有机化合物。有机锌化学是一门研究有机锌化合物理化性质、合成和反应的学科。第一个被发现和制备的有机锌化合物是二乙基锌(Diethylzin
  • ɾ齿龈闪音(英语:alveolar tap;voiced alveolar tap;flap;濁齒齦閃音)为子音的一种。在IPA里,表示齿、齿龈及齿龈后闪音的符号为⟨ɾ⟩,其相对的X-SAMPA符号为⟨4⟩。日语 - そら (天空
  • 约翰·霍兰德约翰·亨利·霍兰德(英语:John Henry Holland,1929年2月2日-2015年8月9日),美国科学家,复杂理论和非线性科学的先驱,遗传算法之父。主要研究领域为复杂自适应系统、认知过程的计算机
  • 鬼太郎《鬼太郎》是由有“妖怪博士”之称的已故日本漫画家水木茂创作的漫画,于1960年开始连载。一开始以标题为“墓场鬼太郎”,后来作者水木茂于1967年将其名称改名为“ゲゲゲの鬼太
  • 祝希娟祝希娟(1938年1月17日-),原籍江西南昌,出生于江西赣州,中华人民共和国演员。荣获首届百花奖影后桂冠。1960年祝希娟毕业于上海戏剧学院,毕业后到上海青年话剧团任演员。 毕业前夕,当
  • 山东地理山东省地处中国东部沿海、黄河下游,濒临黄海和渤海。全省陆地处于北纬34°22.9′至38°24.0′,114°47.5′至122°42.3′之间。省境南北最长约400公里,东西最宽约700余公里,陆地
  • 猪 (消歧义)猪可以指:
  • 阿马蒂亚·库马尔·森阿马蒂亚·库马尔·森,CH(印地语:अमर्त्‍य कुमार सेन,英语:Amartya Sen,又译为沈恩,1933年11月3日-)以对福利经济学的贡献,获得诺贝尔经济学奖(1998年),后获得印度政府颁
  • 氯磺酸氯磺酸(化学式:HSO3Cl)是一种无色或淡黄色的液体,为剧毒。具有辛辣气味,在空气中发烟,是硫酸的一个-OH 基团被氯取代后形成的化合物。分子为四面体构型,取代的基团处于硫酸与硫酰氯