关系规则学习

✍ dations ◷ 2025-06-28 11:43:02 #关系规则学习
关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。根据韩家炜等,关联规则定义为:假设 I = { I 1 , I 2 , … , I m } {displaystyle I={I_{1},I_{2},ldots ,I_{m}}} 是项的集合。给定一个交易数据库 D = { t 1 , t 2 , … , t n } {displaystyle D={t_{1},t_{2},ldots ,t_{n}}} ,其中每个事务(Transaction)t是I的非空子集,即 t ⊆ I {displaystyle tsubseteq I} ,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如 X ⇒ Y {displaystyle XRightarrow Y} 的蕴涵式,其中 X , Y ⊆ I {displaystyle X,Ysubseteq I} 且 X ∩ Y = ∅ {displaystyle Xcap Y=emptyset } , X {displaystyle X} 和 Y {displaystyle Y} 分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则 X ⇒ Y {displaystyle XRightarrow Y} 在D中的支持度(support)是D中事务包含 X ∪ Y {displaystyle Xcup Y} 的百分比,即概率 P ( X ∪ Y ) {displaystyle P(Xcup Y)} ;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率 P ( Y | X ) {displaystyle Pleft(Y|Xright)} 。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍 ⇒ {displaystyle Rightarrow } 网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度 s u p p o r t = 3 6 = 0.5 {displaystyle support={frac {3}{6}}=0.5} ,置信度 c o n f i d e n t = 3 5 = 0.6 {displaystyle confident={frac {3}{5}}=0.6} 。若给定最小支持度 α = 0.5 {displaystyle alpha =0.5} ,最小置信度 β = 0.6 {displaystyle beta =0.6} ,关联规则网球拍 ⇒ {displaystyle Rightarrow } 网球是有趣的,认为购买网球拍和购买网球之间存在强关联。关联规则有以下常见分类:根据关联规则所处理的值的类型根据关联规则所涉及的数据维数根据关联规则所涉及的抽象层次Apriori算法所使用的前置统计量包括:

相关

  • 种(拉丁语:Species)或称物种,生物分类的基本单位,位于生物分类法中最后一级,在属之下。较为笼统的概念,是指一群或多或少与其它这样的群体形态相同,并能够交配繁殖出具生殖能力后代
  • 脂肪细胞脂肪细胞(英语:adipocyte)是构成脂肪组织的主要细胞,专门用于将能量储存为脂肪。有两种脂肪组织:白色脂肪组织与棕色脂肪组织,也叫做白色脂肪和棕色脂肪,包括了两种脂肪细胞。白色
  • 代谢性疾病代谢综合征(metabolic syndrome)指生理代谢层面的心血管危险因子的聚集现象,这些危险因子主要包括高血压(或血压偏高但未达高血压诊断标准)、血脂异常(dyslipidemia)(包含血中三酸甘
  • 甘油丙三醇又称甘油,结构简式为HOCH2CHOHCH2OH或C3H5(OH)3,分子式为C3H8O3。丙三醇是无色无臭有甜味的黏性液体,沸点为290℃,吸水性很强。具有醇类的通性,例如可以与金属钠发生反应产
  • 呋喃妥英呋喃妥因(英语:Nitrofurantoin)商品名称Macrobid,是一种用作治疗尿道感染的抗生素。对于肾脏感染(英语:Pyelonephritis)不具效用,须以口服方式服用。常见副作用包含恶心、食欲不振、
  • 实体实体(英语:Entity)是有可区别性且内于其自身而独立存在的某种事物。但它不需是物理存在。尤其是抽象和法律拟制也通常被视为实体。实体可被看成是一包含有子集的集合。在哲学中
  • 波士顿新英格兰波士顿(英语:Boston)为美国马萨诸塞联邦(英语:Commonwealth (U.S. state))首府,占地面积 48平方英里(124 km2),2018年居民总数为694,583位,是马萨诸塞乃至新英格兰地区人口最
  • 尺骨附属韧带重建术尺骨附属韧带重建术(UCL, Ulnar Collateral Ligament Reconstruction)又称Tommy John韧带重建手术,此手术把受伤手肘尺骨的韧带用身上其他部位的韧带替换(通常是从病人的前臂、
  • 尊王攘夷尊王攘夷一词源自春秋时代,“尊王攘夷”一词最早见于《春秋公羊传》,该书是解释儒家经典《春秋》的三部专著之一。本意为“尊勤君王,攘斥外夷”,后来演化为具备复杂含义的政治术
  • 罗素第一代罗素伯爵约翰·罗素,KG,GCMG,PC(John Russell, 1st Earl Russell,1792年8月18日-1878年5月28日),活跃于19世纪中期的英国辉格党及自由党政治家,曾任英国首相,于1861年以前以约翰