关系规则学习

✍ dations ◷ 2025-11-30 16:41:06 #关系规则学习
关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。根据韩家炜等,关联规则定义为:假设 I = { I 1 , I 2 , … , I m } {displaystyle I={I_{1},I_{2},ldots ,I_{m}}} 是项的集合。给定一个交易数据库 D = { t 1 , t 2 , … , t n } {displaystyle D={t_{1},t_{2},ldots ,t_{n}}} ,其中每个事务(Transaction)t是I的非空子集,即 t ⊆ I {displaystyle tsubseteq I} ,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如 X ⇒ Y {displaystyle XRightarrow Y} 的蕴涵式,其中 X , Y ⊆ I {displaystyle X,Ysubseteq I} 且 X ∩ Y = ∅ {displaystyle Xcap Y=emptyset } , X {displaystyle X} 和 Y {displaystyle Y} 分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则 X ⇒ Y {displaystyle XRightarrow Y} 在D中的支持度(support)是D中事务包含 X ∪ Y {displaystyle Xcup Y} 的百分比,即概率 P ( X ∪ Y ) {displaystyle P(Xcup Y)} ;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率 P ( Y | X ) {displaystyle Pleft(Y|Xright)} 。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍 ⇒ {displaystyle Rightarrow } 网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度 s u p p o r t = 3 6 = 0.5 {displaystyle support={frac {3}{6}}=0.5} ,置信度 c o n f i d e n t = 3 5 = 0.6 {displaystyle confident={frac {3}{5}}=0.6} 。若给定最小支持度 α = 0.5 {displaystyle alpha =0.5} ,最小置信度 β = 0.6 {displaystyle beta =0.6} ,关联规则网球拍 ⇒ {displaystyle Rightarrow } 网球是有趣的,认为购买网球拍和购买网球之间存在强关联。关联规则有以下常见分类:根据关联规则所处理的值的类型根据关联规则所涉及的数据维数根据关联规则所涉及的抽象层次Apriori算法所使用的前置统计量包括:

相关

  • 不死长生不老,指寿命长而不会衰老。相近的辞汇还有长生不死(在安全无外力状况下拥有无限的寿命,但依旧会老化)、不老不死(在安全无外力状况下不会衰老与死亡)、不朽(Immortality)与永生(
  • 发表偏差发表偏差(英语:publication bias)或称为抽屉问题(英语:file drawer problem),是在学术出版过程发生的一种现象。当某项研究是否发表的决定受着该研究的结论影响时,发表偏差便会发生
  • 乳品奶制品,奶类制品的简称,亦称乳制品、乳类食品或奶食品,以奶为基本原料加工而成的食品。除各种直接使用奶制成的饮料外还包括通过发酵获得的食品(奶酪和奶油)以及对奶进行干燥或者
  • 徐脉Bradycardia is a condition wherein an individual has a slow heart rate, typically defined as a heart rate of under 60 beats per minute (BPM) in adults. Bradycar
  • 坦博拉火山坦博拉火山(印尼语:Gunung Tambora)是印度尼西亚松巴哇岛上的一座活跃的层状火山。坦博拉火山的海拔高度达到2850米,火山口直径为6–7 km,深度为600–700 m. 是印度尼西亚群岛的
  • 宾布里金杰沃德宾布里金杰沃德是印度的城市,由马哈拉施特拉邦负责管辖,位于该国西部,始建于1982年10月11日,面积171.51平方公里,海拔高度530米,是主要的工业中心,2011年人口1,729,320。德里海德拉
  • 方仙道方仙道或神仙家是在春秋、战国时期形成的一类专门从事方术、方技等道术的人,时称方士。包括天文、医学、神仙、占卜、相术、堪舆等技艺并宣传服食、祭祀可以长生成仙的人。据
  • 空气门空气门(或称空气幕、风幕机、风闸、风门)是一种机械装置,一般装在门上,可将室内与室外的空气做隔绝,达到防止灰尘,节省冷气及防止蚊虫进入室内的效果。在超市、百货公司、政府部门
  • 马克斯·玻恩马克斯·玻恩,FRS(德语:Max Born,1882年12月11日-1970年1月5日),又译为马克斯·波恩、马科斯·波恩,是一名德国理论物理学家与数学家,对量子力学的发展做出了重要贡献,在固体物理学及
  • 树叶叶是高等植物的营养器官,侧边发育自植物的茎的叶原基。叶内含有叶绿体,是植物进行光合作用的主要场所。同时,植物的蒸散作用是通过叶的气孔实现的。叶只出现在真正的茎上,即只有