关系规则学习

✍ dations ◷ 2025-04-02 09:57:47 #关系规则学习
关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。根据韩家炜等,关联规则定义为:假设 I = { I 1 , I 2 , … , I m } {displaystyle I={I_{1},I_{2},ldots ,I_{m}}} 是项的集合。给定一个交易数据库 D = { t 1 , t 2 , … , t n } {displaystyle D={t_{1},t_{2},ldots ,t_{n}}} ,其中每个事务(Transaction)t是I的非空子集,即 t ⊆ I {displaystyle tsubseteq I} ,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如 X ⇒ Y {displaystyle XRightarrow Y} 的蕴涵式,其中 X , Y ⊆ I {displaystyle X,Ysubseteq I} 且 X ∩ Y = ∅ {displaystyle Xcap Y=emptyset } , X {displaystyle X} 和 Y {displaystyle Y} 分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则 X ⇒ Y {displaystyle XRightarrow Y} 在D中的支持度(support)是D中事务包含 X ∪ Y {displaystyle Xcup Y} 的百分比,即概率 P ( X ∪ Y ) {displaystyle P(Xcup Y)} ;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率 P ( Y | X ) {displaystyle Pleft(Y|Xright)} 。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍 ⇒ {displaystyle Rightarrow } 网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度 s u p p o r t = 3 6 = 0.5 {displaystyle support={frac {3}{6}}=0.5} ,置信度 c o n f i d e n t = 3 5 = 0.6 {displaystyle confident={frac {3}{5}}=0.6} 。若给定最小支持度 α = 0.5 {displaystyle alpha =0.5} ,最小置信度 β = 0.6 {displaystyle beta =0.6} ,关联规则网球拍 ⇒ {displaystyle Rightarrow } 网球是有趣的,认为购买网球拍和购买网球之间存在强关联。关联规则有以下常见分类:根据关联规则所处理的值的类型根据关联规则所涉及的数据维数根据关联规则所涉及的抽象层次Apriori算法所使用的前置统计量包括:

相关

  • H6N1亚型H6N1(英语:Influenza A virus subtype H6N1,记作A(H6N1)或H6N1)是一种甲型流感病毒,是禽流感病毒或禽流感病毒的一个亚型。H6N1最初于2013年6月21日在台湾发现,首例患者是一名住在
  • 失乐失乐(英语:Anhedonia)是指对原本能够带来快乐的活动(爱好、社交、交媾等)失去兴趣的现象。虽然早期对于失乐的定义强调“快感”,近年来人们更多地强调需要考虑这些快感行为的其他
  • 员工价员工价(英语:staff price)指劳工或雇员于任职的公司或关系企业或是签约过的特约商店,提供低于市价的商品或服务,贩卖给劳工。
  • 深颈动脉深颈动脉(Arteria cervicalis profunda)为颈部的一条动脉。深颈动脉源自于肋颈动脉干(英语:costocervical trunk),在某些个案该动脉会发源于锁骨下动脉。深颈动脉分出后会向后穿过
  • 马部,为汉字索引中的部首之一,康熙字典214个部首中的第一百八十七个(十划的则为第一个)。就繁体中文中,马部归于十划部首,而简体中文则归在三划。马部通常从左方、下方为部字。且
  • 4f14 5d9 6s12, 8, 18, 32, 17, 1蒸气压第一:870 kJ·mol−1 第二:1791 kJ·mol主条目:铂的同位素铂(拼音:bó,注音:ㄅㄛˊ,粤拼:bok6,英语:Platinum),化学元素,俗称白金,化学符号为Pt,原子
  • 自然史《博物志》(拉丁语:Naturalis Historia,又译《自然史》)是古罗马学者老普林尼在77年写成的一部著作,被认为是西方古代百科全书的代表作。全书共37卷,分为2500章节,引用了古希腊327
  • Zincke反应Zincke反应(Zincke reaction),以 Theodor Zincke 的名字命名。吡啶类与2,4-二硝基氯苯和伯胺反应,转变为吡啶盐。反应首步为N-2,4-二硝基苯基吡啶盐的生成。这个中间体一般分离
  • 二十第八第十埃及第二十王朝是古埃及历史上的一个王朝,其与第十八王朝和第十九王朝统称新王国时期。第二十王朝是新王国时期最后一个王朝,继其之后就是第三中间时期。第二十王朝的
  • 离散程度在统计学里,离散程度(英语:statistical dispersion)或变差(英语:variation)是指一个分布或随机变量的压缩和拉伸的程度。习惯上,离散程度更多地用来描述分布,而变差更多地用来描述随