关系规则学习

✍ dations ◷ 2025-01-23 06:20:17 #关系规则学习
关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。根据韩家炜等,关联规则定义为:假设 I = { I 1 , I 2 , … , I m } {displaystyle I={I_{1},I_{2},ldots ,I_{m}}} 是项的集合。给定一个交易数据库 D = { t 1 , t 2 , … , t n } {displaystyle D={t_{1},t_{2},ldots ,t_{n}}} ,其中每个事务(Transaction)t是I的非空子集,即 t ⊆ I {displaystyle tsubseteq I} ,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如 X ⇒ Y {displaystyle XRightarrow Y} 的蕴涵式,其中 X , Y ⊆ I {displaystyle X,Ysubseteq I} 且 X ∩ Y = ∅ {displaystyle Xcap Y=emptyset } , X {displaystyle X} 和 Y {displaystyle Y} 分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则 X ⇒ Y {displaystyle XRightarrow Y} 在D中的支持度(support)是D中事务包含 X ∪ Y {displaystyle Xcup Y} 的百分比,即概率 P ( X ∪ Y ) {displaystyle P(Xcup Y)} ;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率 P ( Y | X ) {displaystyle Pleft(Y|Xright)} 。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍 ⇒ {displaystyle Rightarrow } 网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度 s u p p o r t = 3 6 = 0.5 {displaystyle support={frac {3}{6}}=0.5} ,置信度 c o n f i d e n t = 3 5 = 0.6 {displaystyle confident={frac {3}{5}}=0.6} 。若给定最小支持度 α = 0.5 {displaystyle alpha =0.5} ,最小置信度 β = 0.6 {displaystyle beta =0.6} ,关联规则网球拍 ⇒ {displaystyle Rightarrow } 网球是有趣的,认为购买网球拍和购买网球之间存在强关联。关联规则有以下常见分类:根据关联规则所处理的值的类型根据关联规则所涉及的数据维数根据关联规则所涉及的抽象层次Apriori算法所使用的前置统计量包括:

相关

  • 肾绞痛肾绞痛(Renal colic),腹痛的一种类型,多由肾结石或输尿管结石引发。肾绞痛并不是一种独立的疾病,而是一种症状,因而病因也有可能是其他原因而引发。医学导航:泌尿系统解剖/生理/发
  • 油,是由一种或多种液态的碳氢化合物组成的物质。由于油具有疏水性的特性,“油”亦是许多与水不溶之液体的总称。而可以在油中溶解的物质都具有亲油性,一般不溶于水。油和水可以
  • 学士学士(Bachelor或Bachelor's Degree,衍生自中世纪拉丁语Baccalaureus一词)是高等教育本科阶段授予的学位名称。在现代教育中,尤以医学学士是不得经由转学考或其他入学途径录取的
  • 兰斯兰斯(法语:Reims,法语发音:.mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","Lucida Sans Unicode","Code2000","Gentium","Genti
  • 情迷索玛莉《我为玛丽狂》(英语:There's Something About Mary)是一套1998年的美国浪漫喜剧电影,由Farrelly兄弟执导,卡梅隆·迪亚兹、Matt Dillon及本·斯蒂勒主演。内容围绕着万人迷玛丽
  • 线圈电感器(inductor)是一种电路元件,会因为通过的电流的改变而产生电动势,从而抵抗电流的改变。这属性称为电感。电感元件有许多种形式,依据外观与功用的不同,而会有不同的称呼。以漆
  • 前世回溯前世回溯(英语:Past life regression), 又称前世催眠(英语:Past life hypnosis),是一种记忆回溯,指透过催眠或其他的方式, 从大脑的潜意识中,回溯人们对前世的经历及记忆。前世催眠是透
  • 汤姆逊河大学坐标:50°40′6.32″N 120°21′56.22″W / 50.6684222°N 120.3656167°W / 50.6684222; -120.3656167在校:14,099 远程教育:12,658汤姆逊河大学(英语:Thompson Rivers Univers
  • 结疤疤痕是皮肤损伤后取代正常皮肤的纤维组织(纤维化),它是生物身体皮肤和其他组织的创面修复过程中的结果。因此,疤痕是自然愈合过程的一部分。除了非常轻微的病变,每一个伤口(如意外
  • V07A·B·C·D·G·H·QI·J·L·M·N·P·R·S·VATC代码V07(其它所有的非治疗用品)是解剖学治疗学及化学分类系统的一个药物分组,这是由世界卫生组织药物统计方法整合中心(The WH