关系规则学习

✍ dations ◷ 2025-12-01 16:53:22 #关系规则学习
关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。根据韩家炜等,关联规则定义为:假设 I = { I 1 , I 2 , … , I m } {displaystyle I={I_{1},I_{2},ldots ,I_{m}}} 是项的集合。给定一个交易数据库 D = { t 1 , t 2 , … , t n } {displaystyle D={t_{1},t_{2},ldots ,t_{n}}} ,其中每个事务(Transaction)t是I的非空子集,即 t ⊆ I {displaystyle tsubseteq I} ,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如 X ⇒ Y {displaystyle XRightarrow Y} 的蕴涵式,其中 X , Y ⊆ I {displaystyle X,Ysubseteq I} 且 X ∩ Y = ∅ {displaystyle Xcap Y=emptyset } , X {displaystyle X} 和 Y {displaystyle Y} 分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则 X ⇒ Y {displaystyle XRightarrow Y} 在D中的支持度(support)是D中事务包含 X ∪ Y {displaystyle Xcup Y} 的百分比,即概率 P ( X ∪ Y ) {displaystyle P(Xcup Y)} ;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率 P ( Y | X ) {displaystyle Pleft(Y|Xright)} 。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍 ⇒ {displaystyle Rightarrow } 网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度 s u p p o r t = 3 6 = 0.5 {displaystyle support={frac {3}{6}}=0.5} ,置信度 c o n f i d e n t = 3 5 = 0.6 {displaystyle confident={frac {3}{5}}=0.6} 。若给定最小支持度 α = 0.5 {displaystyle alpha =0.5} ,最小置信度 β = 0.6 {displaystyle beta =0.6} ,关联规则网球拍 ⇒ {displaystyle Rightarrow } 网球是有趣的,认为购买网球拍和购买网球之间存在强关联。关联规则有以下常见分类:根据关联规则所处理的值的类型根据关联规则所涉及的数据维数根据关联规则所涉及的抽象层次Apriori算法所使用的前置统计量包括:

相关

  • 谈迁谈迁(1594年11月23日-1658年1月14日),明末清初史学家,原名以训,字观若;明亡后改名迁,字孺木,明朝诸生,浙江杭州府海宁枣林(浙江海宁西南)人。《国榷》作者。万历二十一年(1594年)甲午十月
  • 重建派犹太教重建派(希伯来语:.mw-parser-output .script-hebrew,.mw-parser-output .script-Hebr{font-size:1.15em;font-family:"Ezra SIL","Ezra SIL SR","Keter Aram Tsova","Ta
  • 生化检验生物化学(英语:biochemistry,也作 biological chemistry),顾名思义是研究生物体中的化学进程的一门学科,常常被简称为生化。它主要用于研究细胞内各组分,如蛋白质、糖类、脂类、核
  • 还原型黄素腺嘌呤二核苷酸黄素腺嘌呤二核苷酸(英语:FAD),又称活性型维生素B2、核黄素-5'-腺苷二磷酸,是一种参与了重要的代谢反应的氧化还原辅酶。FAD是一种比NAD和NADP更强的氧化剂,能被1个电子或2个电子
  • 心脏起搏器心脏起搏器(英语:Pacemaker、Artificial pacemaker),又称心脏节律器,心脏起搏器,是一种医疗器材,使用电击对于心脏的肌肉做持续与规律的刺激,以维持心脏的持续跳动。1932年,美国的生
  • 伊本·路世德阿布·瓦利德·穆罕默德·伊本·阿马德·伊本·鲁世德(阿拉伯语:أبو الوليد محمد ابن احمد ابن رشد‎,1126年-1198年12月10日),又译为阿威罗伊、亚维侯
  • 熊大闰熊大闰(1938年9月16日-),中国天文学家。生于江西吉安,籍贯江西南昌。1962年毕业于北京大学地球物理系。1991年当选为中国科学院学部委员(院士)。中国科学院紫金山天文台研究员,国
  • 陈佳洱陈佳洱(1934年10月1日-),上海人,中国加速器物理学家,核物理学家,中国科学院院士及北京大学校长(1996—1999)。父亲是儿童文学作家陈伯吹。1934年10月1日出生于上海市。1950年就读于大
  • 西格列汀西格列汀(英语:Sitagliptin),商品名为佳糖维,是一种口服降糖药(抗糖尿病药),属于二肽基肽酶-4(DPP-4)抑制剂,由默克公司研发和销售。西格列汀可以单独应用也可以与其他口服降糖药组成复
  • 同源异型域结构 / ECOD同源(异形)框(英语:Homeobox),或称“同源匣”是某些影响动物、真菌及植物发育的基因所拥有的一段DNA序列,拥有同源框的基因称作同源异形基因,统称同源异形基因家族。这段